CN109635115A - 一种基于人工智能自动屏蔽或提示软文广告的方法和系统 - Google Patents
一种基于人工智能自动屏蔽或提示软文广告的方法和系统 Download PDFInfo
- Publication number
- CN109635115A CN109635115A CN201811542709.9A CN201811542709A CN109635115A CN 109635115 A CN109635115 A CN 109635115A CN 201811542709 A CN201811542709 A CN 201811542709A CN 109635115 A CN109635115 A CN 109635115A
- Authority
- CN
- China
- Prior art keywords
- advertisement
- data
- soft
- soft literary
- literary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于人工智能自动屏蔽或提示软文广告的方法和系统,属于网络应用及人工智能技术领域,该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。一种基于人工智能自动屏蔽或提示软文广告的系统,包括数据采集模块、数据分析模块、数据处理模块和自然语言分析模块。本发明能够有效分辨及屏蔽软文广告,减少用户上网时受软文广告的干扰,维护用户的权利,节省上网时间。
Description
技术领域
本发明涉及网络应用及人工智能技术领域,具体地说是一种基于人工智能自动屏蔽或提示软文广告的方法和系统。
背景技术
广义的软文广告通常指企业通过策划在报纸、杂志或网络等宣传载体上刊登的可以提升企业品牌形象和知名度,或可以促进企业销售的一些宣传性、阐释性文章,包括特定的新闻报道、深度文章、付费短文广告、案例分析等。软文一般泛指所有含有软性宣传的文字内容,是相对于硬性广告而言,由企业的市场策划人员或广告公司的文案人员来负责撰写的"文字广告"。与硬广告相比,软文之所以叫做软文,精妙之处就在于一个"软"字,好似绵里藏针,收而不露,克敌于无形,等到发现这是一篇软文的时候,你已经冷不丁的掉入了被精心设计过的"软文广告"陷阱。
在当前的网络环境中,网络软文正在逐渐成为网络广告的主流载体,同时,因其具有极强的效果和传播能力,对消费者群体的影响是巨大的,而且目前各网络媒体平台为了保护自身利益,对软文广告基本采取放任态度。消费者群体急需通过技术手段有效的对网络软文进行过滤和屏蔽。
发明内容
本发明的技术任务是针对以上不足之处,提供一种基于人工智能自动屏蔽或提示软文广告的方法和系统,能够有效分辨及屏蔽软文广告,减少用户上网时受软文广告的干扰,节省时间。
本发明解决其技术问题所采用的技术方案是:
一种基于人工智能自动屏蔽或提示软文广告的方法,该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;
通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;
根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。
其中所述的自然语言分析卷积神经网络在使用前进行训练,设定判别软文文章标准,在使用时,根据用户的标记进行训练与更新。
具体的,该方法的实现步骤如下:
所述屏蔽软件在用户点击某个链接后,预先扫描网页内容,通过html标签获取网页正文内容,包括文字内容和图片内容;
将获取的网页主体内容中的文字部分存入待处理数据,网页中的图片部分则通过图片转换文字软件进行转换,图片转换的文字也存入待处理数据;
对待处理数据进行预处理,使其符合卷积神经网络输入要求,预处理后的数据作为输入数据输入卷积神经网络进行自然语言分析;
通过卷积神经网络进行的自然语言分析,判断该网页内容是否为软文广告;
若判定为软文广告,则根据用户设置对网页进行屏蔽或在加载网页时添加软文广告标识,提醒用户注意。
优选的,所述数据预处理通过正则表达式的方式去除待处理数据中的不符合神经网络输入要求的数据,将数据扁平化,重新分布权值。
进一步的,所述不符合神经网络输入要求的数据包括数字、符号及英文。
优选的,所述数据处理还包括分词和计算词频。
具体的,在自然语言分析卷积神经网络分析数据时,设置广告成分阈值,通过卷积神经网络进行的自然语言分析得出该段数据中广告成分的占比,当该比例超过所述阈值,则判定该网页内容为软文广告。
本发明还公开了一种基于人工智能自动屏蔽或提示软文广告的系统,包括数据采集模块、数据分析模块、数据处理模块和自然语言分析模块,
数据采集模块用于获取网页正文内容,包括文字内容和图片内容;
数据分析模块用于分析数据采集模块采集的网页内容,将文字内容直接发送至数据处理模块;图片内容转换成文字后发送至数据处理模块;
数据处理模块用于去除待处理数据中的不符合自然语言分析模块的元素,将数据扁平化、重新分布权值;
自然语言分析模块通过卷积神经网络得出数据中广告成分占比,将该占比与阈值比较,当该广告成分占比超过阈值时,判定该网页内容为软文广告并进行处理。
具体的,所述数据处理模块采用正则表达式的方式去除待处理数据中的数字、符号及英文。
进一步的,所述数据处理模块的数据处理还包括分词和计算词频。
进一步的,该系统还包括用户自定义模块,用于设置被判定为软文广告的网页,屏蔽该网页或在页面上添加醒目的标识,对软文广告本质进行说明和提醒。
本发明的一种基于人工智能自动屏蔽或提示软文广告的方法和系统与现有技术相比,具有以下有益效果:
该方法能够使用户有效的分辨或屏蔽软文广告,减少受广告的干扰程度,提醒用户正在浏览含有广告成分的文章,防止广告厂商的心理战术和消费导向灌输,能够维护用户的自由选择的权利以及获取信息时的公平原则。
通过使用该系统,保证用户的上网环境,对网页中的软文广告进行识别,有效的对网络软文进行识别和判定,根据用户设置进行屏蔽或在显著位置标记,有效保护消费者的权益。
附图说明
图1是本发明的基于人工智能自动屏蔽或提示软文广告的系统结构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
一种基于人工智能自动屏蔽或提示软文广告的方法,该方法通过设置屏蔽软件,该屏蔽软件在用户浏览网页前提前获取网页的正文文字内容,将获取的文字内容通过自然语言分析卷积神经网络进行分类;
通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;
根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。以此来保证用户的上网质量,减少软文广告的干扰,为用户节省时间,保证用户的网络环境。
其中所述的自然语言分析卷积神经网络在使用前进行训练,设定判别软文文章的标准,在使用时,根据用户的标记不断的进行训练与更新。通过利用卷积神经网络,保证对软文广告的识别随软文广告的不断创新而实时优化,持续优化网络环境,保证用户的权益。
具体的,该方法的实现步骤如下:
用户在点击某个链接后,该网页内容首先由屏蔽软件进行加载预先扫描网页内容,屏蔽软件通过html标签获取网页主体内容,包括文字内容和图片内容。
将获取的网页主体内容中的文字部分存入待处理数据,网页主体中的图片部分则通过图片转换文字软件进行转换,这里不限制图片转文字软件的选择,凡是能够达到这一功能的软件都可以使用,图片转换的文字也存入待处理数据。
之后,通过各种技术手段对待处理数据进行预处理,使其符合卷积神经网络输入要求,预处理后的数据作为输入数据输入卷积神经网络进行自然语言分析;预处理包括但不限于通过正则表达式的方式去除待处理数据中的不符合神经网络输入要求的数据,将数据扁平化,重新分布权值,分词,计算词频等。其中,所述不符合神经网络输入要求的数据包括数字、符号及英文。
预处理后的数据将作为输入数据输入卷积神经网络进行自然语言分析,通过卷积神经网络进行的自然语言分析,判断该网页内容是否为软文广告。这里需要说明的是,卷积神经网络只是自然语言分析并得出结论的一种方法,为公知技术,实现该目的的卷积神经网络的详细的建模方法均不脱离本发明的保护范围。
在自然语言分析卷积神经网络分析数据时,设置广告成分阈值,通过卷积神经网络进行的自然语言分析得出该段数据中广告成分的占比,当该比例超过所述阈值,则判定该网页内容为软文广告。
若判定为软文广告,则根据用户设置,屏蔽对网页的访问,或在加载网页时添加醒目的软文广告标识,对其软文广告本质进行说明和提醒。
在本发明的另一个实施例中,一种基于人工智能自动屏蔽或提示软文广告的系统,该系统包括数据采集模块、数据分析模块、数据处理模块以及自然语言分析模块,其中,
数据采集模块用于获取网页正文内容,包括文字内容和图片内容;
数据分析模块用于分析数据采集模块采集的网页内容,将文字内容直接发送至数据处理模块;图片内容转换成文字后发送至数据处理模块;
数据处理模块用于去除待处理数据中的不符合自然语言分析模块的元素,将数据扁平化、重新分布权值;所述数据处理模块包括但不限于通过正则表达式的方式去除待处理数据中的数字、符号及英文;数据处理模块的数据处理还包括分词和计算词频;
自然语言分析模块通过卷积神经网络得出数据中广告成分占比,将该占比与阈值比较,当该广告成分占比超过阈值时,判定该网页内容为软文广告并进行处理。
用户点击网页链接后,数据采集模块首先通过html标签获取网页主题内容,数据分析模块将主体内容中的文字部分存入待处理数据,网页主体中的图片部分则通过图片转文字软件进行转换,网页主体中的图片中提取的文字也存入待处理数据;
完成待处理数据集后,数据处理模块首先进行数据的预处理,包括但不限于通过正则表达式的方式去除待处理数据中的数字、符号及英文等不符合神经网络输入要求的数据,将数据扁平化,重新分布权值等,之后将处理过的数据作为与处理数据;
将预处理数据输入卷积神经网络进行自然语言分析,通过自然语言分析模块得出该段数据中含有广告的成分,若正文部分含有的广告成分高于阈值,则该文章及网页判断为软文广告。
该系统还可以包括用户自定义模块,用于设置被判定为软文广告的网页,用户可以自主选择设置,对于判定为软文广告的文章及网页,屏蔽该网页或在页面上添加醒目的标识,对软文广告本质进行说明和提醒。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (10)
1.一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于该方法通过设置屏蔽软件,获取网页的正文文字内容,并将获取的文字内容通过自然语言分析卷积神经网络进行分类;
通过自然语言分析卷积神经网络分类预测为正文中含有广告内容的网页被定义为软文文章;
根据设置,被定义为软文文章的网页无法打开或打开时在明显位置标记为软文。
2.根据权利要求1所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于该方法的具体实现步骤如下:
所述屏蔽软件在用户点击某个链接后,预先扫描网页内容,通过html标签获取网页正文内容,包括文字内容和图片内容;
将获取的网页主体内容中的文字部分存入待处理数据,网页中的图片部分则通过图片转换文字软件进行转换,图片转换的文字也存入待处理数据;
对待处理数据进行预处理,使其符合卷积神经网络输入要求,预处理后的数据作为输入数据输入卷积神经网络进行自然语言分析;
通过卷积神经网络进行的自然语言分析,判断该网页内容是否为软文广告;
若判定为软文广告,则根据设置对网页进行屏蔽或在加载网页时添加软文广告标识。
3.根据权利要求2所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述数据预处理通过正则表达式的方式去除待处理数据中的不符合神经网络输入要求的数据,将数据扁平化,重新分布权值。
4.根据权利要求3所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述不符合神经网络输入要求的数据包括数字、符号及英文。
5.根据权利要求3或4所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于所述数据处理还包括分词和计算词频。
6.根据权利要求1或2所述的一种基于人工智能自动屏蔽或提示软文广告的方法,其特征在于设置广告成分阈值,通过卷积神经网络进行的自然语言分析得出该段数据中广告成分的占比,当该比例超过所述阈值,则判定该网页内容为软文广告。
7.一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于包括数据采集模块、数据分析模块、数据处理模块和自然语言分析模块,
数据采集模块用于获取网页正文内容,包括文字内容和图片内容;
数据分析模块用于分析数据采集模块采集的网页内容,将文字内容直接发送至数据处理模块;图片内容转换成文字后发送至数据处理模块;
数据处理模块用于去除待处理数据中的不符合自然语言分析模块的元素,将数据扁平化、重新分布权值;
自然语言分析模块通过卷积神经网络得出数据中广告成分占比,将该占比与阈值比较,当该广告成分占比超过阈值时,判定该网页内容为软文广告并进行处理。
8.根据权利要求7所述的一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于所述数据处理模块采用正则表达式的方式去除待处理数据中的数字、符号及英文。
9.根据权利要求7或8所述的一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于所述数据处理模块的数据处理还包括分词和计算词频。
10.根据权利要求7所述的一种基于人工智能自动屏蔽或提示软文广告的系统,其特征在于该系统还包括用户自定义模块,用于设置被判定为软文广告的网页,屏蔽该网页或在页面上添加醒目的标识,对软文广告本质进行说明和提醒。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542709.9A CN109635115A (zh) | 2018-12-17 | 2018-12-17 | 一种基于人工智能自动屏蔽或提示软文广告的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542709.9A CN109635115A (zh) | 2018-12-17 | 2018-12-17 | 一种基于人工智能自动屏蔽或提示软文广告的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109635115A true CN109635115A (zh) | 2019-04-16 |
Family
ID=66074717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811542709.9A Pending CN109635115A (zh) | 2018-12-17 | 2018-12-17 | 一种基于人工智能自动屏蔽或提示软文广告的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109635115A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427935A (zh) * | 2019-06-28 | 2019-11-08 | 华为技术有限公司 | 一种网页元素识别的方法及服务器 |
CN115937855A (zh) * | 2023-03-10 | 2023-04-07 | 四川语璐科技有限公司 | 一种基于大数据的智能设备控制方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1723525A (zh) * | 2002-07-25 | 2006-01-18 | Google公司 | 通过互联网提供过滤的和/或屏蔽的广告的系统和方法 |
US20090112844A1 (en) * | 2007-10-30 | 2009-04-30 | Yahoo! Inc. | Representative keyword selection |
CN101819582A (zh) * | 2009-02-27 | 2010-09-01 | 捷讯研究有限公司 | 链接广告标记词的系统和方法 |
CN102591983A (zh) * | 2012-01-10 | 2012-07-18 | 凤凰在线(北京)信息技术有限公司 | 一种广告过滤系统及其过滤方法 |
CN106599177A (zh) * | 2016-12-12 | 2017-04-26 | 国云科技股份有限公司 | 一种广告页面屏蔽的处理方法 |
-
2018
- 2018-12-17 CN CN201811542709.9A patent/CN109635115A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1723525A (zh) * | 2002-07-25 | 2006-01-18 | Google公司 | 通过互联网提供过滤的和/或屏蔽的广告的系统和方法 |
US20090112844A1 (en) * | 2007-10-30 | 2009-04-30 | Yahoo! Inc. | Representative keyword selection |
CN101819582A (zh) * | 2009-02-27 | 2010-09-01 | 捷讯研究有限公司 | 链接广告标记词的系统和方法 |
CN102591983A (zh) * | 2012-01-10 | 2012-07-18 | 凤凰在线(北京)信息技术有限公司 | 一种广告过滤系统及其过滤方法 |
CN106599177A (zh) * | 2016-12-12 | 2017-04-26 | 国云科技股份有限公司 | 一种广告页面屏蔽的处理方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110427935A (zh) * | 2019-06-28 | 2019-11-08 | 华为技术有限公司 | 一种网页元素识别的方法及服务器 |
CN115937855A (zh) * | 2023-03-10 | 2023-04-07 | 四川语璐科技有限公司 | 一种基于大数据的智能设备控制方法及系统 |
CN115937855B (zh) * | 2023-03-10 | 2023-06-06 | 四川语璐科技有限公司 | 一种基于大数据的智能设备控制方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shahi et al. | Amused: an annotation framework of multimodal social media data | |
US10298531B2 (en) | Analyzing email threads | |
Kim et al. | Tourists’ shifting perceptions of UNESCO heritage sites: lessons from Jeju Island-South Korea | |
CN104504150A (zh) | 新闻舆情监测系统 | |
CN102473190A (zh) | 为网页分配关键词 | |
CN106649491A (zh) | 一种基于自然语言分析技术的信息推送系统 | |
CN109635115A (zh) | 一种基于人工智能自动屏蔽或提示软文广告的方法和系统 | |
WO2013140263A2 (en) | Systems and methods for extraction of policy information | |
CN106649347A (zh) | 一种兴趣信息的识别方法及装置 | |
US20130097494A1 (en) | Method and system for visual cues to facilitate navigation through an ordered set of documents | |
CN106776640A (zh) | 一种股票资讯信息展示方法和装置 | |
CN102902794A (zh) | 网页分类系统及方法 | |
CN104992318A (zh) | 行事历主动推荐事件的方法 | |
CN102902790A (zh) | 网页分类系统及方法 | |
CN104572874B (zh) | 一种网页信息的抽取方法及装置 | |
CN111581533B (zh) | 目标对象的状态识别方法、装置、电子设备和存储介质 | |
Bojesen et al. | Annotating otoliths with a deep generative model | |
Kim | The Lessons of Google Glass: Aligning Key Benefits and Sociability | |
Hüttig et al. | Tool-based gradual user modeling for usability engineering | |
CN105243133A (zh) | 一种搜索记录显示方法及电子设备 | |
Coudert | Automatically detect Dark patterns in cookie banners | |
Machado et al. | Artificial intelligence and patents in Brazil: Overview on patentability and comparative study on patent filings | |
Pratama et al. | Analysis of Student Academic Performance and Social Media Activities by Using Data Mining Approach | |
Yim et al. | Examining dependencies among different time scales in episodic memory–an experience sampling study | |
Weichselbraun et al. | Classifying News Media Coverage for Corruption Risks Management with Deep Learning and Web Intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190416 |
|
RJ01 | Rejection of invention patent application after publication |