CN104331396A - 一种智能识别广告的方法 - Google Patents

一种智能识别广告的方法 Download PDF

Info

Publication number
CN104331396A
CN104331396A CN201410689545.8A CN201410689545A CN104331396A CN 104331396 A CN104331396 A CN 104331396A CN 201410689545 A CN201410689545 A CN 201410689545A CN 104331396 A CN104331396 A CN 104331396A
Authority
CN
China
Prior art keywords
information
advertisement
probability
word
character library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410689545.8A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ying Weinuo Science And Technology Ltd Of Shenzhen
Original Assignee
Ying Weinuo Science And Technology Ltd Of Shenzhen
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ying Weinuo Science And Technology Ltd Of Shenzhen filed Critical Ying Weinuo Science And Technology Ltd Of Shenzhen
Priority to CN201410689545.8A priority Critical patent/CN104331396A/zh
Publication of CN104331396A publication Critical patent/CN104331396A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种智能识别广告的方法,特别是对在海量资讯中识别出广告的解决方法,建立一个字库和一个停用字库,停用词库包括一些出现概率比较高的副词,语气词等,选择一定数量的样本,其中包括广告和普通资讯,分别提取出广告和普通资讯的特征,根据贝叶斯算法算出两个分类的特征概率,生成模型,模型在使用中不断的优化,提高模型对广告判断的精确度和召回率,如判断出来的广告大于资讯概率,则判断该资讯为广告。

Description

一种智能识别广告的方法
技术领域
本发明涉及智能软件对广告资讯的识别,特别地涉及一种在互联网应用中,在海量资讯中识别出广告资讯的方法。
背景技术
互联网目前是大家获取资讯的重要渠道,每天在互联网上产生的资讯成百上千万,其中包括了很多软文广告,大量的广告信息极大的降低了用户的阅读兴趣,且消耗了流量,给用造成了伤害;
如何在海量的资讯中识别出这样的广告,是我们重点攻克的难点。使用关键字过滤,是目前可行且效果比较好的方法,但是精确度并不高,而且也很容易被一些广告规避。所以我们主要研究如何用类贝叶斯方式分类出广告和普通资讯。
目前广告资讯智能识别方法是:建立一个字库和一个停用字库。其中字库包括所有的常用汉字,大概6000左右,当然,这个需要根据实际情况不断的调整。停用词库包括一些出现概率比较高的副词,语气词等。加入停用字库还有一个原则,就是一些中性字,不能显示出普通资讯和广告区别的。选择一定数量的样本,其中包括广告和普通资讯,分别提取出广告和普通资讯的特征,根据贝叶斯算法算出两个分类的特征概率,生成模型。模型在使用中不断的优化,提高模型对广告判断的精确度和召回率。有资讯需要判断时,需要按照生成样本的规则提取出特征,再把该特征和模型中的进行比较,如果模型判断出来的广告概率大于资讯概率,则判断该资讯为广告。
发明内容
本发明的主要目的是提供一种智能识别广告的方法,特别地涉及一种在互联网应用中,对海量资讯识别出广告的方法。提升用户获取资讯的成本。
为解决上述问题,提供如下解决方案:
1,建立常用汉字库和停用字库,从普通资讯和广告中提取出常用的词作为常用词库。对于一些副词和语气词和广告和资讯的中性字,则加入停用字库。
2,选择一定量的样本,样本中需要有广告和资讯,样本的比例按照日常广告和资讯的比例。样本包括标题和内容。
3,每个样本中提取出每个字在标题和内容中出现的频率,标题出现的权重要大于内容出现的权重。如果该字没有出现,则记为0。
4,根据类贝叶斯公式,建立出模型。
5,对需要判断的资讯提取每一个字出现的频率。算出每个字的权重。
6,根据现有的模型计算出该资讯属于广告和资讯的概率。根据概率的大小,判断该资讯是广告还是普通资讯。
具体实施方式:
1,建立常用字库,分析所有已有资讯的标题和内容,提取每一个中文汉字,按照一定的顺序排列存储。形成一个常用字库。常用字库建立完成之后,基本不会再有变化。
2,建立停用字库,把常用的副词,语气词,还有一些中性词,添加到停用字库。后期会根据实际情况,继续添加一些中性字。
3,取出一定量的普通资讯样本,这些样本资讯应该包含各个分类的资讯。能在各个分类中有一定的代表性。提取样本标题的字和资讯内容字。其中标题的字占的权重比内容字占的权重要高。再根据标题和内容的长度,算出该字在这篇文章中出现的频率。
4, 取出一定量的广告资讯样本,广告样本需要有明显的广告特征。和步骤3一样,对广告资讯进行字频率的提取。
5, pw1 为字1出现的概率。I 为正常的资讯,A为广告资讯。则正常资讯的表达式为 P(I|pw1,pw2,pw3….)。广告的资讯的概率为P(A|pw1,pw2,pw3….)。把所有的样本训练出来的数据保存成一个集合。
6, 有新的资讯需要判断,则把资讯的标题和内容按照常用字库进行顺序分解,停用字库的字直接放弃。算出p(pw1,pw2,pw3…) 的概率。根据现有的样本集合,算出出该资讯是正常资讯和广告的概率各是多少。如果广告的概率大于正常的资讯概率,则判断该资讯为广告。

Claims (7)

1.一种只能识别广告的方法,其特征在于,所述方法包括:
能判断出资讯是普通资讯还是广告资讯,先根据中文的所有常用汉字,建立常用汉字库,再建立停用字库,把一些副词和中性字加入到停用字库中,使用一定量的样本,提取出每个字出现的概率,广告的资讯和普通资讯字出现的概率是不同的,根据累贝叶斯公式训练出模型,有新的资讯需要判断,则需要按照形成模型的方法,把该条资讯出现的字概率算出来,跟模型的样本进行比较,算出该资讯是广告还是普通资讯。
2.根据权利要求1所述的方法,其特征在于,还包括:
建立常用字库,常用字库的建立一定要包含所有的中文常用字,中文常用字大概6000左右,一般确定之后就不会再改动。
3.根据权利要求1所述的方法,其特征在于,还包括:
建立停用字库,停用字库的作用在于规避一些出现频率比较高的副词,感叹词,中性词对计算字概率的干扰,停用字库需要根据实际情况不停的维护。
4.根据权利要求1所述的方法,其特征在于,还包括:
选择一定量的资讯样本,抽取每个样本的标题和内容,计算出每个字在这篇文章中出现的概率,标题的权重要比内容的权重高。
5.根据权利要求4所述的方法,其特征在于,还包括
选取的样本中要包含大量的普通资讯和一部分的广告资讯,因为按照实际的情况在海量的资讯中,广告占的比例比较少,普通资讯占的比例比较高。
6.根据权利要求1的方法,其特征在于,还包括:
根据4所提取出来的的数据,对所有样本使用类贝叶斯公式进行建模,模型保存到一个文件。
7.根据权利要求1的方法,其特征在于,还包括:
有新的资讯需要判断时,根据4所示的方法提取该条资讯字出现的概率,再使用模型中的数据进行比较,判断该资讯是广告还是普通资讯。
CN201410689545.8A 2014-11-26 2014-11-26 一种智能识别广告的方法 Pending CN104331396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410689545.8A CN104331396A (zh) 2014-11-26 2014-11-26 一种智能识别广告的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410689545.8A CN104331396A (zh) 2014-11-26 2014-11-26 一种智能识别广告的方法

Publications (1)

Publication Number Publication Date
CN104331396A true CN104331396A (zh) 2015-02-04

Family

ID=52406125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410689545.8A Pending CN104331396A (zh) 2014-11-26 2014-11-26 一种智能识别广告的方法

Country Status (1)

Country Link
CN (1) CN104331396A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337793A (zh) * 2015-09-24 2016-02-17 网宿科技股份有限公司 一种网络线路广告监控方法、系统、及一种服务器
CN105912935A (zh) * 2016-05-03 2016-08-31 腾讯科技(深圳)有限公司 广告检测方法及广告检测装置
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN110704615A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 互联网金融非显性广告识别方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US20060031306A1 (en) * 2004-04-29 2006-02-09 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101166160A (zh) * 2006-10-20 2008-04-23 阿里巴巴公司 一种过滤即时通讯垃圾信息的方法和系统
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US20060031306A1 (en) * 2004-04-29 2006-02-09 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
CN101166160A (zh) * 2006-10-20 2008-04-23 阿里巴巴公司 一种过滤即时通讯垃圾信息的方法和系统
CN101477544A (zh) * 2009-01-12 2009-07-08 腾讯科技(深圳)有限公司 一种识别垃圾文本的方法和系统
CN101996241A (zh) * 2010-10-22 2011-03-30 东南大学 一种基于贝叶斯算法的内容过滤方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
刘明川等: "《基于贝叶斯概率模型的邮件过滤算法探讨》", 《重庆邮电学院学报(自然科学版)》 *
崔争艳: "《中文短文本分类的相关技术研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
崔彩霞: "《基于字特征的短信分类方法研究》", 《太原师范学院学报(自然科学版)》 *
林伟等: "《一种基于N-Gram的垃圾邮件过滤方法研究》", 《计算机应用与软件》 *
王梦云等: "《基于字频向量的中文文本自动分类系统》", 《情报学报》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105337793A (zh) * 2015-09-24 2016-02-17 网宿科技股份有限公司 一种网络线路广告监控方法、系统、及一种服务器
CN105337793B (zh) * 2015-09-24 2018-08-07 网宿科技股份有限公司 一种网络线路广告监控方法、系统、及一种服务器
CN105912935A (zh) * 2016-05-03 2016-08-31 腾讯科技(深圳)有限公司 广告检测方法及广告检测装置
CN105912935B (zh) * 2016-05-03 2019-06-14 腾讯科技(深圳)有限公司 广告检测方法及广告检测装置
CN108804413A (zh) * 2018-04-28 2018-11-13 百度在线网络技术(北京)有限公司 文本作弊的识别方法及装置
CN110704615A (zh) * 2019-09-04 2020-01-17 北京航空航天大学 互联网金融非显性广告识别方法及装置
CN110704615B (zh) * 2019-09-04 2021-01-26 北京航空航天大学 互联网金融非显性广告识别方法及装置

Similar Documents

Publication Publication Date Title
Li et al. Filtering out the noise in short text topic modeling
Agarwal Research on data preprocessing and categorization technique for smartphone review analysis
WO2019085236A1 (zh) 检索意图识别方法、装置、电子设备及可读存储介质
Luo et al. An effective approach to tweets opinion retrieval
Suresh An unsupervised fuzzy clustering method for twitter sentiment analysis
CN107544988B (zh) 一种获取舆情数据的方法和装置
CN103914494A (zh) 一种微博用户身份识别方法及系统
US20140032207A1 (en) Information Classification Based on Product Recognition
CN103324745A (zh) 基于贝叶斯模型的文本垃圾识别方法和系统
EP3392783A1 (en) Similar word aggregation method and apparatus
Alami et al. Cybercrime profiling: Text mining techniques to detect and predict criminal activities in microblog posts
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
CN105095222B (zh) 单元词替换方法、搜索方法及装置
CN103761239A (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN105956740B (zh) 一种基于文本逻辑特征的语义风险计算方法
CN103377249A (zh) 关键词投放方法及系统
CN104331396A (zh) 一种智能识别广告的方法
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN104978332A (zh) 用户生成内容标签数据生成方法、装置及相关方法和装置
CN102436480A (zh) 一种面向文本的知识单元关联关系挖掘方法
CN106919997B (zh) 一种基于lda的电子商务的用户消费预测方法
CN104281694A (zh) 一种文本情感倾向分析系统
CN103218368A (zh) 一种挖掘热词的方法与装置
Medvet et al. Brand-related events detection, classification and summarization on twitter
JP2014099045A (ja) プロフィール推定装置、方法、及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150204

RJ01 Rejection of invention patent application after publication