CN104331396A - 一种智能识别广告的方法 - Google Patents
一种智能识别广告的方法 Download PDFInfo
- Publication number
- CN104331396A CN104331396A CN201410689545.8A CN201410689545A CN104331396A CN 104331396 A CN104331396 A CN 104331396A CN 201410689545 A CN201410689545 A CN 201410689545A CN 104331396 A CN104331396 A CN 104331396A
- Authority
- CN
- China
- Prior art keywords
- information
- advertisement
- probability
- word
- character library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种智能识别广告的方法,特别是对在海量资讯中识别出广告的解决方法,建立一个字库和一个停用字库,停用词库包括一些出现概率比较高的副词,语气词等,选择一定数量的样本,其中包括广告和普通资讯,分别提取出广告和普通资讯的特征,根据贝叶斯算法算出两个分类的特征概率,生成模型,模型在使用中不断的优化,提高模型对广告判断的精确度和召回率,如判断出来的广告大于资讯概率,则判断该资讯为广告。
Description
技术领域
本发明涉及智能软件对广告资讯的识别,特别地涉及一种在互联网应用中,在海量资讯中识别出广告资讯的方法。
背景技术
互联网目前是大家获取资讯的重要渠道,每天在互联网上产生的资讯成百上千万,其中包括了很多软文广告,大量的广告信息极大的降低了用户的阅读兴趣,且消耗了流量,给用造成了伤害;
如何在海量的资讯中识别出这样的广告,是我们重点攻克的难点。使用关键字过滤,是目前可行且效果比较好的方法,但是精确度并不高,而且也很容易被一些广告规避。所以我们主要研究如何用类贝叶斯方式分类出广告和普通资讯。
目前广告资讯智能识别方法是:建立一个字库和一个停用字库。其中字库包括所有的常用汉字,大概6000左右,当然,这个需要根据实际情况不断的调整。停用词库包括一些出现概率比较高的副词,语气词等。加入停用字库还有一个原则,就是一些中性字,不能显示出普通资讯和广告区别的。选择一定数量的样本,其中包括广告和普通资讯,分别提取出广告和普通资讯的特征,根据贝叶斯算法算出两个分类的特征概率,生成模型。模型在使用中不断的优化,提高模型对广告判断的精确度和召回率。有资讯需要判断时,需要按照生成样本的规则提取出特征,再把该特征和模型中的进行比较,如果模型判断出来的广告概率大于资讯概率,则判断该资讯为广告。
发明内容
本发明的主要目的是提供一种智能识别广告的方法,特别地涉及一种在互联网应用中,对海量资讯识别出广告的方法。提升用户获取资讯的成本。
为解决上述问题,提供如下解决方案:
1,建立常用汉字库和停用字库,从普通资讯和广告中提取出常用的词作为常用词库。对于一些副词和语气词和广告和资讯的中性字,则加入停用字库。
2,选择一定量的样本,样本中需要有广告和资讯,样本的比例按照日常广告和资讯的比例。样本包括标题和内容。
3,每个样本中提取出每个字在标题和内容中出现的频率,标题出现的权重要大于内容出现的权重。如果该字没有出现,则记为0。
4,根据类贝叶斯公式,建立出模型。
5,对需要判断的资讯提取每一个字出现的频率。算出每个字的权重。
6,根据现有的模型计算出该资讯属于广告和资讯的概率。根据概率的大小,判断该资讯是广告还是普通资讯。
具体实施方式:
1,建立常用字库,分析所有已有资讯的标题和内容,提取每一个中文汉字,按照一定的顺序排列存储。形成一个常用字库。常用字库建立完成之后,基本不会再有变化。
2,建立停用字库,把常用的副词,语气词,还有一些中性词,添加到停用字库。后期会根据实际情况,继续添加一些中性字。
3,取出一定量的普通资讯样本,这些样本资讯应该包含各个分类的资讯。能在各个分类中有一定的代表性。提取样本标题的字和资讯内容字。其中标题的字占的权重比内容字占的权重要高。再根据标题和内容的长度,算出该字在这篇文章中出现的频率。
4, 取出一定量的广告资讯样本,广告样本需要有明显的广告特征。和步骤3一样,对广告资讯进行字频率的提取。
5, pw1 为字1出现的概率。I 为正常的资讯,A为广告资讯。则正常资讯的表达式为 P(I|pw1,pw2,pw3….)。广告的资讯的概率为P(A|pw1,pw2,pw3….)。把所有的样本训练出来的数据保存成一个集合。
6, 有新的资讯需要判断,则把资讯的标题和内容按照常用字库进行顺序分解,停用字库的字直接放弃。算出p(pw1,pw2,pw3…) 的概率。根据现有的样本集合,算出出该资讯是正常资讯和广告的概率各是多少。如果广告的概率大于正常的资讯概率,则判断该资讯为广告。
Claims (7)
1.一种只能识别广告的方法,其特征在于,所述方法包括:
能判断出资讯是普通资讯还是广告资讯,先根据中文的所有常用汉字,建立常用汉字库,再建立停用字库,把一些副词和中性字加入到停用字库中,使用一定量的样本,提取出每个字出现的概率,广告的资讯和普通资讯字出现的概率是不同的,根据累贝叶斯公式训练出模型,有新的资讯需要判断,则需要按照形成模型的方法,把该条资讯出现的字概率算出来,跟模型的样本进行比较,算出该资讯是广告还是普通资讯。
2.根据权利要求1所述的方法,其特征在于,还包括:
建立常用字库,常用字库的建立一定要包含所有的中文常用字,中文常用字大概6000左右,一般确定之后就不会再改动。
3.根据权利要求1所述的方法,其特征在于,还包括:
建立停用字库,停用字库的作用在于规避一些出现频率比较高的副词,感叹词,中性词对计算字概率的干扰,停用字库需要根据实际情况不停的维护。
4.根据权利要求1所述的方法,其特征在于,还包括:
选择一定量的资讯样本,抽取每个样本的标题和内容,计算出每个字在这篇文章中出现的概率,标题的权重要比内容的权重高。
5.根据权利要求4所述的方法,其特征在于,还包括
选取的样本中要包含大量的普通资讯和一部分的广告资讯,因为按照实际的情况在海量的资讯中,广告占的比例比较少,普通资讯占的比例比较高。
6.根据权利要求1的方法,其特征在于,还包括:
根据4所提取出来的的数据,对所有样本使用类贝叶斯公式进行建模,模型保存到一个文件。
7.根据权利要求1的方法,其特征在于,还包括:
有新的资讯需要判断时,根据4所示的方法提取该条资讯字出现的概率,再使用模型中的数据进行比较,判断该资讯是广告还是普通资讯。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410689545.8A CN104331396A (zh) | 2014-11-26 | 2014-11-26 | 一种智能识别广告的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410689545.8A CN104331396A (zh) | 2014-11-26 | 2014-11-26 | 一种智能识别广告的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104331396A true CN104331396A (zh) | 2015-02-04 |
Family
ID=52406125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410689545.8A Pending CN104331396A (zh) | 2014-11-26 | 2014-11-26 | 一种智能识别广告的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104331396A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105337793A (zh) * | 2015-09-24 | 2016-02-17 | 网宿科技股份有限公司 | 一种网络线路广告监控方法、系统、及一种服务器 |
CN105912935A (zh) * | 2016-05-03 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 广告检测方法及广告检测装置 |
CN108804413A (zh) * | 2018-04-28 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 文本作弊的识别方法及装置 |
CN110704615A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 互联网金融非显性广告识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US20060031306A1 (en) * | 2004-04-29 | 2006-02-09 | International Business Machines Corporation | Method and apparatus for scoring unsolicited e-mail |
CN101155182A (zh) * | 2006-09-30 | 2008-04-02 | 阿里巴巴公司 | 一种基于网络的垃圾信息过滤方法和装置 |
CN101166160A (zh) * | 2006-10-20 | 2008-04-23 | 阿里巴巴公司 | 一种过滤即时通讯垃圾信息的方法和系统 |
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
-
2014
- 2014-11-26 CN CN201410689545.8A patent/CN104331396A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161130A (en) * | 1998-06-23 | 2000-12-12 | Microsoft Corporation | Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set |
US20060031306A1 (en) * | 2004-04-29 | 2006-02-09 | International Business Machines Corporation | Method and apparatus for scoring unsolicited e-mail |
CN101155182A (zh) * | 2006-09-30 | 2008-04-02 | 阿里巴巴公司 | 一种基于网络的垃圾信息过滤方法和装置 |
CN101166160A (zh) * | 2006-10-20 | 2008-04-23 | 阿里巴巴公司 | 一种过滤即时通讯垃圾信息的方法和系统 |
CN101477544A (zh) * | 2009-01-12 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种识别垃圾文本的方法和系统 |
CN101996241A (zh) * | 2010-10-22 | 2011-03-30 | 东南大学 | 一种基于贝叶斯算法的内容过滤方法 |
Non-Patent Citations (5)
Title |
---|
刘明川等: "《基于贝叶斯概率模型的邮件过滤算法探讨》", 《重庆邮电学院学报(自然科学版)》 * |
崔争艳: "《中文短文本分类的相关技术研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
崔彩霞: "《基于字特征的短信分类方法研究》", 《太原师范学院学报(自然科学版)》 * |
林伟等: "《一种基于N-Gram的垃圾邮件过滤方法研究》", 《计算机应用与软件》 * |
王梦云等: "《基于字频向量的中文文本自动分类系统》", 《情报学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105337793A (zh) * | 2015-09-24 | 2016-02-17 | 网宿科技股份有限公司 | 一种网络线路广告监控方法、系统、及一种服务器 |
CN105337793B (zh) * | 2015-09-24 | 2018-08-07 | 网宿科技股份有限公司 | 一种网络线路广告监控方法、系统、及一种服务器 |
CN105912935A (zh) * | 2016-05-03 | 2016-08-31 | 腾讯科技(深圳)有限公司 | 广告检测方法及广告检测装置 |
CN105912935B (zh) * | 2016-05-03 | 2019-06-14 | 腾讯科技(深圳)有限公司 | 广告检测方法及广告检测装置 |
CN108804413A (zh) * | 2018-04-28 | 2018-11-13 | 百度在线网络技术(北京)有限公司 | 文本作弊的识别方法及装置 |
CN110704615A (zh) * | 2019-09-04 | 2020-01-17 | 北京航空航天大学 | 互联网金融非显性广告识别方法及装置 |
CN110704615B (zh) * | 2019-09-04 | 2021-01-26 | 北京航空航天大学 | 互联网金融非显性广告识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Filtering out the noise in short text topic modeling | |
Agarwal | Research on data preprocessing and categorization technique for smartphone review analysis | |
WO2019085236A1 (zh) | 检索意图识别方法、装置、电子设备及可读存储介质 | |
Luo et al. | An effective approach to tweets opinion retrieval | |
Suresh | An unsupervised fuzzy clustering method for twitter sentiment analysis | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN103914494A (zh) | 一种微博用户身份识别方法及系统 | |
US20140032207A1 (en) | Information Classification Based on Product Recognition | |
CN103324745A (zh) | 基于贝叶斯模型的文本垃圾识别方法和系统 | |
EP3392783A1 (en) | Similar word aggregation method and apparatus | |
Alami et al. | Cybercrime profiling: Text mining techniques to detect and predict criminal activities in microblog posts | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
CN105095222B (zh) | 单元词替换方法、搜索方法及装置 | |
CN103761239A (zh) | 一种利用表情符号对微博进行情感倾向分类的方法 | |
CN105956740B (zh) | 一种基于文本逻辑特征的语义风险计算方法 | |
CN103377249A (zh) | 关键词投放方法及系统 | |
CN104331396A (zh) | 一种智能识别广告的方法 | |
CN112559747A (zh) | 事件分类处理方法、装置、电子设备和存储介质 | |
CN104978332A (zh) | 用户生成内容标签数据生成方法、装置及相关方法和装置 | |
CN102436480A (zh) | 一种面向文本的知识单元关联关系挖掘方法 | |
CN106919997B (zh) | 一种基于lda的电子商务的用户消费预测方法 | |
CN104281694A (zh) | 一种文本情感倾向分析系统 | |
CN103218368A (zh) | 一种挖掘热词的方法与装置 | |
Medvet et al. | Brand-related events detection, classification and summarization on twitter | |
JP2014099045A (ja) | プロフィール推定装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20150204 |
|
RJ01 | Rejection of invention patent application after publication |