CN104636487A - 一种广告信息管理方法 - Google Patents

一种广告信息管理方法 Download PDF

Info

Publication number
CN104636487A
CN104636487A CN201510088375.2A CN201510088375A CN104636487A CN 104636487 A CN104636487 A CN 104636487A CN 201510088375 A CN201510088375 A CN 201510088375A CN 104636487 A CN104636487 A CN 104636487A
Authority
CN
China
Prior art keywords
document
classification
lexical item
word
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510088375.2A
Other languages
English (en)
Inventor
蒋大可
何俊
莫燕峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HUBEI JINCHU NETWORK TECHNOLOGY CO., LTD.
Original Assignee
Hubei Optical Valley Is Medium Ltd Co All Over World
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei Optical Valley Is Medium Ltd Co All Over World filed Critical Hubei Optical Valley Is Medium Ltd Co All Over World
Priority to CN201510088375.2A priority Critical patent/CN104636487A/zh
Publication of CN104636487A publication Critical patent/CN104636487A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种信息管理的方法,特别是一种广告信息管理方法,运用该方法可以通过使用向量空间模型的建模方法将非结构化的文本数据转换成可计算的结构化数据,然后利用文本间的相似度进行聚类分析,热点分析,自定义关键词自动搜索以及考核统计平台来实现纸媒、网站等各媒体的广告业务管理。本发明的独到之处在于:无需人工操作,聚类分析准确率高,考核与评价准确、客观。

Description

一种广告信息管理方法
技术领域
本发明涉及一种信息管理的方法,特别是一种广告信息管理方法。
背景技术
现阶段各媒体对于广告信息的管理多为人工操作,但随着媒体广告信息量的增加,客户的要求越来越高,传统的人工管理的弊端也逐渐显现出来,例如人工分类效率低、不准确,无法精确检索,对以发布的广告信息不能进行精确的考核评分。
发明内容
  本发明的目的在于提供一种广告信息管理方法,运用该方法可以通过使用向量空间模型的建模方法将非结构化的文本数据转换成可计算的结构化数据,然后利用文本间的相似度进行聚类分析,热点分析,自定义关键词自动搜索以及考核统计平台来实现纸媒、网站等各媒体的广告业务管理。
  实现本发明目的的技术方案是:一种广告信息管理方法,其特征在于:包括以下步骤:
1.1.将非结构化的广告信息文本数据转换成可计算的结构化数据,把文档的语义通过构成文档的词项来表达,将n篇文档的每篇文档表示成m维的向量d1, d2,…, dn,构造成一个m×n的特征文档矩阵,m表示文档词项总数量;
1.2.将文档分词;
1.3.将文档去停用词;
1.4.计算词条在文档中的最终权重值,公式如下:
                                                 
将词项在一篇文档中出现的次数,定义为 ,表示词项t在文档d中出现的次数;逆文档率是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目;
1.5.选维,采用以下公式计算文档中的词项t与文档类别c的互信息MI:
MI度量的是词的存在与否给类别c带来的信息量,其中Nxy表示x=et和y=ec情况下对应的文档数目,当文档包含词项t时,et=1,否则et=0;当文档属于类别c时,ec=1,否则ec=0。
1.6.最终生成VSM矩阵(向量空间模型)表示为:
      
1.7.根据生成的VSM文档矩阵(文档矩阵就是词以及词在文档中的权重值组成的队列,按照权重值的大到小排序),每个文档中权重较高的词便可表达广告的主题,选出3~10个权重较高的词做为广告的类别,再比较广告的类别,将类别相似度较高的广告划分为同一类别,便于检索。
而且每条信息都有一定的关注度的统计,每当有人浏览这篇文章,关注度就会加1,设定一个热点新闻关注度的阀值,将达到关注度阀值的文章内容设定为热点,热点有标签可以区分,并根据热度的不同用不同颜色进行标注。
而且用户可自定义设置关键字对全媒体汇聚中心的数据进行检索,设置完成后系统对数据进行检索,并按照不同的类别(数字报、网站、成品库、资料库)自动列出与关键字有关的最新文章,这里关键词的搜索可采用正则表达式来实现,进行关键词和文章特征匹配,如果匹配到相应关键词就列出相应文章。
而且具有考核统计平台,首选查出新报道与已有事件的相似度,然后找出相似度文件(相应的收藏率、点击率、转载率、文字评论也会自动统计出来),最后参考已有评价数据对新报道进行评分,其中新报道与已有事件类之间的相似度被定义如下:
其中,W1k、W2k分别表示文本D1D2第K个特征项的权值,1<=k<=N。
本发明的优点在于:1.通过使用向量空间模型的建模方法将非结构化的文本数据转换成可计算的结构化数据,然后利用文本间的相似度进行聚类以及热点分析,无需人工操作且准确率高。2.可自定义关键词自动搜索,匹配度高。3.具有考核统计平台,可以通过量化的数据对现有的广告信息进行考核与评价,准确、客观。
附图说明
图1是向量空间模型详细的构建流程。
具体实施方式
  参见图1以下将结合实施例对本发明做进一步说明。
一种信息管理的方法,特别是一种广告信息管理方法,其特征在于:包括以下步骤:
1.1.将非结构化的广告信息文本数据转换成可计算的结构化数据,把文档的语义通过构成文档的词项来表达,将n篇文档的每篇文档表示成m维的向量d1, d2,…, dn,构造成一个m×n的特征文档矩阵,m表示文档词项总数量;
将非结构化的文本数据转换成可计算的结构化数据,利用文本间的相似度进行聚类分析。
1.2.将文档分词;
文本分词最常用的算法是:基于字符串匹配的分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功,即识别出一个词。
1.3.将文档去停用词;
去停用词可以从网上下载一些停用词表,然后根据文本去匹配词表,如果查找到这些词,就把这些词从文本中去掉。
1.4.计算词条在文档中的最终权重值,公式如下:
 
将词项在一篇文档中出现的次数,定义为,表示词项t在文档d中出现的次数;逆文档率是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目。
逆文档率用于减弱语料中频繁出现的词项的重要程度,因为频繁词项的区分度较弱。
1.5.选维,采用以下公式计算文档中的词项t与文档类别c的互信息MI:
MI度量的是词的存在与否给类别c带来的信息量,其中Nxy表示x=et和y=ec情况下对应的文档数目,当文档包含词项t时,et=1,否则et=0;当文档属于类别c时,ec=1,否则ec=0。
比如N10表示包含词项t(此时et=1)但不属于类别c(此时ec=0)的;N1.=N10+N11表示所有包含词项t的文档数目,N.1=N11+N01表示所有属于类c的文档数目,N=N00+N01+N10+N11表示所有文档数目,实验证明50-100个高频词用来表示文档已经足够。如果增加词的个数,反而降低系统性能。
 1.6.最终生成VSM矩阵(向量空间模型)表示为:
 
1.7.根据生成的VSM文档矩阵(文档矩阵就是词以及词在文档中的权重值组成的队列,按照权重值的大到小排序),每个文档中权重较高的词便可表达广告的主题,选出3~10个权重较高的词做为广告的类别,再比较广告的类别,将类别相似度较高的广告划分为同一类别,便于检索。
而且每条信息都有一定的关注度的统计,每当有人浏览这篇文章,关注度就会加1,设定一个热点新闻关注度的阀值,将达到关注度阀值的文章内容设定为热点,热点有标签可以区分,并根据热度的不同用不同颜色进行标注。
热点有标签可以区分,并根据报道的热度不同进行分色显示,比如关注度超1000用红色显示标题,关注度超100用黄色显示标题。用户或编辑可以从中了解到读者近期内最感兴趣的热点报纸内容。
而且用户可自定义设置关键字对全媒体汇聚中心的数据进行检索,设置完成后系统对数据进行检索,并按照不同的类别(数字报、网站、成品库、资料库)自动列出与关键字有关的最新文章,这里关键词的搜索可采用正则表达式来实现,进行关键词和文章特征匹配,如果匹配到相应关键词就列出相应文章。
进一步的技术方案可以是具有考核统计平台,首选查出新报道与已有事件的相似度,然后找出相似度文件(相应的收藏率、点击率、转载率、文字评论也会自动统计出来),最后参考已有评价数据对新报道进行评分,其中新报道与已有事件类之间的相似度被定义如下:
其中,W1k、W2k分别表示文本D1D2第K个特征项的权值,1<=k<=N。
考核系统可通过用户实际操作(包括用户收藏、点击、用户转载、文字评论等)把相应信息自动记录在对应标签中从而统计显示各种来源的评论指标(包括收藏率、点击率、转载率、文字评论等),把相应信息自动记录在对应标签中从而统计显示各种来源的评论指标(包括收藏率、点击率、转载率、文字评论等),这样可方便评价人进行评定,评价人可根据各类用户提供的评论为参考依据,不再以主观的按照自己对稿件的个人看法进行评分,而是可根据各类用户提交的反馈以及客观的数据进行评价考核。

Claims (4)

1.一种广告信息管理方法,其特征在于:包括以下步骤:
1.1.将非结构化的广告信息文本数据转换成可计算的结构化数据,把文档的语义通过构成文档的词项来表达,将n篇文档的每篇文档表示成m维的向量d1, d2,…, dn,构造成一个m×n的特征文档矩阵,m表示文档词项总数量;
1.2.将文档分词;
1.3.将文档去停用词;
1.4.计算词条在文档中的最终权重值,公式如下:
                                                 
将词项在一篇文档中出现的次数,定义为,表示词项t在文档d中出现的次数;逆文档率是指词项出现在所有文档中的次数的倒数,定义为,其中D表示文档集合的大小,DF(t)表示文档集合中包含词项t的文档的数目;‘
1.5.选维,采用以下公式计算文档中的词项t与文档类别c的互信息MI:
MI度量的是词的存在与否给类别c带来的信息量,其中Nxy表示x=et和y=ec情况下对应的文档数目,当文档包含词项t时,et=1,否则et=0;当文档属于类别c时,ec=1,否则ec=0;
1.6.最终生成VSM矩阵(向量空间模型)表示为:
1.7.根据生成的VSM文档矩阵(文档矩阵就是词以及词在文档中的权重值组成的队列,按照权重值的大到小排序),每个文档中权重较高的词便可表达广告的主题,选出3~10个权重较高的词做为广告的类别,再比较广告的类别,将类别相似度较高的广告划分为同一类别,便于检索。
2.根据权利要求1所述的一种广告信息管理方法,其特征在于:每条信息都有一定的关注度的统计,每当有人浏览这篇文章,关注度就会加1,设定一个热点新闻关注度的阀值,将达到关注度阀值的文章内容设定为热点,热点有标签可以区分,并根据热度的不同用不同颜色进行标注。
3.根据权利要求1所述的一种广告信息管理方法,其特征在于:用户可自定义设置关键字对全媒体汇聚中心的数据进行检索,设置完成后系统对数据进行检索,并按照不同的类别(数字报、网站、成品库、资料库)自动列出与关键字有关的最新文章,这里关键词的搜索可采用正则表达式来实现,进行关键词和文章特征匹配,如果匹配到相应关键词就列出相应文章。
4.根据权利要求1所述的一种广告信息管理方法,其特征在于:具有考核统计平台,首选查出新报道与已有事件的相似度,然后找出相似度文件(相应的收藏率、点击率、转载率、文字评论也会自动统计出来),最后参考已有评价数据对新报道进行评分,其中新报道与已有事件类之间的相似度被定义如下:
其中,W1k、W2k分别表示文本D1D2第K个特征项的权值,1<=k<=N。
CN201510088375.2A 2015-02-26 2015-02-26 一种广告信息管理方法 Pending CN104636487A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510088375.2A CN104636487A (zh) 2015-02-26 2015-02-26 一种广告信息管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510088375.2A CN104636487A (zh) 2015-02-26 2015-02-26 一种广告信息管理方法

Publications (1)

Publication Number Publication Date
CN104636487A true CN104636487A (zh) 2015-05-20

Family

ID=53215233

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510088375.2A Pending CN104636487A (zh) 2015-02-26 2015-02-26 一种广告信息管理方法

Country Status (1)

Country Link
CN (1) CN104636487A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951432A (zh) * 2015-05-21 2015-09-30 腾讯科技(深圳)有限公司 一种对信息进行处理的方法及装置
CN104992347A (zh) * 2015-06-17 2015-10-21 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN107729489A (zh) * 2017-10-17 2018-02-23 北京京东尚科信息技术有限公司 广告文本识别方法和装置
CN109598528A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 广告信息处理方法和装置
CN111382365A (zh) * 2020-03-19 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086215A1 (en) * 2002-06-14 2005-04-21 Igor Perisic System and method for harmonizing content relevancy across structured and unstructured data
CN101373486A (zh) * 2008-10-16 2009-02-25 北京航空航天大学 一种基于用户兴趣模型的个性化摘要系统
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086215A1 (en) * 2002-06-14 2005-04-21 Igor Perisic System and method for harmonizing content relevancy across structured and unstructured data
CN101373486A (zh) * 2008-10-16 2009-02-25 北京航空航天大学 一种基于用户兴趣模型的个性化摘要系统
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱坤红: "《基于VSM模型和特征选择算法的中文文本自动分类研究》", 《中国优秀硕士学位论文全文数据库》 *
李兆锋: "《主题搜索引擎中的高效网页分类器构建方法》", 《科技通报》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104951432A (zh) * 2015-05-21 2015-09-30 腾讯科技(深圳)有限公司 一种对信息进行处理的方法及装置
CN104951432B (zh) * 2015-05-21 2019-01-11 腾讯科技(深圳)有限公司 一种对信息进行处理的方法及装置
CN104992347A (zh) * 2015-06-17 2015-10-21 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
CN104992347B (zh) * 2015-06-17 2018-12-14 北京奇艺世纪科技有限公司 一种视频匹配广告的方法及装置
CN106339806A (zh) * 2016-08-24 2017-01-18 北京创业公社征信服务有限公司 一种面向企业信息的行业全息画像构建方法及系统
CN109598528A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 广告信息处理方法和装置
CN109598528B (zh) * 2017-09-30 2023-05-23 北京国双科技有限公司 广告信息处理方法和装置
CN107729489A (zh) * 2017-10-17 2018-02-23 北京京东尚科信息技术有限公司 广告文本识别方法和装置
CN111382365A (zh) * 2020-03-19 2020-07-07 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN111382365B (zh) * 2020-03-19 2023-07-28 北京百度网讯科技有限公司 用于输出信息的方法和装置

Similar Documents

Publication Publication Date Title
CN104636487A (zh) 一种广告信息管理方法
Mahtab et al. Sentiment analysis on bangladesh cricket with support vector machine
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
Burger et al. Discriminating gender on Twitter
CN103049435B (zh) 文本细粒度情感分析方法及装置
CN108388660B (zh) 一种改进的电商产品痛点分析方法
CN106547875B (zh) 一种基于情感分析和标签的微博在线突发事件检测方法
CN105159998A (zh) 一种基于文档聚类关键词计算方法
CN108319583B (zh) 从中文语料库提取知识的方法与系统
CN108763321A (zh) 一种基于大规模相关实体网络的相关实体推荐方法
CN109582783B (zh) 热点话题检测方法及装置
CN108763496A (zh) 一种基于网格和密度的动静态数据融合客户分类算法
CN105068986B (zh) 基于双向迭代和自动构建更新语料库的垃圾评论过滤方法
CN110990676A (zh) 一种社交媒体热点主题提取方法与系统
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN115292450A (zh) 一种基于信息抽取的数据分类分级领域知识库构建方法
CN110704615A (zh) 互联网金融非显性广告识别方法及装置
CN111459973B (zh) 一种基于案情三元组信息的类案检索方法及系统
JP2006146802A (ja) テキストマイニング装置およびテキストマイニング方法
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
Kim et al. Examining variations of prominent features in genre classification
CN103389981A (zh) 网络标签自动识别方法及其系统
CN109871429B (zh) 融合Wikipedia分类及显式语义特征的短文本检索方法
JP2014099045A (ja) プロフィール推定装置、方法、及びプログラム
Chumwatana COMMENT ANALYSIS FOR PRODUCT AND SERVICE SATISFACTION FROM THAI CUSTOMERS'REVIEW IN SOCIAL NETWORK

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160811

Address after: 430000 Chutian media building, No. 181, East Lake Road, Wuchang District, Hubei, Wuhan

Applicant after: HUBEI JINCHU NETWORK TECHNOLOGY CO., LTD.

Address before: 430077 third floor, Chutian culture creative industry building, East Lake New Technology Development Zone, Hubei, Wuhan

Applicant before: Hubei optical valley is medium limited company all over the world