CN104636487A

CN104636487A - 一种广告信息管理方法

Info

Publication number: CN104636487A
Application number: CN201510088375.2A
Authority: CN
Inventors: 蒋大可; 何俊; 莫燕峰
Original assignee: Hubei Optical Valley Is Medium Ltd Co All Over World
Current assignee: HUBEI JINCHU NETWORK TECHNOLOGY CO., LTD.
Priority date: 2015-02-26
Filing date: 2015-02-26
Publication date: 2015-05-20

Abstract

一种信息管理的方法，特别是一种广告信息管理方法,运用该方法可以通过使用向量空间模型的建模方法将非结构化的文本数据转换成可计算的结构化数据，然后利用文本间的相似度进行聚类分析，热点分析，自定义关键词自动搜索以及考核统计平台来实现纸媒、网站等各媒体的广告业务管理。本发明的独到之处在于:无需人工操作，聚类分析准确率高，考核与评价准确、客观。

Description

一种广告信息管理方法

技术领域

本发明涉及一种信息管理的方法，特别是一种广告信息管理方法。

背景技术

现阶段各媒体对于广告信息的管理多为人工操作，但随着媒体广告信息量的增加，客户的要求越来越高，传统的人工管理的弊端也逐渐显现出来，例如人工分类效率低、不准确，无法精确检索，对以发布的广告信息不能进行精确的考核评分。

发明内容

本发明的目的在于提供一种广告信息管理方法，运用该方法可以通过使用向量空间模型的建模方法将非结构化的文本数据转换成可计算的结构化数据，然后利用文本间的相似度进行聚类分析，热点分析，自定义关键词自动搜索以及考核统计平台来实现纸媒、网站等各媒体的广告业务管理。

实现本发明目的的技术方案是:一种广告信息管理方法,其特征在于:包括以下步骤:

1.1.将非结构化的广告信息文本数据转换成可计算的结构化数据，把文档的语义通过构成文档的词项来表达，将n篇文档的每篇文档表示成m维的向量d1, d2,…, dn，构造成一个m×n的特征文档矩阵，m表示文档词项总数量；

1.2.将文档分词；

1.3.将文档去停用词；

1.4.计算词条在文档中的最终权重值，公式如下:

将词项在一篇文档中出现的次数，定义为，表示词项t在文档d中出现的次数；逆文档率是指词项出现在所有文档中的次数的倒数，定义为，其中D表示文档集合的大小，DF(t)表示文档集合中包含词项t的文档的数目;

1.5.选维，采用以下公式计算文档中的词项t与文档类别c的互信息MI:

MI度量的是词的存在与否给类别c带来的信息量，其中Nxy表示x=et和y=ec情况下对应的文档数目，当文档包含词项t时，et=1，否则et=0；当文档属于类别c时，ec=1，否则ec=0。

1.6.最终生成VSM矩阵（向量空间模型）表示为:

1.7.根据生成的VSM文档矩阵（文档矩阵就是词以及词在文档中的权重值组成的队列，按照权重值的大到小排序），每个文档中权重较高的词便可表达广告的主题，选出3～10个权重较高的词做为广告的类别，再比较广告的类别，将类别相似度较高的广告划分为同一类别，便于检索。

而且每条信息都有一定的关注度的统计，每当有人浏览这篇文章，关注度就会加1，设定一个热点新闻关注度的阀值，将达到关注度阀值的文章内容设定为热点，热点有标签可以区分，并根据热度的不同用不同颜色进行标注。

而且用户可自定义设置关键字对全媒体汇聚中心的数据进行检索，设置完成后系统对数据进行检索，并按照不同的类别（数字报、网站、成品库、资料库）自动列出与关键字有关的最新文章，这里关键词的搜索可采用正则表达式来实现，进行关键词和文章特征匹配，如果匹配到相应关键词就列出相应文章。

而且具有考核统计平台，首选查出新报道与已有事件的相似度，然后找出相似度文件（相应的收藏率、点击率、转载率、文字评论也会自动统计出来），最后参考已有评价数据对新报道进行评分，其中新报道与已有事件类之间的相似度被定义如下：

其中，W1k、W2k分别表示文本D1D2第K个特征项的权值，1<=k<=N。

本发明的优点在于:1.通过使用向量空间模型的建模方法将非结构化的文本数据转换成可计算的结构化数据，然后利用文本间的相似度进行聚类以及热点分析，无需人工操作且准确率高。2.可自定义关键词自动搜索，匹配度高。3.具有考核统计平台，可以通过量化的数据对现有的广告信息进行考核与评价，准确、客观。

附图说明

图1是向量空间模型详细的构建流程。

具体实施方式

参见图1以下将结合实施例对本发明做进一步说明。

一种信息管理的方法，特别是一种广告信息管理方法，其特征在于:包括以下步骤:

将非结构化的文本数据转换成可计算的结构化数据，利用文本间的相似度进行聚类分析。

1.2.将文档分词；

文本分词最常用的算法是：基于字符串匹配的分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功，即识别出一个词。

1.3.将文档去停用词；

去停用词可以从网上下载一些停用词表，然后根据文本去匹配词表，如果查找到这些词，就把这些词从文本中去掉。

1.4.计算词条在文档中的最终权重值，公式如下:

将词项在一篇文档中出现的次数，定义为，表示词项t在文档d中出现的次数；逆文档率是指词项出现在所有文档中的次数的倒数，定义为，其中D表示文档集合的大小，DF(t)表示文档集合中包含词项t的文档的数目。

逆文档率用于减弱语料中频繁出现的词项的重要程度，因为频繁词项的区分度较弱。

比如N10表示包含词项t(此时et=1)但不属于类别c（此时ec=0）的；N1.=N10+N11表示所有包含词项t的文档数目，N.1=N11+N01表示所有属于类c的文档数目，N=N00+N01+N10+N11表示所有文档数目，实验证明50-100个高频词用来表示文档已经足够。如果增加词的个数，反而降低系统性能。

1.6.最终生成VSM矩阵（向量空间模型）表示为:

热点有标签可以区分，并根据报道的热度不同进行分色显示，比如关注度超1000用红色显示标题，关注度超100用黄色显示标题。用户或编辑可以从中了解到读者近期内最感兴趣的热点报纸内容。

进一步的技术方案可以是具有考核统计平台，首选查出新报道与已有事件的相似度，然后找出相似度文件（相应的收藏率、点击率、转载率、文字评论也会自动统计出来），最后参考已有评价数据对新报道进行评分，其中新报道与已有事件类之间的相似度被定义如下：

其中，W1k、W2k分别表示文本D1D2第K个特征项的权值，1<=k<=N。

考核系统可通过用户实际操作（包括用户收藏、点击、用户转载、文字评论等）把相应信息自动记录在对应标签中从而统计显示各种来源的评论指标（包括收藏率、点击率、转载率、文字评论等），把相应信息自动记录在对应标签中从而统计显示各种来源的评论指标（包括收藏率、点击率、转载率、文字评论等），这样可方便评价人进行评定，评价人可根据各类用户提供的评论为参考依据，不再以主观的按照自己对稿件的个人看法进行评分，而是可根据各类用户提交的反馈以及客观的数据进行评价考核。

Claims

1.一种广告信息管理方法,其特征在于:包括以下步骤:

1.2.将文档分词；

1.3.将文档去停用词；

1.4.计算词条在文档中的最终权重值，公式如下:

将词项在一篇文档中出现的次数，定义为，表示词项t在文档d中出现的次数；逆文档率是指词项出现在所有文档中的次数的倒数，定义为，其中D表示文档集合的大小，DF(t)表示文档集合中包含词项t的文档的数目；‘

MI度量的是词的存在与否给类别c带来的信息量，其中Nxy表示x=et和y=ec情况下对应的文档数目，当文档包含词项t时，et=1，否则et=0；当文档属于类别c时，ec=1，否则ec=0;

1.6.最终生成VSM矩阵（向量空间模型）表示为:

2.根据权利要求1所述的一种广告信息管理方法,其特征在于:每条信息都有一定的关注度的统计，每当有人浏览这篇文章，关注度就会加1，设定一个热点新闻关注度的阀值，将达到关注度阀值的文章内容设定为热点，热点有标签可以区分，并根据热度的不同用不同颜色进行标注。

3.根据权利要求1所述的一种广告信息管理方法,其特征在于:用户可自定义设置关键字对全媒体汇聚中心的数据进行检索，设置完成后系统对数据进行检索，并按照不同的类别（数字报、网站、成品库、资料库）自动列出与关键字有关的最新文章，这里关键词的搜索可采用正则表达式来实现，进行关键词和文章特征匹配，如果匹配到相应关键词就列出相应文章。

4.根据权利要求1所述的一种广告信息管理方法,其特征在于:具有考核统计平台，首选查出新报道与已有事件的相似度，然后找出相似度文件（相应的收藏率、点击率、转载率、文字评论也会自动统计出来），最后参考已有评价数据对新报道进行评分，其中新报道与已有事件类之间的相似度被定义如下：

其中，W1k、W2k分别表示文本D1D2第K个特征项的权值，1<=k<=N。