CN103646078A

CN103646078A - 一种实现互联网宣传监测目标评估的方法及装置

Info

Publication number: CN103646078A
Application number: CN201310676421.1A
Authority: CN
Inventors: 王君鹤; 曲武
Original assignee: Beijing Venus Information Security Technology Co Ltd; Beijing Venus Information Technology Co Ltd
Current assignee: Beijing Venus Information Security Technology Co Ltd; Beijing Venus Information Technology Co Ltd
Priority date: 2013-12-11
Filing date: 2013-12-11
Publication date: 2014-03-19
Anticipated expiration: 2033-12-11
Also published as: CN103646078B

Abstract

本申请公开了一种实现互联网宣传监测目标评估的方法及装置，包括：根据配置信息从选定的数据源中获取宣传监测目标的网页信息；对获取的各网页信息进行网站特征字分离，以获得相应的标题、正文、统计正文字数信息；对所述获得的各网页信息中的标题和正文进行分词处理且提取关键字，并分别计算宣传监测目标的各网页信息的信息量；根据各网页信息的信息量确定宣传监测目标的宣传力度信息。通过本发明获取选定的数据源的网页信息，对宣传监测目标网页信息进行网站特征字分离、分词处理，实现通过处理获得的信息，获取宣传力度信息，通过宣传力度信息的分析可以为企业进行文章投放提供有力的分析数据。

Description

一种实现互联网宣传监测目标评估的方法及装置

技术领域

本申请涉及互联网领域，尤指一种实现互联网宣传监测目标评估的方法及装置。

背景技术

随着商业活动节奏的不断加快，企业生存和发展不仅需要最佳的决策，还需要决策制定的效率足够迅速。充足的数据信息和对数据信息进行有效的处理，对企业提出正确的决策有重要的作用。通过对网络信息的分析了解，可以实现企业合理的利用网络信息来为企业作合理推广。通过数据信息的分析可以得到在成本最低、效果最好的网站上投放适合企业主题的文章，可以实现文章投放的最佳收益。

伴随着互联网的广泛应用，企业从网络中获得大量信息，以进行决策分析，从网络中获得信息的方法相对于其它渠道具有免费或廉价、易得、内容丰富等优势，是当前情报信息搜集的一个重要来源。但是，网络信息存在以下问题：信息量过大、转载源无法确定、重复链接、内容重复、存在不包含正文信息的链接等。目前，对网络信息的搜集和整理仍采用人工的方式，由于在数据采集过程中存在着大量重复的机械性的操作，利用人工实现存在着低效、缺乏周期性、主观因素造成的操作失误难以被发现而无法排除、重复信息过滤困难等。对于获取的网页信息如何进行有效的效果分析，目前还没有统一的可以使用的方法在市场上进行推广应用，各企业根据他们获得的大量数据，采用各自认为合理的方式，进行相关的信息估算，对于估算获得的信息，其效果如何也未曾有相关的数据和案例可以进行分析。

因此，目前采用网络信息进行数据整理的方法，采用人工的方式存在低效、缺乏周期性、存在操作失误且无法排除等问题，另外，数据量过于庞大的网络信息，存在一定的成本浪费，且采用全部网络数据存在信息重点被淹没、无效信息难以排除等问题；对于媒体宣传效果分析，目前还没有有效和系统的分析方法形成，因此，无法对获取的网页信息进行有效处理。

发明内容

为了解决上述问题，本发明提供一种实现互联网宣传监测目标评估的方法及装置，能够对宣传监测目标的网页信息的进行有效获取，对网页信息进行数据处理和分析，提供企业在网络上进行文章投放的依据。

为了达到本发明的目的，本发明提供一种实现互联网宣传监测目标评估的方法，包括：

根据配置信息从选定的数据源中获取宣传监测目标的网页信息；

对获取的各网页信息进行网站特征字分离，以获得相应的标题、正文、统计正文字数信息；

对所述获得的各网页信息中的标题和正文进行分词处理且提取关键字，并分别计算宣传监测目标的各网页信息的信息量；

根据各网页信息的信息量确定宣传监测目标的宣传力度信息。

进一步地，信息量的计算为：网页信息的中文字数与相同网页的个数的乘积；

根据各网页信息的信息量确定宣传监测目标的宣传力度信息包括：

将所述各网页信息的信息量与相应的权重进行乘积计算，并对所有网页信息的乘积计算进行积分，获得宣传监测目标的宣传力度信息；其中，权重为：网页信息中，若标题中包含关键字，则赋值权重为ρ；若正文包含关键字，则赋值权重为1；当都包含关键字，则赋值为ρ+1；其中ρ大于1。

进一步地，选定的数据源为：新闻元搜索、和/或定点网站。

进一步地，在对所述网页信息进行网站特征字分离之前，该方法还包括：对所述获取的网页信息进行链接去重。

进一步地，所述选定的数据源为新闻元搜索，且所述链接为未加密链接时，所述链接去重包括：

采用布隆过滤器（Bloom Filter）算法过滤重复链接；过滤后，

选择任意所述新闻元搜索中的一个的网页信息作为初始列表；

采用simHash方法计算所述新闻元搜索中的其余新闻元搜索获得的网页信息的散列哈希（Hash）值，根据Hash值判断是否发生碰撞；发生碰撞，则删除链接；未发生碰撞，则更新初始列表。

进一步地，选定的数据源为新闻元搜索，且所述链接为加密链接时，所述链接去重包括：

将加密链接和所述过滤后的未加密链接的原始网页，通过网站特征字分离出标题、正文、网站栏目、转载来源、点击率、评论率，统计正文字数信息；

对比加密链接的网页与未加密链接的网页，生成未加密链接的网站和栏目的Hash散列；

采用simHash的方法计算加密链接的网站和栏目的Hash值，如果都产生碰撞，则对比从网页中分离出的正文的字数，如果字数也相同则视为相同链接，保留相同链接中的一个链接，其余删除。

进一步地，选定的数据源为定点网站，所述链接去重包括：

判断所述获得的网页地址是否为列表链接地址，当为列表链接地址时，删除该网页信息的链接地址；若不是，则继续进行网站特征字分离。

进一步地，在进行网站特征字分离后，该方法还包括：将从定点网站获取的网页信息的正文进行simHash算法分析，将判定为相似的新闻进行合并。

进一步地，获得所述链接去重信息后，该方法还包括：将所述链路去重后的链接进行链接类型识别，将获得的链接识别区分为：原文链接、列表链接和引用链接；删除列表链接和引用链接。

进一步地，该方法还包括：对原文链接对应的网页信息的正文，进行正确性判断，删除正文正确性判断为无效的网页信息；

所述正确性判断为：对网页信息的正文进行字数统计，当正文字数不超过20字时，判断为该正文对应的网页信息为无效。

进一步地，该方法还包括：周期性获取宣传监测目标的新增网页信息。

进一步地，该方法还包括：对分词处理后的网页信息进行类型词识别，根据专家知识数据库的类型词，获取网页信息中在同一领域不同倾向上专家知识数据库里存在的关键字，进行企业不同类型词对应的宣传力度信息计算，获得企业在不同倾向的宣传力度比对信息。

进一步地，类型词识别为：将获得的网页信息，通过与类型特征词数据库进行对比识别，获得反映网页信息内容的类型的词语；

所述类型特征词数据库包含技术特征词、财经股市特征词、招投标特征词，其它类型词根据关注的企业类型进行增减。

进一步地，网站特征字分离还获得网站栏目信息；所述链接去重还获得链接去重删除的链接个数信息；该方法还包括：根据宣传监测目标的网页信息的网站栏目信息，确定宣传监测目标的网页信息被元搜索引擎网站收录的、包含链接去重删除的链接在内的链接个数信息，获得文章发布效果信息；

所述文章发布效果与元搜索引擎网站收录个数成正比。

进一步地，网站特征字分离还获得转载信息；该方法还包括：

对所述宣传监测目标的初始发布的各网站的直接转载、和被直接转载后的各网站的间接转载进行记录和统计；

计算直接转载统计数值与间接转载统计数值之商、获得转载增益度信息；根据转载增益度信息，获得企业发布网页信息的成本和宣传效果信息；

所述转载增益度与宣传监测目标发布网页信息的成本成反比，与宣传效果成正比。

进一步地，当获得的宣传监测目标的网页信息的转载信息缺省转载源时，该方法还包括：

将所述获取的网页信息的来源网站按信息发表时间排序，对时间排序中包含的总的时间区间进行分段，且每一时间段长度相同；其中，分段的数量与总的时间区间长度成正比；

对缺省转载源的网页信息所在时间段之前的全部时间段内的网页信息，设置同一时间段内的各网页信息具有相同的被转载概率，且从与所述缺省转载源的网页信息所在时间段相邻的时间段开始至时间间隔最长的网页信息被转载概率依次变小，计算网页信息采用各关键字作为检索词下的相应的被转载概率；

累加所述各网页信息的所有检索词下被转载概率，将被转载概率最大的网页信息设定为缺省转载源网页信息的转载源。

进一步地，分段的数量与总的时间区间长度成正比包括：

当总的时间区间长度大于10天时，分段的数量为5；当总的时间区间长度小于10天时，分段的数量为2～5之间。

进一步地，网站特征字分离还获得：元素标识符，网页链接的点击数、评论数信息，该方法还包括：采用TOP-K算法，以网页链接作为元素标识符，网页链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性参数，获得最适宜投放宣传监测目标的文章的K个网站信息。

另一方面，本发明还提供一种实现互联网宣传监测目标评估的装置，包括：获取单元、网站特征字分离单元、分词单元及宣传力度分析单元；其中，

获取单元，用于根据配置信息从选定的数据源中获取宣传监测目标的网页信息；

网站特征字分离单元，用于分离获取单元获取的各网页信息，以获得相应的标题、正文、统计正文字数信息；

分词单元，用于对网站特征字分离单元输出的各网页信息的标题和正文进行分词处理且提取关键字；

宣传力度分析单元，用于根据各网页信息的信息量确定宣传监测目标的宣传力度信息。

所述根据各网页信息的信息量确定宣传监测目标的宣传力度信息包括：

进一步地，选定的数据源为：

新闻元搜索、和/或，定点网站。

进一步地，该装置还包括链接去重单元，用于，对所述获取单元获得的网页信息进行链接去重。

进一步地，选定的数据源为新闻元搜索，且所述链接为未加密链接时，所述链接去重包括：

采用布隆过滤器（Bloom Filter）算法过滤重复链接；过滤后，

进一步地，选定的数据源为定点网站，所述链接去重包括：

进一步地，该装置还包括合并单元，用于将从定点网站获取的网页信息在进行网站特征字分离后，对正文进行simHash算法分析，将判定为相似的网页信息进行合并。

进一步地，该装置还包括链接类别识别单元，连接于链接去重单元和分词单元之间，用于将所述链接去重单元获得的链接进行链接类型识别，将获得的链接识别区分为：原文链接、列表链接和引用链接；删除列表链接和引用链接。

进一步地，该装置还包括正确性判断单元，用于对链接类型识别单元获得的原文链接的网页信息的正文，进行正确性判断，删除正文正确性判断为无效的网页信息；

进一步地，该装置还包括增量获取单元：用于周期性获取宣传监测目标网页的新增网页信息。

进一步地，该装置还包括宣传力度比对单元，用于根据分词处理后的网页信息进行类型词识别，根据专家知识数据库的类型词，获取网页信息中在同一领域不同倾向上专家知识数据库里存在的关键字，进行企业不同类型词对应的宣传力度信息计算，获得企业在不同倾向的宣传力度比对信息。

进一步地，网站特征字分离单元还获得网站栏目信息；所述链接去重单元还获得链接去重删除的链接个数信息；该装置还包括发布效果分析单元，用于根据宣传监测目标的网页信息的网站栏目信息，确定宣传监测目标的网页信息被元搜索引擎网站收录的、包含链接去重删除的链接在内的链接个数信息，获得文章发布效果信息；

所述文章发布效果与元搜索引擎网站收录个数成正比。

进一步地，网站特征字分离单元还获得转载信息；该装置还包括转载增益度单元，用于对所述宣传监测目标的初始发布的各网站的直接转载、和被直接转载后的各网站的间接转载进行记录和统计；计算直接转载统计数值与间接转载统计数值之商、获得转载增益度信息；根据转载增益度信息，获得企业发布网页信息的成本和宣传效果信息；

进一步地，当获得的宣传监测目标的网页信息的转载信息缺省转载源时，该装置还包括转载源确定单元，用于将所述获取的网页信息的来源网站按信息发表时间排序，对时间排序中包含的总的时间区间进行分段，且每一时间段长度相同；其中，分段的数量与总的时间区间长度成正比；

进一步地，分段的数量与总的时间区间长度成正比；包括：

进一步地，网站特征字分离单元还获得：元素标识符，网页链接的点击数、评论数信息，该装置还包括投放最优单元，用于根据TOP-K算法，以网页链接作为元素标识符，网页链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性参数，获得最适宜投放宣传监测目标的文章的K个网站信息。

本发明提出一种技术方案，包括：根据配置信息从选定的数据源中获取宣传监测目标的网页信息；对获取的各网页信息进行网站特征字分离，以获得相应的标题、正文、统计正文字数信息；对所述获得的各网页信息中的标题和正文进行分词处理且提取关键字，并分别计算宣传监测目标的各网页信息的信息量；根据各网页信息的信息量确定宣传监测目标的宣传力度信息。通过本发明获取选定的数据源数据，对宣传监测目标网页信息进行网站特征字分离、分词处理，实现通过处理获得的信息，获取宣传力度信息，通过宣传力度信息的分析可以为企业进行文章投放提供有力的分析数据。

另一方面，本发明还通过对不同的类型词，计算宣传监测目标在同一领域不同倾向的宣传力度比较信息，通过网页信息被元搜索网站的收录情况，网页信息的转载增益度等信息对文章投放的效果和成本等进行分析。

再一方面，本发明通过TOP-K算法，以链接作为元素标识符，链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性参数，获得最适宜投放宣传监测目标发布的K个网站信息。

附图说明

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

图1为本发明实现互联网宣传监测目标评估的方法的流程图；

图2为本发明实现互联网宣传监测目标评估的装置的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明实现互联网宣传监测目标评估的方法的流程图，如图1所示，包括：

步骤100、根据配置信息从选定的数据源中获取宣传监测目标的网页信息。

本步骤中，选定数据源为：新闻元搜索、和/或，定点网站。

需要说明的是，配置信息为人为设定或者从现有的网页信息获取涉及的数据库等获得，只是为了用于限定获取宣传监测目标而设定，这里的宣传监测目标为背景技术中涉及的需要企业进行相关活动而投放在互联网上的文章信息。虽然获得网页信息的方法很多，但是过多的数据和信息量小的数据，对于企业对相关信息的分析获取，并不存在实际意义。

步骤101、对获取的各网页信息进行网站特征字分离，以获得相应的标题、正文、统计正文字数信息。

需要说明的是，网站特征字分离的方法，为现有的技术，用于将获取的网页信息进行分离整理，整理出来的信息内容包括：标题、正文、网站栏目、转载来源、点击率、评论率，统计正文字数等信息等。在本发明后续的内容中，涉及到网站特征字分离都是包括相同的内容，只是在不同的权利要求项中，用到了其中的部分信息而已，之后的内容将不再陈述。表1为网站特征字分离的一个实例列表，检索关键字为配置信息的内容。

表1

表1为网站特征字分离的示例

在对网页信息进行网站特征字分离之前，本发明方法还包括：

对获取的网页信息进行链接去重。

采用布隆过滤器（Bloom Filter）算法过滤重复链接；过滤后，

需要说明的是Bloom Filter算法和simHash方法都属于现有技术，BloomFilter算法主要应用于数据挖掘等网页链接的过滤，是数据过滤领域技术人员惯用的技术手段。simHash是用作文本查重的一种Hash方法，相似的文本具有相似的Hash值，如果两个文本的simHash越接近，也就是距离越小，文本就越相似。simHash方法通过Hash值进行碰撞判断，Hash值的大小在simHash方法中，设定了一定范围的默认值，当然根据数据统计分析，在方法应用时，其数值范围可以进行一定的调整。

进一步地，选定的数据源为定点网站，所述链接去重包括：

另一方面，在进行网站特征字分离后，本发明方法还包括：将从定点网站获取的网页信息的正文进行simHash算法分析，将判定为相似的新闻进行合并。

再一方面，获得所述链接去重信息后，本发明方法还包括：将链路去重后的链接进行链接类型识别，将获得的链接识别区分为：原文链接、列表链接和引用链接；删除列表链接和引用链接。

需要说明的是，进行链接类型识别的方法为：通过链接的特征字符组进行识别，例如“.tag.”为列表链接的一个特征字符组。其实现方式为本领域技术人员惯用技术手段，在此不再赘述。

本步骤中，本发明方法还包括：对原文链接对应的网页信息的正文，进行正确性判断，删除正文正确性判断为无效的网页信息；

步骤102、对所述获得的各网页信息中的标题和正文进行分词处理且提取关键字，并分别计算宣传监测目标的各网页信息的信息量。

需要说明的是，分词处理是为了获得可以对进行信息量计算及相关分析的需要，分词处理为现有技术，本领域技术人员不需要付出创造性劳动就可以获得。

需要说明的是，提取关键字是指，对分词后的词语进行频率统计，按照企业需求设定数目，在频率统计结果中，确定频率最高的设定数目的词语作为关键字。根据宣传监测目标涉及的内容和企业的需求，词频的大小根据实际情况进行设定，当与宣传监测目标实质内容相关的关键字，那么可以认为该字或词，为与宣传监测目标相关的关键字。

以下以计算公式，对单独的一个网页信息的信息量（Inf）获取进行举例：

Inf=Cword×Nsim

其中，Cword表示单个链接正文字数，Nsim相同新闻数。

步骤103、根据各网页信息的信息量确定宣传监测目标的宣传力度信息。

本步骤中，信息量的计算为：网页信息的中文字数与相同网页的个数的乘积；

将各网页信息的信息量与相应的权重进行乘积计算，并对所有网页信息的乘积计算进行积分，获得宣传监测目标的宣传力度信息；其中，权重为：网页信息中，若标题中包含关键字，则赋值权重为ρ；若正文包含关键字，则赋值权重为1；当都包含关键字，则赋值为ρ+1；其中ρ大于1。

由步骤103获得是信息量，进一步计算可得宣传监测目标的宣传力度信息为所有网页信息的Inf*ρ的积分。

需要说明的是，在进行企业所关注的宣传监测目标宣传力度信息计算时，可能会对全部时间段的宣传力度信息进行分析，或者对部分时间段的信息进行分析，相应的获取全部或者部分的时间段信息即可，本发明还包括在相关基础上的信息分析，其网页信息获取，根据实际情况进行设定。

本发明方法还包括：周期性获取宣传监测目标的新增网页信息。

需要说明的是，这里采用的周期可以按照数据统计结果、企业分析设定、和采用不同的估算方法计算的周期，对于新增网页信息，一般采用网页信息中的时间信息进行界定。

本发明方法还包括：对分词处理后的网页信息进行类型词识别，根据专家知识数据库的类型词，获取网页信息中在同一领域不同倾向上专家知识数据库里存在的关键字，进行企业不同类型词对应的宣传力度信息计算，获得企业在不同倾向的宣传力度比对信息。

需要说明的是，专家知识数据库包括：新闻类型特征词、中文姓氏数据库、会议名称数据库、公司名称数据库、产品名称数据库、学术机构名称数据库、网站特征字数据库，此部分为现有的数据信息，根据信息变化和企业特点，可以在本发明信息分析时进行适当的增加和删除。

类型词识别为：将获得网页信息，通过与类型特征词数据库进行对比识别，获得反映网页信息内容的类型的词语。类型特征词数据库包含技术特征词、财经股市特征词、招投标特征词，其它类型词根据关注的企业类型进行增减。

网站特征字分离还获得网站栏目信息；链接去重还获得链接去重删除的链接个数信息；本发明方法还包括：根据宣传监测目标的网页信息的网站栏目信息，确定宣传监测目标的网页被元搜索引擎网站收录的、包含链接去重删除的链接在内的链接个数信息，获得文章发布效果信息。

文章发布效果与元搜索引擎网站收录个数成正比。

需要说明的是，这里的发布效果，是指在网页信息发布后，当信息宣传效果较好时，元搜索引擎百度、谷歌、必应等会对企业发布的网页信息进行收录。如果被收录，说明企业发布信息效果很好，受到元搜索引擎的关注，反之，如果没有被收录，则在元搜索引擎中将不会被查找到，此时对于搜索时使用量最大的元搜索引擎而言，没有这些元搜索引擎收录，就很难被使用元搜索引擎的用户获得，其发布效果就不是很好。对于被元搜索引擎的链接，在进行搜索时，尽管会有重复链接出现，但是重复链接仍可以很好的体现网页信息的发布效果，因此在进行发布效果分析时，链接去重删除的链接个数信息也需要进行统计。

网站特征字分离还获得转载信息；本发明方法还包括：对宣传监测目标的初始发布的各网站的直接转载、和被直接转载后的各网站的间接转载进行记录和统计；

需要说明的是，如果转载增益度高，说明发布网站被转载的概率高，也就是说宣传效果好，对于企业而言，只需要在一定量这样的网站进行文章发布就可。因此其成本较低。相反，如果转载增益度低，说明文章发布不容易被转载，如果企业在这样的网站上进行网页信息发布，则需要大量的网页信息发布，才可能实现上述的一定量的网站进行网页发布的效果。

进一步地，当获得的宣传监测目标的网页信息的转载信息缺省转载源时，本发明方法还包括：

进一步地，分段的数量与总的时间区间长度成正比包括：

需要说明的是，当总的时间区间长度小于10天时，一般的设置分段的每一段时间长度为两天，最后一个时间段可小于两天。

为了更加清楚的说明本发明确定转载源的方法，进行下述假设说明，假设第一时间段内的信息为初始发布网站，设置时间段相等，此后每一时间段内的网页信息均视为转自之前所有时间段内的某一网站，与转载源时间段越接近，则从这个时间段内的网站进行网页信息转载的概率越高，例如：文章1的数据共分5个时间段，则第5时间段内的网页信息转载自前4个时间段内的可能性依次为a、b、c、d，其中a<b<c<d，当然，可以设置相应的区分概率范围，或按照时间段数进行分配概率的变化程度，或按照每个时间段内网页变化设定概率变化大小，当然也可以设定a、b、c、d的和为1，以便于概率的计算，根据确定的关键字作为检索词，获得相应的不同时间段不同网页被转载的概率，将各网页信息的所有检索词下被转载的概率累加，被转载概率最大的网页信息被设定为缺省转载源网页信息的转载源。

网站特征字分离还获得：元素标识符，网页链接的点击数、评论数信息，本发明方法还包括：采用TOP-K算法，以网页链接作为元素标识符，网页链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性参数，获得最适宜投放宣传监测目标的文章的K个网站信息。

需要说明的是，TOP-K算法是现有算法，通过设置K值大小，可以获得企业需要进行文章投放K个网站的信息，通过该算法，企业可以选择最适宜的这K个网站进行文章发布。

具体步骤如下：

1、将网页信息中的链接作为元素标识符，网页信息的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性信息；

2、遍历前K个元素构建小顶堆；

3、对下一元素，小于顶点，跳过；大于顶点，替换之；

4、重新堆化；

5、重复3-4步至遍历至最后一个元素。

通过以上步骤获得的小顶堆为最适宜投放该领域文章的K个网站。

需要说明的是，本发明以上数据，通过数据库的方式来实现，对于实现方式，为本领域技术人员常用技术手段，在此不再赘述。

图2为本发明实现互联网宣传监测目标评估的装置的结构框图，如图2所示，获取单元、网站特征字分离单元、分词单元及宣传力度分析单元；其中，

获取单元，用于根据配置信息从选定的数据源中获取宣传监测目标的网页信息。

选定的数据源为：新闻元搜索、和/或，定点网站。

网站特征字分离单元，用于分离获取单元获取的各网页信息，以获得相应的标题、正文、统计正文字数信息。

分词单元，用于对网站特征字分离单元输出的各网页信息的标题和正文进行分词处理且提取关键字。

信息量的计算为：网页信息的中文字数与相同网页的个数的乘积；

需要说明的是，提取关键字是指，对分词后的词语进行频率统计，按照企业需求设定数目，在频率统计结果中，确定频率最高的设定数目的词语作为关键字。

该装置还包括链接去重单元，用于对获取单元获得的网页信息进行链接去重。

选定的数据源为新闻元搜索，且所述链接为未加密链接时，链接去重包括：采用布隆过滤器（Bloom Filter）算法过滤重复链接；过滤后，选择任意一个新闻元搜索的网页信息作为初始列表，采用simHash的方法计算其余元搜索获得的网页信息的散列哈希（Hash）值，从Hash值判断是否发生碰撞；发生碰撞，则删除链接；未发生碰撞，则更新初始列表。

选定的数据源为新闻元搜索，且所述链接为加密链接时，所述链接去重包括：从加密链接和过滤后的未加密链接的原始网页，通过网站特征字分离出标题、正文、网站栏目、转载来源、点击率、评论率，统计正文字数信息；

对比加密链接的网页与未加密链接的网页，生成未加密链接的网站和栏目的Hash散列，采用simHash的方法计算加密链接的网站和栏目的Hash值，如果都产生碰撞，则对比从网页中分离出的正文的字数，如果字数也相同则视为相同链接，保留相同链接中的一个链接，其余删除。

选定的数据源为定点网站，所述链接去重包括：判断获得的网页地址是否为列表链接地址，当为列表链接地址时，进行删除；若不是，则继续进行网站特征字分离。

本发明装置还包括合并单元，用于将从定点网站获取的网页信息在进行网站特征字分离后，对正文进行simHash算法分析，将判定为相似的网页信息进行合并。

本发明装置还包括链接类别识别单元，连接于链接去重单元和分词单元之间，用于将链接去重单元获得的链接进行链接类型识别，将获得的链接识别区分为：原文链接、列表链接和引用链接；删除列表链接和引用链接。

本发明装置还包括正确性判断单元，用于对链接类型识别单元获得的原文链接的网页信息的正文，进行正确性判断，删除正文正确性判断为无效的网页信息；

正确性判断为：对网页信息的正文进行字数统计，当正文字数不超过20字时，判断为该正文对应的网页信息为无效。

本发明装置还包括增量获取单元：用于周期性获取宣传监测目标网页的新增网页信息。

进一步地，本发明装置还包括宣传力度比对单元，用于根据分词处理后的网页信息进行类型词识别，根据专家知识数据库的类型词，获取网页信息中在同一领域不同倾向上专家知识数据库里存在的关键字，进行企业不同类型词对应的宣传力度信息计算，获得企业在不同倾向的宣传力度比对信息。

类型词识别为：将获得的网页信息，通过与类型特征词数据库进行对比识别，获得反映网页信息内容的类型的词语；

类型特征词数据库包含技术特征词、财经股市特征词、招投标特征词，其它类型词根据关注的企业类型进行增减。

网站特征字分离单元还获得网站栏目信息；链接去重单元还获得链接去重删除的链接个数信息；本发明装置还包括发布效果分析单元，用于根据宣传监测目标的网页信息的网站栏目信息，确定宣传监测目标的网页被元搜索引擎网站收录的、包含链接去重删除的链接在内的链接个数信息，获得文章发布效果信息；

文章发布效果与元搜索引擎网站收录个数成正比。

网站特征字分离单元还获得转载信息；本发明装置还包括转载增益度单元，用于对宣传监测目标的初始发布的各网站的直接转载、和被直接转载后的各网站的间接转载进行记录和统计；计算直接转载统计数值与间接转载统计数值之商、获得转载增益度信息；根据转载增益度信息，获得企业发布网页信息的成本和宣传效果信息；

转载增益度与宣传监测目标发布网页信息的成本成反比，与宣传效果成正比。

本发明装置还包括，转载源确定单元，用当获得的宣传监测目标的网页信息的转载信息缺省转载源时，该装置还包括转载源确定单元，用于将所述获取的网页信息的来源网站按信息发表时间排序，对时间排序中包含的总的时间区间进行分段，且每一时间段长度相同；其中，分段的数量与总的时间区间长度成正比；

进一步地，分段的数量与总的时间区间长度成正比包括：

网站特征字分离单元还获得：元素标识符，网页链接的点击数、评论数信息，本发明装置还包括投放最优单元，用于根据TOP-K算法，以网页链接作为元素标识符，网页链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性参数，获得最适宜投放宣传监测目标的文章的K个网站信息。

虽然本申请所揭露的实施方式如上，但所述的内容仅为便于理解本申请而采用的实施方式，并非用以限定本申请。任何本申请所属领域内的技术人员，在不脱离本申请所揭露的精神和范围的前提下，可以在实施的形式及细节上进行任何的修改与变化，但本申请的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

Claims

1.一种实现互联网宣传监测目标评估的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述信息量的计算为：网页信息的中文字数与相同网页的个数的乘积；

3.根据权利要求1所述的方法，其特征在于，所述选定的数据源为：新闻元搜索、和/或定点网站。

4.根据权利要求1所述的方法，其特征在于，在对所述网页信息进行网站特征字分离之前，该方法还包括：对所述获取的网页信息进行链接去重。

5.根据权利要求4所述的方法，其特征在于，所述选定的数据源为新闻元搜索，且所述链接为未加密链接时，所述链接去重包括：

采用布隆过滤器Bloom Filter算法过滤重复链接；过滤后，

采用simHash方法计算所述新闻元搜索中的其余新闻元搜索获得的网页信息的散列哈希Hash值，根据Hash值判断是否发生碰撞；发生碰撞，则删除链接；未发生碰撞，则更新初始列表。

6.根据权利要求4所述的方法，其特征在于，所述选定的数据源为新闻元搜索，且所述链接为加密链接时，所述链接去重包括：

7.根据权利要求4所述的方法，其特征在于，所述选定的数据源为定点网站，所述链接去重包括：

8.根据权利要求7所述的方法，其特征在于，在进行网站特征字分离后，该方法还包括：将从定点网站获取的网页信息的正文进行simHash算法分析，将判定为相似的新闻进行合并。

9.根据权利要求4～8任一项所述的方法，其特征在于，获得所述链接去重信息后，该方法还包括：将所述链路去重后的链接进行链接类型识别，将获得的链接识别区分为：原文链接、列表链接和引用链接；删除列表链接和引用链接。

10.根据权利要求9所述的方法，其特征在于，该方法还包括：对原文链接对应的网页信息的正文，进行正确性判断，删除正文正确性判断为无效的网页信息；

11.根据权利要求9所述的方法，其特征在于，该方法还包括：周期性获取宣传监测目标的新增网页信息。

12.根据权利要求1所述的方法，其特征在于，该方法还包括：对分词处理后的网页信息进行类型词识别，根据专家知识数据库的类型词，获取网页信息中在同一领域不同倾向上专家知识数据库里存在的关键字，进行企业不同类型词对应的宣传力度信息计算，获得企业在不同倾向的宣传力度比对信息。

13.根据权利要求12所述的方法，其特征在于，所述类型词识别为：将获得的网页信息，通过与类型特征词数据库进行对比识别，获得反映网页信息内容的类型的词语；

所述类型特征词库包含技术特征词、财经股市特征词、招投标特征词，其它类型词根据关注的企业类型进行增减。

14.根据权利要求4所述的方法，其特征在于，所述网站特征字分离还获得网站栏目信息；所述链接去重还获得链接去重删除的链接个数信息；该方法还包括：根据宣传监测目标的网页信息的网站栏目信息，确定宣传监测目标的网页信息被元搜索引擎网站收录的、包含链接去重删除的链接在内的链接个数信息，获得文章发布效果信息；

所述文章发布效果与元搜索引擎网站收录个数成正比。

15.根据权利要求1所述的方法，其特征在于，所述网站特征字分离还获得转载信息；该方法还包括：

16.根据权利要求15所述的方法，其特征在于，当获得的宣传监测目标的网页信息的转载信息缺省转载源时，该方法还包括：

17.根据权利要求16所述的方法，其特征在于，所述分段的数量与总的时间区间长度成正比包括：

18.根据权利要求15所述的方法，其特征在于，所述网站特征字分离还获得：元素标识符，网页链接的点击数、评论数信息，该方法还包括：采用TOP-K算法，以网页链接作为元素标识符，网页链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性参数，获得最适宜投放宣传监测目标的文章的K个网站信息。

19.一种实现互联网宣传监测目标评估的装置，其特征在于，包括：获取单元、网站特征字分离单元、分词单元及宣传力度分析单元；其中，

20.根据权利要求19所述的装置，其特征在于，所述信息量的计算为：网页信息的中文字数与相同网页的个数的乘积；

21.根据权利要求19所述的装置，其特征在于，所述选定的数据源为：

新闻元搜索、和/或，定点网站。

22.根据权利要求19所述的装置，其特征在于，该装置还包括链接去重单元，用于，对所述获取单元获得的网页信息进行链接去重。

23.根据权利要求22所述的装置，其特征在于，所述选定的数据源为新闻元搜索，且所述链接为未加密链接时，所述链接去重包括：

采用布隆过滤器Bloom Filter算法过滤重复链接；过滤后，

24.根据权利要求22所述的方法，其特征在于，所述选定的数据源为新闻元搜索，且所述链接为加密链接时，所述链接去重包括：

25.根据权利要求23所述的方法，其特征在于，所述选定的数据源为定点网站，所述链接去重包括：

26.根据权利要求25所述的方法，其特征在于，该装置还包括合并单元，用于将从定点网站获取的网页信息在进行网站特征字分离后，对正文进行simHash算法分析，将判定为相似的网页信息进行合并。

27.根据权利要求22～26任一项所述的装置，其特征在于，该装置还包括链接类别识别单元，连接于链接去重单元和分词单元之间，用于将所述链接去重单元获得的链接进行链接类型识别，将获得的链接识别区分为：原文链接、列表链接和引用链接；删除列表链接和引用链接。

28.根据权利要求27所述的装置，其特征在于，该装置还包括正确性判断单元，用于对链接类型识别单元获得的原文链接的网页信息的正文，进行正确性判断，删除正文正确性判断为无效的网页信息；

29.根据权利要求27所述的装置，其特征在于，该装置还包括增量获取单元：用于周期性获取宣传监测目标网页的新增网页信息。

30.根据权利要求19所述的装置，其特征在于，该装置还包括宣传力度比对单元，用于根据分词处理后的网页信息进行类型词识别，根据专家知识数据库的类型词，获取网页信息中在同一领域不同倾向上专家知识数据库里存在的关键字，进行企业不同类型词对应的宣传力度信息计算，获得企业在不同倾向的宣传力度比对信息。

31.根据权利要求30所述的装置，所述类型词识别为：将获得的网页信息，通过与类型特征词数据库进行对比识别，获得反映网页信息内容的类型的词语；

32.根据权利要求22所述的装置，其特征在于，所述网站特征字分离单元还获得网站栏目信息；所述链接去重单元还获得链接去重删除的链接个数信息；该装置还包括发布效果分析单元，用于根据宣传监测目标的网页信息的网站栏目信息，确定宣传监测目标的网页信息被元搜索引擎网站收录的、包含链接去重删除的链接在内的链接个数信息，获得文章发布效果信息；

所述文章发布效果与元搜索引擎网站收录个数成正比。

33.根据权利要求19所述的装置，其特征在于，所述网站特征字分离单元还获得转载信息；该装置还包括转载增益度单元，用于对所述宣传监测目标的初始发布的各网站的直接转载、和被直接转载后的各网站的间接转载进行记录和统计；计算直接转载统计数值与间接转载统计数值之商、获得转载增益度信息；根据转载增益度信息，获得企业发布网页信息的成本和宣传效果信息；

34.根据权利要求33所述的装置，其特征在于，当获得的宣传监测目标的网页信息的转载信息缺省转载源时，该装置还包括转载源确定单元，用于将所述获取的网页信息的来源网站按信息发表时间排序，对时间排序中包含的总的时间区间进行分段，且每一时间段长度相同；其中，分段的数量与总的时间区间长度成正比；

35.根据权利要求34所述的装置，其特征在于，所述分段的数量与总的时间区间长度成正比；包括：

36.根据权利要求19所述的装置，其特征在于，所述网站特征字分离单元还获得：元素标识符，网页链接的点击数、评论数信息，该装置还包括投放最优单元，用于根据TOP-K算法，以网页链接作为元素标识符，网页链接的点击数、评论数、直接转载次数、间接转载次数、转载增益度作为元素的属性参数，获得最适宜投放宣传监测目标的文章的K个网站信息。