CN106383887B

CN106383887B - 一种环保新闻数据采集和推荐展示的方法及系统

Info

Publication number: CN106383887B
Application number: CN201610841557.7A
Authority: CN
Inventors: 刘术军; 曾静; 裴超
Original assignee: Shenzhen Bowo Wisdom Technology Co ltd
Current assignee: Shenzhen Bowo Wisdom Technology Co ltd
Priority date: 2016-09-22
Filing date: 2016-09-22
Publication date: 2023-04-07
Anticipated expiration: 2036-09-22
Also published as: CN106383887A

Abstract

本发明公开了一种环保新闻数据采集和推荐展示的方法及系统，方法包括如下步骤：采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的所述原始文档保存到数据存储服务器中；对所述原始文档中的数据进行去重处理，得到待分类文档；对所述待分类文档进行分类；对用户行为的日志数据进行分析，给每个用户打标签；根据文档的内容和用户的阅读习惯向用户推荐相关的文档。本发明能汇总并查看环保类新闻动态、能查看并汇总国家发布的最新环保相关政策及法规、能汇总在各个平台所收集的网民对环保相关的投诉建议、能持续关注环保新闻事件的持续跟踪动态、能根据区域划分查看环保动态。

Description

一种环保新闻数据采集和推荐展示的方法及系统

技术领域

本发明涉及环保新闻领域，特别涉及一种环保新闻数据采集和推荐展示的方法及系统。

背景技术

随着互联网技术不断的发展，移动终端设备的普及，网络信息量成爆炸式增长，各种环保领域新闻也层出不穷，各大新闻搜索引擎对涉及网民关注的环保热点、舆情焦点，以及对网民舆论和媒体观点进行系统分析。同时，移动终端新闻客户端软件也已经成为环保新闻传播的一种重要方式。

目前同类实现方案中采用的方式是利用现有的新闻客户端软件（如：常见的涉及新闻客户端软件包括：今日头条、网易新闻、腾讯新闻、搜狐新闻等移动APP）通过系统推荐、订阅专题等相对比较大的分类来进行，例如科技、时尚、旅游、电影和体育等。每天互联网上产生的新闻量很大，而关于环保相关的新闻很快就会淹没在信息的海洋中。主要存在的问题如下：没有一个统一专业的移动平台可以汇总并查看环保类新闻动态；无法查看并汇总国家发布的最新环保相关政策及法规；无法汇总在各个平台所收集的网民对环保相关的投诉建议；无法持续关注环保新闻事件的持续跟踪动态；无法根据区域划分查看环保动态。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种能汇总并查看环保类新闻动态、能查看并汇总国家发布的最新环保相关政策及法规、能汇总在各个平台所收集的网民对环保相关的投诉建议、能持续关注环保新闻事件的持续跟踪动态、能根据区域划分查看环保动态的环保新闻数据采集和推荐展示的方法及系统。

本发明解决其技术问题所采用的技术方案是：构造一种环保新闻数据采集和推荐展示的方法，包括如下步骤：

A) 采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的所述原始文档保存到数据存储服务器中。

B) 对所述原始文档中的数据进行去重处理，得到待分类文档。

C) 对所述待分类文档进行分类。

D) 对用户行为的日志数据进行分析，给每个用户打标签。

E) 根据文档的内容和用户的阅读习惯向用户推荐相关的文档。

在本发明所述的环保新闻数据采集和推荐展示的方法中，所述步骤B）进一步包括：

B1）对所述原始文档进行分词形成所述原始文档的特征单词，然后形成去掉噪音词的单词序列，并为每个特征单词加上权重。

B2）通过哈希算法计算每个所述特征单词的哈希值。

B3）按照每个所述特征单词的权重形成加权数字串。

B4）将每个所述特征单词的加权数字串进行累加，形成一个序列数字串。

B5）如果所述序列数字串大于0则置为1，否则置为0，得到一个simhash值。

在本发明所述的环保新闻数据采集和推荐展示的方法中，所述步骤C）进一步包括：

C1）确定所述待分类文档的特征属性，对每个所述特征属性进行划分，然后由人工对一部分待分类文档进行分类，形成训练样本集合。

C2）计算每个类别在训练样本中的出现频率，以及每个特征属性划分对每个类别的条件概率估计，并记录计算结果。

C3）对每个类别计算在所述特征属性下出现的概率，比较各个特征属性出现的概率相乘的结果，得到待分类文档数据与类别的映射关系。

在本发明所述的环保新闻数据采集和推荐展示的方法中，所述步骤D）进一步包括：

D1）从所述日志数据中把用户的相关信息提取出来；所述用户的相关信息包括用户的地域、性别和年龄信息。

D2）从所述日志数据中提取出文档的信息、阅读时长和阅读的时间，然后对提取出的所述文档的信息、阅读时长和阅读的时间进行关键词提取分类，按照阅读的市场和关键字的词频进行归类，优先取靠前的一些词作为所述用户的标签。

在本发明所述的环保新闻数据采集和推荐展示的方法中，所述日志数据的来源为API调用日志、APP浏览记录、用户主体数据和外界环境数据。

在本发明所述的环保新闻数据采集和推荐展示的方法中，所述步骤E）进一步包括：

E1）抽取文档的特征项；所述文档的特征项包括文档的标题、发布时间、来源网站和文档的正文。

E2）抽取所述用户的特征项；所述用户的特征项包括用户的用户名、年龄、性别、地域和阅读记录。

E3）将所述文档中的词提取出来，将其与所述用户的阅读习惯的关键词使用余弦相似定理计算两者之间的相似度。

E4）根据计算的相似度的排列将相关的文档推荐给所述用户。

本发明还涉及一种实现上述环保新闻数据采集和推荐展示的方法的系统，包括：

原始文档采集保存单元：用于使采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的所述原始文档保存到数据存储服务器中。

去重单元：用于对所述原始文档中的数据进行去重处理，得到待分类文档。

分类单元：用于对所述待分类文档进行分类。

数据分析单元：用于对用户行为的日志数据进行分析，给每个用户打标签。

文档推荐单元：用于根据文档的内容和用户的阅读习惯向用户推荐相关的文档。

在本发明所述的实现上述环保新闻数据采集和推荐展示的方法的系统中，所述去重单元进一步包括：

分词模块：用于对所述原始文档进行分词形成所述原始文档的特征单词，然后形成去掉噪音词的单词序列，并为每个特征单词加上权重。

哈希值计算模块：用于通过哈希算法计算每个所述特征单词的哈希值。

加权数字串形成模块：用于按照每个所述特征单词的权重形成加权数字串。

序列数字串形成模块：用于将每个所述特征单词的加权数字串进行累加，形成一个序列数字串。

处理模块：用于如果所述序列数字串大于0则置为1，否则置为0，得到一个simhash值。

在本发明所述的实现上述环保新闻数据采集和推荐展示的方法的系统中，所述分类单元进一步包括：

特征属性划分模块：用于确定所述待分类文档的特征属性，对每个所述特征属性进行划分，然后由人工对一部分待分类文档进行分类，形成训练样本集合。

概率计算模块：用于计算每个类别在训练样本中的出现频率，以及每个特征属性划分对每个类别的条件概率估计，并记录计算结果。

映射关系获取模块：用于对每个类别计算在所述特征属性下出现的概率，比较各个特征属性出现的概率相乘的结果，得到待分类文档数据与类别的映射关系。

在本发明所述的实现上述环保新闻数据采集和推荐展示的方法的系统中，所述文档推荐单元进一步包括：

文档特征项抽取模块：用于抽取文档的特征项；所述文档的特征项包括文档的标题、发布时间、来源网站和文档的正文。

用户特征项抽取模块：用于抽取所述用户的特征项；所述用户的特征项包括用户的用户名、年龄、性别、地域和阅读记录。

提取模块：用于将所述文档中的词提取出来，将其与所述用户的阅读习惯的关键词使用余弦相似定理计算两者之间的相似度。

推荐模块：用于根据计算的相似度的排列将相关的文档推荐给所述用户。

实施本发明的环保新闻数据采集和推荐展示的方法及系统，具有以下有益效果:由于采集服务器从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，然后对原始文档中的数据进行去重处理，得到待分类文档；对待分类文档进行分类，对待分类文档进行自然语言处理（中文分词、关键词提取、自动分类），再根据不同用户行政区划和需求对信息进行自动计算推送列表展示权重值；对用户行为的日志数据进行分析，给每个用户打标签；根据文档的内容和用户的阅读习惯向用户推荐相关的文档，也就是向用户推荐符合其阅读习惯的文档，其能汇总并查看环保类新闻动态、能查看并汇总国家发布的最新环保相关政策及法规、能汇总在各个平台所收集的网民对环保相关的投诉建议、能持续关注环保新闻事件的持续跟踪动态、能根据区域划分查看环保动态。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明环保新闻数据采集和推荐展示的方法及系统一个实施例中方法的流程图。

图2为所述实施例中对原始文档中的数据进行去重处理，得到待分类文档的具体流程图。

图3为所述实施例中对待分类文档进行分类的具体流程图。

图4为所述实施例中对用户行为的日志数据进行分析，给每个用户打标签的具体流程图。

图5为所述实施例中根据文档的内容和用户的阅读习惯向用户推荐相关的文档的具体流程图。

图6为所述实施例中装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明环保新闻数据采集和推荐展示的方法及系统实施例中，其环保新闻数据采集和推荐展示的方法的流程图如图1所示。图1中，该环保新闻数据采集和推荐展示的方法包括如下步骤：

步骤S01 采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的原始文档保存到数据存储服务器中:本步骤中，采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的原始文档保存到数据存储服务器中。

值得一提的是，采集服务器是指为了实现实时、稳定、准确采集数据而开发的程序。该程序作为主要的数据采集的核心，完成数据定向采集和分类，去重和存储工作。数据存储服务器是统一、集中存储各种采集或编辑的文字和图片的物理服务器。

本实施例中，当将采集的原始文档保存到数据存储服务器中时，具体是保存到数据库中，该数据库可以是MongoDB数据库、MySQL数据库或SqlServer数据库。MongoDB数据库是一个基于分布式文件存储的开源数据库项目。它的特点是高性能、易部署、易使用以及数据非常方便。主要功能特性有：面向集合存储，易存储对象类型的数据；模式自由；支持动态查询；支持完全索引，包含内部对象；支持查询；支持复制和故障恢复；使用高效的二进制数据存储，包括大型对象（如视频等）；自动处理碎片，以支持云计算层次的扩展性；支持RUBY，PYTHON，JAVA，C++，PHP等多种语言；文件存储格式为BSON（一种JSON的扩展）；可通过网络访问。

MySQL数据库是最流行的关系型数据库管理系统，在 WEB 应用方面， MySQL 数据库是最好的 RDBMS (Relational Database Management System，关系数据库管理系统)应用软件之一。其主要特性有：使用C和C++编写，并使用了多种编译器进行测试，保证源代码的可移植性；支持AIX、FreeBSD、HP-UX、Linux、Mac OS、NovellNetware、OpenBSD、OS/2Wrap、Solaris和Windows等多种操作系统；为多种编程语言提供了API，这些编程语言包括C、C++、Python、Java、Perl、PHP、Eiffel、Ruby和Tcl等；支持多线程，充分利用CPU资源；优化的SQL查询算法有效地提高查询速度；既能够作为一个单独的应用程序应用在客户端服务器网络环境中，也能够作为一个库而嵌入到其他的软件中；提供多语言支持，常见的编码如中文的GB 2312、BIG5，日文的Shift_JIS等都可以用作数据表名和数据列名；提供TCP/IP、ODBC和JDBC等多种数据库连接途径；提供用于管理、检查和优化数据库操作的管理工具。

SqlServer数据库是由Microsoft开发和推广的关系数据库管理系统（DBMS），主要特性有：真正的客户机/服务器体系结构；图形化用户界面，使系统管理和数据库管理更加直观、简单；丰富的编程接口工具，为用户进行程序设计提供了更大的选择余地；SQLServer与Windows NT完全集成，利用了NT的许多功能，如发送和接受消息，管理登录安全性等；SqlServer也可以很好地与Microsoft BackOffice产品集成；具有很好的伸缩性，可跨越从运行Windows 95/98的膝上型电脑到运行Windows 2000的大型多处理器等多种平台使用；对Web技术的支持，使用户能够很容易地将数据库中的数据发布到Web页面上；SqlServer提供数据仓库功能，这个功能只在Oracle和其他更昂贵的DBMS中才有。

步骤S02 对原始文档中的数据进行去重处理，得到待分类文档:通过采集服务器采集了大量的文档，但是里面的文本中有很多的重复数据影响对数据的分析。在数据的分析分类之前需要对这些数据进行去重处理。本步骤中，对原始文档中的数据进行去重处理，得到待分类文档。本实施例中，主要采用simhash算法进行去重处理。

步骤S03 对待分类文档进行分类:采集回来的文档经过去重处理之后，接下来需要对待分类文档进行分类，本步骤中，对上述待分类文档进行分类。首先得确认下来待分类文档是和环境相关的数据，这里采用的是朴素贝叶斯分类算法。

步骤S04 对用户行为的日志数据进行分析，给每个用户打标签: 考虑到文档是要呈现给用户的，而且每个用户都是一个个的独立个体，关注的点都会不一样，那么在这种情况下就要对用户的行为进行分析，给每个用户建立用户画像。用户画像的核心工作就是给用户打标签，打标签的重要目的是为了让人能够理解并且方便机器处理。给用户建立画像首先要有用户行为的日志数据。本步骤中，对用户行为的日志数据进行分析，给每个用户打标签。

日志数据的来源可以是API调用日志、APP浏览记录、用户主体数据和外界环境数据。对于API调用日志来讲，用户在访问环保新闻APP的功能页面时会调用服务器端的接口，环保新闻APP的接口服务器（环保新闻APP访问数据的来源服务器，提供API服务）会对这些调用的情况进行记录。对于APP浏览记录来讲，用户在使用环保新闻APP的时候，环保新闻APP会记录下具体的访问页面，比如访问的是哪个页面、上下文的数据、持续的时间和用户的点击等一些事件操作。对于用户主体数据来讲，如果用户是使用第三方的账号体系登录(如新浪微博、腾讯QQ或者是微信等)，那么可以通过这些平台获取到一部分的用户的主体信息。如用户的年龄、身份、受教育的程度和兴趣爱好等；另外在环保新闻APP的后续使用过程中也会通过访问的情况来补充一部分相关的数据。对于外界环境数据来讲，用户在使用环保新闻APP的过程中，环保新闻APP会记录下用户当前使用的设备的一些信息，如设备型号、地理位置和网络环境等。

步骤S05根据文档的内容和用户的阅读习惯向用户推荐相关的文档: 如今已经进入了一个数据爆炸的时代，随着 Web 2.0 的发展， Web 已经变成数据分享的平台，那么，如何让人们在海量的数据中找到他们需要的信息将变得越来越难。

在这样的情形下，搜索引擎（谷歌，必应，百度等）成为大家快速找到目标信息的最好途径。在用户对自己需求相对明确的时候，用搜索引擎可以很方便的通过关键字搜索，就能很快的找到自己需要的信息。但搜索引擎并不能完全满足用户对信息发现的需求，这是因为在很多情况下，用户其实并不明确自己的需要，或者他们的需求很难用简单的关键字来表述。又或者他们需要更加符合他们个人口味和喜好的结果，因此出现了推荐系统，与搜索引擎对应，大家也习惯称它为推荐引擎。

随着推荐引擎的出现，用户获取信息的方式从简单的目标明确的数据的搜索转换到更高级更符合人们使用习惯的信息发现。如今，随着推荐技术的不断发展，推荐引擎已经在电子商务网站(例如亚马逊，京东，淘宝等) 和一些媒介平台（如网易新闻，新浪微博和今日头条等）出现。推荐引擎是利用特殊的信息过滤技术，将不同的物品或者是内容推荐给对它们感兴趣的用户。

本步骤中，根据文档的内容和用户的阅读习惯使用推荐引擎向用户推荐相关的文档。这里先将推荐引擎看作黑盒，它接受的输入是推荐的数据源（文档），一般情况下，推荐引擎所需要的数据源包括：（1）要推荐的文章(或文档)的元数据，例如主题、来源、时间等；（2）系统用户的基本信息，例如性别、年龄、地域等；（3）用户的阅读习惯，例如阅读的文章(或文档)的记录、文章(或文档)的阅读偏好和时长等。

推荐引擎有很多种分类，本实施例采用的是基于内容的推荐，主要是根据文章(或文档)的内容和用户的阅读习惯进行推荐。这种推荐的数据来自信息检索和文本检索里，通过计算文章(或文档)中的词频和关键词在文章(或文档)中的权值构成一篇文章(或文档)的特征向量，然后基于该文章(或文档)的特征向量和其他文章(或文档)的特征向量进行余弦相似度计算，从而返回最匹配的相似文章(或文档)来推荐。

本发明通过采集服务器实时收集各种网络数据来源，并存储在数据存储服务器中，对数据进行自动过滤、自动去重、自动聚类、智能文章提取、后期数据处理和无人值守全天候自动采集，本发明能查看到所有涉及环保相关话题和事件，对详情新闻可以进行多平台分享、收藏，聚合环保新闻，可根据分析的用户的阅读行为，利用新闻的关键词和分类，向用户推送环保新闻信息。所以其能汇总并查看环保类新闻动态、能查看并汇总国家发布的最新环保相关政策及法规、能汇总在各个平台所收集的网民对环保相关的投诉建议、能持续关注环保新闻事件的持续跟踪动态、能根据区域划分查看环保动态。

对于本实施例而言，上述步骤S02还可进一步细化，其细化后的流程图如图2所示。图2中，上述步骤S02进一步包括：

步骤S21 对原始文档进行分词形成原始文档的特征单词，然后形成去掉噪音词的单词序列，并为每个特征单词加上权重:本步骤为分词步骤，具体的，本步骤中，把需要分析的原始文档进行分词形成该原始文档的特征单词，然后形成去掉噪音词的单词序列，并为每个特征单词加上权重。该步骤为分词步骤。

步骤S22 通过哈希算法计算每个特征单词的哈希值:本步骤为哈希计算步骤，具体的，本步骤中，通过哈希算法计算每个特征单词的哈希值，假设“环保”通过哈希算法计算出来的值是“100101”，“污染”通过哈希算法计算出来的值是“101011”，这样就把字符串变成一串串的数字。

步骤S23 按照每个特征单词的权重形成加权数字串:本步骤为加权步骤，具体的，本步骤中，通过上述步骤S23生成的哈希结果，按照每个特征单词的权重形成加权数字串。

步骤S24将每个特征单词的加权数字串进行累加，形成一个序列数字串:本步骤为合并步骤，具体的，本步骤中，将每个特征单词的加权数字串进行累加，形成一个序列数字串。

步骤S25 如果序列数字串大于0则置为1，否则置为0，得到一个simhash值:本步骤为降维步骤，具体的，对上述序列数字串进行处理，如果序列数字串大于0则置为1，否则置为0，从而得到一个simhash值。这样就完成了对海量数据的去重。

对于本实施例而言，上述步骤S03还可进一步细化，其细化后的流程图如图3所示。图3中，上述步骤S03进一步包括：

步骤S31确定待分类文档的特征属性，对每个特征属性进行划分，然后由人工对一部分待分类文档进行分类，形成训练样本集合: 本步骤中，确定待分类文档的特征属性，对每个特征属性进行划分，然后由人工对一部分待分类文档进行分类，形成训练样本集合。本步骤属于准备工作阶段，这个阶段时为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性(比如：将词频比较高或样本数据中高频率出现的词作为特征属性，将每篇文件中都会出现的一部分有意义的词作为特征属性，将出现概率比较高的词作为特征属性，将文章的特定来源作为特征属性等）；并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类（主要是从采集回来的文本数据里面提取一些词，按照词的意义和是不是环保业内的词汇来进行分类），形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本集合。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量在很大程度上由特征属性、特征属性划分及训练样本的质量决定。

步骤S32 计算每个类别在训练样本中的出现频率，以及每个特征属性划分对每个类别的条件概率估计，并记录计算结果:本步骤属于分类器训练阶段，该阶段用来生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并记录计算结果。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

步骤S33 对每个类别计算在特征属性下出现的概率，比较各个特征属性出现的概率相乘的结果，得到待分类文档数据与类别的映射关系:本步骤中，对每个类别计算在特征属性下出现的概率，比较各个特征属性出现的概率相乘的结果，得到待分类文档数据与类别的映射关系。本步骤属于应用阶段，该应用阶段是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。这样就实现了对数据的分类。

对于本实施例而言，上述步骤S04还可进一步细化，其细化后的流程图如图4所示。图4中，上述步骤S04进一步包括：

步骤S41 从日志数据中把用户的相关信息提取出来:本步骤中，从日志数据中把用户的相关信息提取出来，用户的相关信息包括用户的地域、性别和年龄等人文信息。该用户首先会拥有这些标签。

步骤S42 从日志数据中提取出文档的信息、阅读时长和阅读的时间，然后对提取出的文档的信息、阅读时长和阅读的时间进行关键词提取分类，按照阅读的市场和关键字的词频进行归类，优先取靠前的一些词作为用户的标签:本步骤中，从日志数据中提取出和文档阅读相关的数据，提起出来文档的信息、阅读时长和阅读的时间这些有效的数据，然后把这些数据进行关键词提取分类，按照阅读的市场和关键字的词频进行归类，优先取靠前的一些词作为用户的标签。这样就实现了对用户行为数据的分析。

对于本实施例而言，上述步骤S05还可进一步细化，其细化后的流程图如图5所示。图5中，上述步骤S05进一步包括：

步骤S51 抽取文档的特征项:本步骤中，抽取文档的特征项，文档的特征主要是一系列的属性来描述文档信息。本实施例中，将文档的标题、发布时间、来源网站和文档的正文作为文档的特征项。

步骤S52抽取用户的特征项:本步骤中，抽取用户的特征项。用户的特征项包括用户的用户名、年龄、性别、地域和阅读记录。

步骤S53 将文档中的词提取出来，将其与用户的阅读习惯的关键词使用余弦相似定理计算两者之间的相似度:本步骤中，将将文档中的词提取出来，将其与用户的阅读习惯的关键词使用余弦相似定理，计算两者之间的相似度。

步骤S54 根据计算的相似度的排列将相关的文档推荐给用户:本步骤中，根据计算的相似度的排列将相关的文档推荐给用户，也就是在客户端展示给用户，这样就实现了向用户推送相关的环保新闻信息。

本实施例还涉及一种实现上述环保新闻数据采集和推荐展示的方法的系统，其结构示意图如图6所示。图6中，该系统包括原始文档采集保存单元1、去重单元2、分类单元3、日志数据分析单元4和文档推荐单元5；其中，原始文档采集保存单元1用于使采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的原始文档保存到数据存储服务器中；去重单元2用于对原始文档中的数据进行去重处理，得到待分类文档；分类单元3用于对待分类文档进行分类；日志数据分析单元4用于对用户行为的日志数据进行分析，给每个用户打标签；文档推荐单元5用于根据文档的内容和用户的阅读习惯向用户推荐相关的文档。其能汇总并查看环保类新闻动态、能查看并汇总国家发布的最新环保相关政策及法规、能汇总在各个平台所收集的网民对环保相关的投诉建议、能持续关注环保新闻事件的持续跟踪动态、能根据区域划分查看环保动态。

本实施例中，去重单元2进一步包括分词模块21、哈希值计算模块22、加权数字串形成模块23、序列数字串形成模块24和处理模块25；其中，分词模块21用于对原始文档进行分词形成原始文档的特征单词，然后形成去掉噪音词的单词序列，并为每个特征单词加上权重；哈希值计算模块22用于通过哈希算法计算每个特征单词的哈希值；加权数字串形成模块23用于按照每个特征单词的权重形成加权数字串；序列数字串形成模块24用于将每个特征单词的加权数字串进行累加，形成一个序列数字串；处理模块25用于如果序列数字串大于0则置为1，否则置为0，得到一个simhash值。

本实施例中，分类单元3进一步包括特征属性划分模块31、概率计算模块32和映射关系获取模块33；其中，特征属性划分模块31用于确定待分类文档的特征属性，对每个特征属性进行划分，然后由人工对一部分待分类文档进行分类，形成训练样本集合；概率计算模块32用于计算每个类别在训练样本中的出现频率，以及每个特征属性划分对每个类别的条件概率估计，并记录计算结果；映射关系获取模块33用于对每个类别计算在所述特征属性下出现的概率，比较各个特征属性出现的概率相乘的结果，得到待分类文档数据与类别的映射关系。

本实施例中，文档推荐单元5进一步包括文档特征项抽取模块51、用户特征项抽取模块52、提取模块53和推荐模块54；其中，文档特征项抽取模块51用于抽取文档的特征项；文档的特征项包括文档的标题、发布时间、来源网站和文档的正文；用户特征项抽取模块52用于抽取用户的特征项；用户的特征项包括用户的用户名、年龄、性别、地域和阅读记录；提取模块53用于将文档中的词提取出来，将其与用户的阅读习惯的关键词使用余弦相似定理计算两者之间的相似度；推荐模块54用于根据计算的相似度的排列将相关的文档推荐给用户。

总之，本发明打造目前环保新闻APP空白局面，专注于国内环保新闻，汇总国内所有环保互联网信息平台，建设成为专门服务环保行业移动APP新闻客户端软件。实时汇总国内所有行政机构发布的最新环保政策及法规信息，让用户第一时间查看到最新环保行业政务动态；收集网民环境舆情，反映环境舆情民意，对网民舆论以及媒体观点进行系统分析；重点跟踪各类环保大事件的持续跟踪报道；根据区域划分查阅用户所在地市和省市的环保最新动态。

本发明能实现多人协同工作：不同用户浏览不同内容，执行不同操作，完成不同职责。能进行文章要素显示：对于新闻文章与博客文章，可采集标题、正文、作者、发布时间和来源，对于关键词用高亮背景彩色显示。能分类与编辑:对于采集后的信息内容，可以进行过滤、分类、备注与编辑。具有强大的搜索功能：既可以精确搜索也可以模糊搜索，既可以按分类搜索，也可按来源搜索。支持人工采集:对于某些紧急或异常情况，可以人工输入信息。具有强大的系统监测功能：对于一个7*24小时不间断运行的系统来说，强大的系统监测可让运营管理员随时掌握系统的健康状况。移动APP系统根据后台系统给每个注册的用户不同的关键词，收藏信息推送相关环保新闻。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种环保新闻数据采集和推荐展示的方法，其特征在于，包括如下步骤：

A)采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的所述原始文档保存到数据存储服务器中；

B)对所述原始文档中的数据进行去重处理，得到待分类文档；

C)对所述待分类文档进行分类；

D)对用户行为的日志数据进行分析，给每个用户打标签；

E)根据文档的内容和用户的阅读习惯向用户推荐相关的文档；

所述步骤C)进一步包括：

C1)确定所述待分类文档的特征属性，对每个所述特征属性进行划分，然后由人工对一部分待分类文档进行分类，形成训练样本集合；

C2)计算每个类别在训练样本中的出现频率，以及每个特征属性划分对每个类别的条件概率估计，并记录计算结果；

C3)对每个类别计算在所述特征属性下出现的概率，比较各个特征属性出现的概率相乘的结果，得到待分类文档数据与类别的映射关系；

所述步骤D)进一步包括：

D1)从所述日志数据中把用户的相关信息提取出来；所述用户的相关信息包括用户的地域、性别和年龄信息；

D2)从所述日志数据中提取出文档的信息、阅读时长和阅读的时间，然后对提取出的所述文档的信息、阅读时长和阅读的时间进行关键词提取分类，按照阅读的市场和关键字的词频进行归类，优先取靠前的一些词作为所述用户的标签；

所述日志数据的来源为API调用日志、APP浏览记录、用户主体数据和外界环境数据；

所述步骤E)进一步包括：

E1)抽取文档的特征项；所述文档的特征项包括文档的标题、发布时间、来源网站和文档的正文；

E2)抽取所述用户的特征项；所述用户的特征项包括用户的用户名、年龄、性别、地域和阅读记录；

E3)将所述文档中的词提取出来，将其与所述用户的阅读习惯的关键词使用余弦相似定理计算两者之间的相似度；

E4)根据计算的相似度的排列将相关的文档推荐给所述用户。

2.根据权利要求1所述的环保新闻数据采集和推荐展示的方法，其特征在于，所述步骤B)进一步包括：

B1)对所述原始文档进行分词形成所述原始文档的特征单词，然后形成去掉噪音词的单词序列，并为每个特征单词加上权重；

B2)通过哈希算法计算每个所述特征单词的哈希值；

B3)按照每个所述特征单词的权重形成加权数字串；

B4)将每个所述特征单词的加权数字串进行累加，形成一个序列数字串；

B5)如果所述序列数字串大于0则置为1，否则置为0，得到一个simhash值。

3.一种实现如权利要求1所述的环保新闻数据采集和推荐展示的方法的系统，其特征在于，包括：

原始文档采集保存单元：用于使采集服务器通过互联网从微博、论坛、博客、贴吧、新闻、搜索引擎、图像或/和视频中采集与环境相关的原始文档，并将采集的所述原始文档保存到数据存储服务器中；

去重单元：用于对所述原始文档中的数据进行去重处理，得到待分类文档；

分类单元：用于对所述待分类文档进行分类；

日志数据分析单元：用于对用户行为的日志数据进行分析，给每个用户打标签；

4.根据权利要求3所述的系统，其特征在于，所述去重单元进一步包括：

分词模块：用于对所述原始文档进行分词形成所述原始文档的特征单词，然后形成去掉噪音词的单词序列，并为每个特征单词加上权重；

哈希值计算模块：用于通过哈希算法计算每个所述特征单词的哈希值；

加权数字串形成模块：用于按照每个所述特征单词的权重形成加权数字串；

序列数字串形成模块：用于将每个所述特征单词的加权数字串进行累加，形成一个序列数字串；

5.根据权利要求3或4所述的系统，其特征在于，所述分类单元进一步包括：

特征属性划分模块：用于确定所述待分类文档的特征属性，对每个所述特征属性进行划分，然后由人工对一部分待分类文档进行分类，形成训练样本集合；

概率计算模块：用于计算每个类别在训练样本中的出现频率，以及每个特征属性划分对每个类别的条件概率估计，并记录计算结果；

6.根据权利要求5所述的系统，其特征在于，所述文档推荐单元进一步包括：

文档特征项抽取模块：用于抽取文档的特征项；所述文档的特征项包括文档的标题、发布时间、来源网站和文档的正文；

用户特征项抽取模块：用于抽取所述用户的特征项；所述用户的特征项包括用户的用户名、年龄、性别、地域和阅读记录；

提取模块：用于将所述文档中的词提取出来，将其与所述用户的阅读习惯的关键词使用余弦相似定理计算两者之间的相似度；