CN104965934A

CN104965934A - 一种基于互联网内容挖掘的一搜成书方法

Info

Publication number: CN104965934A
Application number: CN201510470165.XA
Authority: CN
Inventors: 李鼎; 周彪; 叶营; 刘桂霞; 孙立; 张敏
Original assignee: Epoch Ltd Of New Media Publishing House
Current assignee: Anhui Huarui Digital Technology Co., Ltd.
Priority date: 2015-08-04
Filing date: 2015-08-04
Publication date: 2015-10-07

Abstract

本发明涉及一种基于互联网内容挖掘的一搜成书方法，包括以下步骤：步骤1、内容爬取并构建分类索引；步骤2、用户根据步骤1的构建分类索引搜索成书。本发明根据用户需求将分散在互联网中的繁杂信息本地化并进行系统化整理，采用自行研发的一键排版功能一键成书，最终达到按需印刷的目的。

Description

一种基于互联网内容挖掘的一搜成书方法

技术领域

本发明涉及一种自动排版成书的方法，尤其是涉及一种基于互联网内容挖掘的一搜成书方法。

背景技术

当前，我们正处于一个信息爆炸的社会。互联网上充斥着海量的、繁杂的信息，加重了获取垂直细分信息的难度。从而催生出一些相关专利和著作的产生，试图解决这一难题。一种互联网信息搜索聚合呈现方法（中国专利ZL201410198228.6）通过抓取网页内容并计算内容相似度，将同质或内容相似度大于设定阀值的页面作为一组，对组内每个页面提取同质和差异性内容，最终融合成一个新的页面。在计算相似度前，需要对文本分词并需要量化每个词的权重，一般采用TF/IDF值表示词的权重，然而中文中多义词和歧义词过多容易产生较大的误差。另外，通过相似度计算将文本分组的方式在某种程度上只能反映出文本间的相关程度，当样本较小时，相关系数的波动较大，对有些样本相关系数的绝对值易接近于最大值；当n较大时，相关系数的绝对值容易偏小。因此，最终合成的新页面与用户的期望值可能存在一定的误差。生成的新内容仍以网页的方式保存，用户无法在线对存在误差的内容进行二次编辑修改，更不能自动排版成书。

发明内容

本发明设计了一种基于互联网内容挖掘的一搜成书方法，其解决的技术问题是互联网上信息繁杂、分布比较分散，难以获取系统性内容，即使获取到系统性内容后，难以保存以便再次。

为了解决上述存在的技术问题，本发明采用了以下方案：

一种基于互联网内容挖掘的一搜成书方法，包括以下步骤：步骤1、内容爬取并构建分类索引；步骤2、用户根据步骤1的构建分类索引搜索成书。

进一步，所述内容爬取并构建分类索引包括以下分步骤：步骤11、选取监控目标网站；步骤12、爬取网站内容；步骤13、解析爬取内容，提取内容主题和关键字，对内容进行分类；步骤14、内容噪声过滤；步骤15、内容本地化；步骤16、针对分类内容构建分类索引。

进一步，用户根据步骤1的构建分类索引搜索成书包括以下分步骤：步骤21、用户选择所需内容类型；步骤22、用户提供搜索关键词；步骤23、针对用户提交的内容类型和关键词在步骤16构建的分类索引下搜索内容，返回搜索内容；步骤24、对搜索结果聚类；步骤25、对聚类结果采用自动排版算法，自动成书。

该基于互联网内容挖掘的一搜成书方法具有以下有益效果：

（1）本发明根据用户需求将分散在互联网中的繁杂信息本地化并进行系统化整理，采用自行研发的一键排版功能一键成书，最终达到按需印刷的目的。

（2）本发明通过构建分类索引能够垂直细分获取分散的互联网数据。

（3）本发明的用户通过简单的提交关键词和内容类型就可以获得系统性的主题相关的数据。

附图说明

图1：本发明基于互联网内容挖掘的一搜成书方法的流程方框示意图。

具体实施方式

下面结合图1，对本发明做进一步说明：

1、内容爬取技术模块：

步骤11：监控目标网站，主要监控目标为公共资源网站。

步骤12：使用分布式爬虫系统抓取目标网站内容；该分布式爬虫系统可以实现网页配置参数，例如，特定网站的链接，特定关键字，所需爬取的某个页面中的特定内容。

步骤13：网站内容解析，主要解析HTML文件获取网页的文本和图片数据。

步骤14：采用jieba分词对文本分词，获取每个词的权重。

步骤15：对抓取的内容采用LDA算法提取文本的主题和关键词，并使用kmeans对文本聚类。

步骤16：过滤文本，主要包括文本的去重和垃圾信息的过滤。去重主要通过皮尔逊和余弦定理理论或通过ｓｉｍｈａｓｈ＋汉明距离的处理方式实现，垃圾信息的过滤（主要为广告信息）通过URL模式识别算法实现。

步骤17：数据本地化。需要本地化的数据有页面源数据、页面提取的文本、图片、主题、关键词和分类信息；各网站的数据格式区别较大，数据本地化是为了统一数据格式，以便后续的自动排版成书；另外，数据本地化后，可以对数据进行拆分和组合等二次操作。

步骤 18：针对本地化数据构建分类索引。

2、用户搜索成书模块技术方案如下：

步骤21、用户选择所需内容类型。

步骤22、用户提供搜索关键词。

步骤23：通过内容类型和关键词确定需要扫描的分类索引，通过分布式搜索系统获取搜索结果，搜索结果按匹配得分降序依次返回。该分类索引为步骤18构建的分类索引。

步骤24:对搜索结果聚类。获取搜索结果得分最高的前100或者N篇内容，对着100篇或N篇内容采用AP算法对文本聚类，每一个类别作为一个章节。计算每个章节的加权搜索得分，将章节按加权得分的降序排列。获取章节内部文本内的时间或内容原始的发布时间，章节内按时间降序排列。

步骤25：将排序完成的内容依次传递到自行开发的自动排版算法，自动成书。

上面结合附图对本发明进行了示例性的描述，显然本发明的实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围内。

Claims

1. 一种基于互联网内容挖掘的一搜成书方法，包括以下步骤：步骤1、内容爬取并构建分类索引；步骤2、用户根据步骤1的构建分类索引搜索成书。

2.根据权利要求1所述基于互联网内容挖掘的一搜成书方法，其特征在于，所述内容爬取并构建分类索引包括以下分步骤：步骤11、选取监控目标网站；步骤12、爬取网站内容；步骤13、解析爬取内容，提取内容主题和关键字，对内容进行分类；步骤14、内容噪声过滤；步骤15、内容本地化；步骤16、针对分类内容构建分类索引。

3.根据权利要求1或2所述基于互联网内容挖掘的一搜成书方法，其特征在于，用户根据步骤1的构建分类索引搜索成书包括以下分步骤：步骤21、用户选择所需内容类型；步骤22、用户提供搜索关键词；步骤23、针对用户提交的内容类型和关键词在步骤16构建的分类索引下搜索内容，返回搜索内容；步骤24、对搜索结果聚类；步骤25、对聚类结果采用自动排版算法，自动成书。