CN104965934A - 一种基于互联网内容挖掘的一搜成书方法 - Google Patents
一种基于互联网内容挖掘的一搜成书方法 Download PDFInfo
- Publication number
- CN104965934A CN104965934A CN201510470165.XA CN201510470165A CN104965934A CN 104965934 A CN104965934 A CN 104965934A CN 201510470165 A CN201510470165 A CN 201510470165A CN 104965934 A CN104965934 A CN 104965934A
- Authority
- CN
- China
- Prior art keywords
- content
- search
- book
- category index
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于互联网内容挖掘的一搜成书方法,包括以下步骤:步骤1、内容爬取并构建分类索引;步骤2、用户根据步骤1的构建分类索引搜索成书。本发明根据用户需求将分散在互联网中的繁杂信息本地化并进行系统化整理,采用自行研发的一键排版功能一键成书,最终达到按需印刷的目的。
Description
技术领域
本发明涉及一种自动排版成书的方法,尤其是涉及一种基于互联网内容挖掘的一搜成书方法。
背景技术
当前,我们正处于一个信息爆炸的社会。互联网上充斥着海量的、繁杂的信息,加重了获取垂直细分信息的难度。从而催生出一些相关专利和著作的产生,试图解决这一难题。一种互联网信息搜索聚合呈现方法(中国专利ZL201410198228.6)通过抓取网页内容并计算内容相似度,将同质或内容相似度大于设定阀值的页面作为一组,对组内每个页面提取同质和差异性内容,最终融合成一个新的页面。在计算相似度前,需要对文本分词并需要量化每个词的权重,一般采用TF/IDF值表示词的权重,然而中文中多义词和歧义词过多容易产生较大的误差。另外,通过相似度计算将文本分组的方式在某种程度上只能反映出文本间的相关程度,当样本较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于最大值;当n较大时,相关系数的绝对值容易偏小。因此,最终合成的新页面与用户的期望值可能存在一定的误差。生成的新内容仍以网页的方式保存,用户无法在线对存在误差的内容进行二次编辑修改,更不能自动排版成书。
发明内容
本发明设计了一种基于互联网内容挖掘的一搜成书方法,其解决的技术问题是互联网上信息繁杂、分布比较分散,难以获取系统性内容,即使获取到系统性内容后,难以保存以便再次。
为了解决上述存在的技术问题,本发明采用了以下方案:
一种基于互联网内容挖掘的一搜成书方法,包括以下步骤:步骤1、内容爬取并构建分类索引;步骤2、用户根据步骤1的构建分类索引搜索成书。
进一步,所述内容爬取并构建分类索引包括以下分步骤:步骤11、选取监控目标网站;步骤12、爬取网站内容;步骤13、解析爬取内容,提取内容主题和关键字,对内容进行分类;步骤14、内容噪声过滤;步骤15、内容本地化;步骤16、针对分类内容构建分类索引。
进一步,用户根据步骤1的构建分类索引搜索成书包括以下分步骤:步骤21、用户选择所需内容类型;步骤22、用户提供搜索关键词;步骤23、针对用户提交的内容类型和关键词在步骤16构建的分类索引下搜索内容,返回搜索内容;步骤24、对搜索结果聚类;步骤25、对聚类结果采用自动排版算法,自动成书。
该基于互联网内容挖掘的一搜成书方法具有以下有益效果:
(1)本发明根据用户需求将分散在互联网中的繁杂信息本地化并进行系统化整理,采用自行研发的一键排版功能一键成书,最终达到按需印刷的目的。
(2)本发明通过构建分类索引能够垂直细分获取分散的互联网数据。
(3)本发明的用户通过简单的提交关键词和内容类型就可以获得系统性的主题相关的数据。
附图说明
图1:本发明基于互联网内容挖掘的一搜成书方法的流程方框示意图。
具体实施方式
下面结合图1,对本发明做进一步说明:
1、内容爬取技术模块:
步骤11:监控目标网站,主要监控目标为公共资源网站。
步骤12:使用分布式爬虫系统抓取目标网站内容;该分布式爬虫系统可以实现网页配置参数,例如,特定网站的链接,特定关键字,所需爬取的某个页面中的特定内容。
步骤13:网站内容解析,主要解析HTML文件获取网页的文本和图片数据。
步骤14:采用jieba分词对文本分词,获取每个词的权重。
步骤15:对抓取的内容采用LDA算法提取文本的主题和关键词,并使用kmeans对文本聚类。
步骤16:过滤文本,主要包括文本的去重和垃圾信息的过滤。去重主要通过皮尔逊和余弦定理理论或通过simhash+汉明距离的处理方式实现,垃圾信息的过滤(主要为广告信息)通过URL模式识别算法实现。
步骤17:数据本地化。需要本地化的数据有页面源数据、页面提取的文本、图片、主题、关键词和分类信息;各网站的数据格式区别较大,数据本地化是为了统一数据格式,以便后续的自动排版成书;另外,数据本地化后,可以对数据进行拆分和组合等二次操作。
步骤 18:针对本地化数据构建分类索引。
2、用户搜索成书模块技术方案如下:
步骤21、用户选择所需内容类型。
步骤22、用户提供搜索关键词。
步骤23:通过内容类型和关键词确定需要扫描的分类索引,通过分布式搜索系统获取搜索结果,搜索结果按匹配得分降序依次返回。该分类索引为步骤18构建的分类索引。
步骤24:对搜索结果聚类。获取搜索结果得分最高的前100或者N篇内容,对着100篇或N篇内容采用AP算法对文本聚类,每一个类别作为一个章节。计算每个章节的加权搜索得分,将章节按加权得分的降序排列。获取章节内部文本内的时间或内容原始的发布时间,章节内按时间降序排列。
步骤25:将排序完成的内容依次传递到自行开发的自动排版算法,自动成书。
上面结合附图对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。
Claims (3)
1. 一种基于互联网内容挖掘的一搜成书方法,包括以下步骤:步骤1、内容爬取并构建分类索引;步骤2、用户根据步骤1的构建分类索引搜索成书。
2.根据权利要求1所述基于互联网内容挖掘的一搜成书方法,其特征在于,所述内容爬取并构建分类索引包括以下分步骤:步骤11、选取监控目标网站;步骤12、爬取网站内容;步骤13、解析爬取内容,提取内容主题和关键字,对内容进行分类;步骤14、内容噪声过滤;步骤15、内容本地化;步骤16、针对分类内容构建分类索引。
3.根据权利要求1或2所述基于互联网内容挖掘的一搜成书方法,其特征在于,用户根据步骤1的构建分类索引搜索成书包括以下分步骤:步骤21、用户选择所需内容类型;步骤22、用户提供搜索关键词;步骤23、针对用户提交的内容类型和关键词在步骤16构建的分类索引下搜索内容,返回搜索内容;步骤24、对搜索结果聚类;步骤25、对聚类结果采用自动排版算法,自动成书。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510470165.XA CN104965934A (zh) | 2015-08-04 | 2015-08-04 | 一种基于互联网内容挖掘的一搜成书方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510470165.XA CN104965934A (zh) | 2015-08-04 | 2015-08-04 | 一种基于互联网内容挖掘的一搜成书方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104965934A true CN104965934A (zh) | 2015-10-07 |
Family
ID=54219973
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510470165.XA Pending CN104965934A (zh) | 2015-08-04 | 2015-08-04 | 一种基于互联网内容挖掘的一搜成书方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104965934A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908071A (zh) * | 2010-08-10 | 2010-12-08 | 厦门市美亚柏科信息股份有限公司 | 一种提高搜索引擎搜索效率的方法及其系统 |
US20110264648A1 (en) * | 2010-04-21 | 2011-10-27 | Yahoo! Inc. | Selectively adding social dimension to web searches |
CN102346778A (zh) * | 2011-10-11 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法与设备 |
CN103294815A (zh) * | 2013-06-08 | 2013-09-11 | 北京邮电大学 | 基于关键字分类并有多种呈现方式的搜索引擎装置与方法 |
CN104021113A (zh) * | 2014-06-23 | 2014-09-03 | 时代新媒体出版社有限责任公司 | 一种基于自动排版的一键成书方法 |
CN104021112A (zh) * | 2014-06-23 | 2014-09-03 | 时代新媒体出版社有限责任公司 | 一种基于自动排版的一键成书系统 |
CN104199985A (zh) * | 2014-09-28 | 2014-12-10 | 北京奇虎科技有限公司 | 一种自定义置顶搜索结果的方法和系统、以及搜索服务器 |
-
2015
- 2015-08-04 CN CN201510470165.XA patent/CN104965934A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110264648A1 (en) * | 2010-04-21 | 2011-10-27 | Yahoo! Inc. | Selectively adding social dimension to web searches |
CN101908071A (zh) * | 2010-08-10 | 2010-12-08 | 厦门市美亚柏科信息股份有限公司 | 一种提高搜索引擎搜索效率的方法及其系统 |
CN102346778A (zh) * | 2011-10-11 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法与设备 |
CN103294815A (zh) * | 2013-06-08 | 2013-09-11 | 北京邮电大学 | 基于关键字分类并有多种呈现方式的搜索引擎装置与方法 |
CN104021113A (zh) * | 2014-06-23 | 2014-09-03 | 时代新媒体出版社有限责任公司 | 一种基于自动排版的一键成书方法 |
CN104021112A (zh) * | 2014-06-23 | 2014-09-03 | 时代新媒体出版社有限责任公司 | 一种基于自动排版的一键成书系统 |
CN104199985A (zh) * | 2014-09-28 | 2014-12-10 | 北京奇虎科技有限公司 | 一种自定义置顶搜索结果的方法和系统、以及搜索服务器 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103810425B (zh) | 恶意网址的检测方法及装置 | |
CN108737423B (zh) | 基于网页关键内容相似性分析的钓鱼网站发现方法及系统 | |
CN101515272B (zh) | 提取网页内容的方法和装置 | |
CN106446195A (zh) | 基于人工智能的新闻推荐方法及装置 | |
Chawla et al. | Product opinion mining using sentiment analysis on smartphone reviews | |
CN104035997A (zh) | 一种基于文本分类和图像深度挖掘的科技情报获取与推送方法 | |
CN103714176A (zh) | 基于最大文本密度的网页正文抽取方法 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN108304502B (zh) | 基于海量新闻数据的快速热点检测方法及系统 | |
CN101957834A (zh) | 一种基于用户特征进行内容推荐的方法与设备 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN103150335A (zh) | 一种基于联合聚类的煤矿舆情监测系统 | |
CN103389998A (zh) | 一种基于云服务的新型互联网商业情报语义分析技术 | |
CN102722709A (zh) | 一种垃圾图片识别方法和装置 | |
CN102314494B (zh) | 一种用于处理网页内容的方法和设备 | |
CN102169501A (zh) | 基于搜索结果对应文档的类型信息生成摘要的方法与设备 | |
CN104598607A (zh) | 推荐搜索短语的方法及系统 | |
CN103064845B (zh) | 网页信息处理装置和网页信息处理方法 | |
CN102193944A (zh) | 网页主题内容抽取方法 | |
Ma et al. | Your Tweets Reveal What You Like: Introducing Cross-media Content Information into Multi-domain Recommendation. | |
CN109492219A (zh) | 一种基于特征分类和情感语义分析的诈骗网站识别方法 | |
CN103761221A (zh) | 用于识别敏感文本信息的系统和方法 | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
CN110929683B (zh) | 一种基于人工智能的视频舆情监测方法及系统 | |
CN107145591B (zh) | 一种基于标题的网页有效元数据内容提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160719 Address after: Shushan district government Shengquan road Hefei city Anhui province 230022 No. 1118 Building 1 floor 4 Applicant after: Anhui Huarui Digital Technology Co., Ltd. Address before: Hefei City, Anhui province 230088 Shengquan road Chief Cultural District No. 1118 Applicant before: Epoch Ltd of new media publishing house |
|
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20151007 |
|
WD01 | Invention patent application deemed withdrawn after publication |