CN106933944A - 能自动抓取和播报新闻的方法及其机器人装置 - Google Patents
能自动抓取和播报新闻的方法及其机器人装置 Download PDFInfo
- Publication number
- CN106933944A CN106933944A CN201710041170.8A CN201710041170A CN106933944A CN 106933944 A CN106933944 A CN 106933944A CN 201710041170 A CN201710041170 A CN 201710041170A CN 106933944 A CN106933944 A CN 106933944A
- Authority
- CN
- China
- Prior art keywords
- news
- web page
- reciting
- captured
- carries out
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种能自动抓取和播报新闻的方法及其机器人装置,其特征在于,至少包括以下步骤:获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;对提取的正文内容进行网页去重;对去重后的网页内容进行中文分词;对分词后的网页进行新闻文本分类;语音播报分类后的新闻。
Description
技术领域
本发明涉及信息检索技术领域,尤其涉及一种能自动抓取和播报新闻的方法及其机器人装置。
背景技术
在互联网的时代,传统媒体新闻在逐渐退出历史舞台,淡出大众的视野,成为一种小众的读物。在互联网发达的今天,忙碌的年轻人更喜欢通过电子媒体的方式获取最新的资讯和信息。例如今日头条,Facebook,腾讯,网易等等公司的电子新闻都是目前大家喜欢阅读的新闻平台。
鉴于传统的媒体新闻无法做到互联网新闻的高时效性,新鲜性,和针对不同的用户群体的精准推荐性。并且基于现有的新闻平台新闻信息互为补充,因此急需一种技术可以对新闻平台中的新闻进行整合后提供给用户。
发明内容
本发明目的是提供一种能自动抓取和播报新闻的方法及其机器人装置,可以通过网络机器人爬虫爬取网页的方式,采集不同类别的新闻,播报给用户。
本发明解决技术问题采用如下技术方案:一种能自动抓取和播报新闻的方法,其特征在于,至少包括以下步骤:
获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
对提取的正文内容进行网页去重;
对去重后的网页内容进行中文分词;
对分词后的网页进行新闻文本分类;
语音播报分类后的新闻。
其中,使用开源工具nutch进行相关网页抓取。
其中,使用开源工具BoilerPipe进行网页去噪。
其中,采用开源算法Simhash进行网页去重。
其中,使用朴素贝叶斯分类算法进行新闻文本分类。
本发明还提供一种能自动抓取和播报新闻的机器人装置,至少包括:
网页抓取单元,用于获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
网页去噪单元,用于采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
网页去重单元,用于对提取的正文内容进行网页去重;
中文分词单元,用于对去重后的网页内容进行中文分词;
文本分类单元,用于对分词后的网页进行新闻文本分类;
语音播报单元,用于语音播报分类后的新闻
本发明具有如下有益效果:采用本发明的技术方案对不同新闻平台中的新闻进行整合并播报给用户,提升了用户新闻浏览的友好感。
附图说明
图1为本发明的能自动抓取和播报新闻的方法的流程简图;
图2为本发明的能自动抓取和播报新闻的机器人装置的结构框图。
具体实施方式
下面结合实施例及附图对本发明的技术方案作进一步阐述。
本发明提供一种能自动抓取和播报新闻的方法,至少包括以下步骤:
获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
对提取的正文内容进行网页去重;
对去重后的网页内容进行中文分词;
对分词后的网页进行新闻文本分类;
语音播报分类后的新闻。
下面结合具体的实施例对本发明方法进一步说明,本发明的技术是通过从各大门户网站(今日头条,腾讯,网易等新闻网站)采集新闻网页,通过网页过滤(去除噪声部分,去除广告部分,提取正文),网页去重,中文分词,文本分类,使用语音的方式进行语音播报,播报给用户关于不同类别的新闻内容。
结合图1所示的本发明的方法流程简图以及以下步骤对本方法进行说明:
1、采集新闻网页,如sohu,腾讯,网易等网站,指定初始种子链接和抓取深度,如指定当天的热门新闻,使用开源工具nutch进行相关网页抓取;
2、使用正则表达式抽取导航栏链接,使用开源工具BoilerPipe进行网页去噪的处理部分,提取出正文内容;基于正则表达式属于现有技术的内容,因此不再赘述;
3、抽取出网页的正文后,大量的新闻存在重复冗余,在本发明的实施例中可以使用Google的开源算法simhash进行网页去重;
4、中文分词,在本发明的实施例中可以使用开源的java版的斯坦福大学分词器进行分词,当然也可以采用现有的其他方式进行分词,分词的目的是为了抽取出关键词(名词,形容词),去除冗余的词,为下一步文本分类做准备;
5、在本发明的实施例中,使用朴素贝叶斯分类算法进行文本分类,把新闻分为科技,体育,娱乐,财经新闻;
6、语音播报功能,将分类后的新闻播报给用户,可以采用顺序播报的方式也可以按照用户的喜好设置进行播报。在本发明的实施例中,可以使用现有的讯飞平台进行语音播报。
另外在本发明还提供一种能自动抓取和播报新闻的机器人装置,参考图2所示,至少包括:
网页抓取单元,用于获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
网页去噪单元,用于采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
网页去重单元,用于对提取的正文内容进行网页去重;
中文分词单元,用于对去重后的网页内容进行中文分词;
文本分类单元,用于对分词后的网页进行新闻文本分类;
语音播报单元,用于语音播报分类后的新闻。
基于本发明的机器人装置应用上述方法进行自动抓取和播报新闻,因此在此不再进行赘述。
以上实施例的先后顺序仅为便于描述,不代表实施例的优劣。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种能自动抓取和播报新闻的方法,其特征在于,至少包括以下步骤:
获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
对提取的正文内容进行网页去重;
对去重后的网页内容进行中文分词;
对分词后的网页进行新闻文本分类;
语音播报分类后的新闻。
2.根据权利要求1所述的能自动抓取和播报新闻的方法,其特征在于,使用开源工具nutch进行相关网页抓取。
3.根据权利要求1所述的能自动抓取和播报新闻的方法,其特征在于,使用开源工具BoilerPipe进行网页去噪。
4.根据权利要求1所述的能自动抓取和播报新闻的方法,其特征在于,采用开源算法Simhash进行网页去重。
5.根据权利要求1所述的能自动抓取和播报新闻的方法,其特征在于,使用朴素贝叶斯分类算法进行新闻文本分类。
6.一种能自动抓取和播报新闻的机器人装置,其特征在于,至少包括:
网页抓取单元,用于获取新闻网页,指定初始种子连接和抓取深度,抓取相关网页;
网页去噪单元,用于采用正则表达式抽取导航栏连接,进行网页去噪,提取正文内容;
网页去重单元,用于对提取的正文内容进行网页去重;
中文分词单元,用于对去重后的网页内容进行中文分词;
文本分类单元,用于对分词后的网页进行新闻文本分类;
语音播报单元,用于语音播报分类后的新闻。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041170.8A CN106933944A (zh) | 2017-01-20 | 2017-01-20 | 能自动抓取和播报新闻的方法及其机器人装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710041170.8A CN106933944A (zh) | 2017-01-20 | 2017-01-20 | 能自动抓取和播报新闻的方法及其机器人装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106933944A true CN106933944A (zh) | 2017-07-07 |
Family
ID=59422920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710041170.8A Pending CN106933944A (zh) | 2017-01-20 | 2017-01-20 | 能自动抓取和播报新闻的方法及其机器人装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106933944A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763500A (zh) * | 2018-05-30 | 2018-11-06 | 深圳壹账通智能科技有限公司 | 基于语音的网页浏览方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398839A (zh) * | 2008-10-23 | 2009-04-01 | 浙江大学 | 一种有声网页新闻的个性化推送方法 |
CN101520798A (zh) * | 2009-03-06 | 2009-09-02 | 苏州锐创通信有限责任公司 | 基于垂直搜索和聚焦爬虫的网页分类技术 |
CN101630330A (zh) * | 2009-08-14 | 2010-01-20 | 苏州锐创通信有限责任公司 | 一种网页分类方法 |
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及系统 |
-
2017
- 2017-01-20 CN CN201710041170.8A patent/CN106933944A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398839A (zh) * | 2008-10-23 | 2009-04-01 | 浙江大学 | 一种有声网页新闻的个性化推送方法 |
CN101520798A (zh) * | 2009-03-06 | 2009-09-02 | 苏州锐创通信有限责任公司 | 基于垂直搜索和聚焦爬虫的网页分类技术 |
CN101630330A (zh) * | 2009-08-14 | 2010-01-20 | 苏州锐创通信有限责任公司 | 一种网页分类方法 |
CN101694658A (zh) * | 2009-10-20 | 2010-04-14 | 浙江大学 | 基于新闻去重的网页爬虫的构建方法 |
CN103823824A (zh) * | 2013-11-12 | 2014-05-28 | 哈尔滨工业大学深圳研究生院 | 一种借助互联网自动构建文本分类语料库的方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108763500A (zh) * | 2018-05-30 | 2018-11-06 | 深圳壹账通智能科技有限公司 | 基于语音的网页浏览方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920434B (zh) | 一种通用的网页主题内容提取方法和系统 | |
CN104077377B (zh) | 基于网络文章属性的网络舆情热点发现方法和装置 | |
CN101655868B (zh) | 网络数据挖掘方法、网络数据推送方法及设备 | |
CN103914478B (zh) | 网页训练方法及系统、网页预测方法及系统 | |
CN106599022A (zh) | 基于用户访问数据的用户画像形成方法 | |
CN102831199A (zh) | 建立兴趣模型的方法及装置 | |
CN104951448B (zh) | 一种为用户推送订阅类别的消息的方法和服务器 | |
CN105068991A (zh) | 一种基于大数据的舆情发现方法 | |
CN103365839A (zh) | 一种搜索引擎的推荐搜索方法和装置 | |
CN102135967A (zh) | 网页关键词提取方法、装置及系统 | |
CN105320734B (zh) | 一种网页核心内容提取方法 | |
CN102945246B (zh) | 网络信息数据的处理方法及装置 | |
CN102236654A (zh) | 基于内容相关性的Web无效链接过滤方法 | |
CN101329675A (zh) | 网页广告匹配方法及系统 | |
CN103177036A (zh) | 一种标签自动提取方法和系统 | |
CN105117436B (zh) | 网站频道自动挖掘方法 | |
CN105718590A (zh) | 面向多租户的SaaS舆情监控系统及方法 | |
CN105512143A (zh) | 一种网页分类方法及装置 | |
CN105183765A (zh) | 一种基于大数据的话题抽取方法 | |
CN106168968B (zh) | 一种网站分类方法及装置 | |
CN104598561A (zh) | 一种基于文本的农业视频智能分类方法及装置 | |
CN104899215A (zh) | 数据处理方法、推荐源信息组织和信息推荐方法及装置 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 | |
CN103078854A (zh) | 报文过滤方法与装置 | |
Chung et al. | A study of link farm distribution and evolution using a time series of web snapshots |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170707 |
|
RJ01 | Rejection of invention patent application after publication |