CN108170784A - 一种提取互联网上内容信息的方法及系统 - Google Patents
一种提取互联网上内容信息的方法及系统 Download PDFInfo
- Publication number
- CN108170784A CN108170784A CN201711435863.1A CN201711435863A CN108170784A CN 108170784 A CN108170784 A CN 108170784A CN 201711435863 A CN201711435863 A CN 201711435863A CN 108170784 A CN108170784 A CN 108170784A
- Authority
- CN
- China
- Prior art keywords
- content
- information
- content set
- input
- class categories
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种提取互联网上内容信息的方法,包括如下步骤:响应于待提取内容的输入指令;识别所述输入指令,并根据识别结果选择分类类别;使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。本发明的方案,为用户提供设置接口,可以直接获取目标网页中的内容信息,并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容,此外,还可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。
Description
技术领域
本发明涉及通信技术领域,特别是涉及一种提取互联网上内容信息的方法及系统。
背景技术
互联网发展到如今,其包含的资讯内容已经达到了海量的地步,但是这些咨询内容分散在互联网中的成千上万个站点上,给人们的浏览带来了极大的不便。在这样的情况下,互联网内容提取技术越来越受到重视,它能够主动提取资讯内容,为内容聚合、内容挖掘、内容发布等业务提供原始数据。
互联网资讯内容的提取和搜索引擎是不同的概念。搜索引擎是通过用户输入的关键字,查找与关键字存在某种关系的网页,并将这些符合要求的网页地址罗列显示给用户。
互联网资讯内容的提取是通过用户输入的策略要求,对指定站点进行分析,找到符合要求的资讯内容,并且分别提取资讯内容的标题、作者、来源、发布时间、正文、图片等信息,然后通过一定的接口将这些提取的信息交付给其它应用程序,比如发布系统等。
目前存在一种基于可扩展标记语言(XML)的资讯内容提取技术,简称为“RSS”,是一种内容发布和展现格式,只包含数据,采用XML组织而成。在RSS方式下,资讯内容网站首先必须发布自己的RSS,即提供一个XML页面,该页面展示一定数量的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等。随后,用户通过一定的方式找到自己感兴趣的RSS,进行订阅。以后每隔一段时间刷新这个RSS,得到所订阅的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等,通过点击浏览正文地址链接,用户可以跳转到发布该RSS的咨询内容站点上浏览内容原文。
为了使用户方便订阅RSS,目前还出现了很多RSS阅读工具,包括桌面工具和Web工具,它们可以保存用户订阅的RSS,根据用户设置的时间间隔,定期的获取最新资讯内容,提醒用户浏览。
但是,上述现有技术存在以下的技术问题:
1)并非所有的资讯内容站点都提供RSS。采用上述现有技术的先决条件是,资讯内容站点必须首先发布RSS,用户才有可能进行订阅。但是对于互联网海量的资讯而言,发布RSS的站点只占很少一部分,而大部分的资讯站点仍然采用传统的网页浏览方式。
2)RSS内容依赖于资讯内容站点提供方。目前,许多资讯内容站点提供的RSS并没有覆盖该站点内所有的资讯,而只是提供了一小部分内容,对于RSS没有提供的内容,通过现有技术的方式就无法获得,这就限制了用户提取信息的主动性。
3)通过RSS无法获取并保存正文内容。目前的RSS只提供正文地址链接,而不提供正文的内容,用户必须访问正文地址链接所指向的网址,才能浏览正文,因此降低了用户的浏览速度。
发明内容
为了解决上述技术问题,本发明提供了一种提取互联网上内容信息的方法,包括如下步骤:
响应于待提取内容的输入指令;
识别所述输入指令,并根据识别结果选择分类类别;
使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;
将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。
进一步地,所述关联系数按照以下公式计算:
C=R*(M+N)N
C为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。
进一步地,生成与所述分类类别相关联的内容集,包括如下步骤:
获取URL的网页的分类类别;
提取与所述网页相关的文本;
将所述有文本汇聚为与所述分类类别相关联的内容集。
进一步地,在所述显示器上进行展示的步骤包括:
按照所述关联系数由高到低的顺序将所述内容集进行展示。
进一步地,所述输入指令包括用于获得搜索结果的搜索查询。
特别地,本发明还提供了一种提取互联网上内容信息的系统,包括:
响应模块,用于响应于待提取内容的输入指令;
识别模块,用于识别所述输入指令,并根据识别结果选择分类类别;
分析模块,用于使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;
展示模块,用于将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。
进一步地,所述关联系数按照以下公式计算:
C=R*(M+N)N
C为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。
进一步地,所述分析模块包括:
获取单元,用于获取URL的网页的分类类别;
提取单元,用于提取与所述网页相关的文本;
汇聚单元,用于将所述有文本汇聚为与所述分类类别相关联的内容集。
进一步地,所述展示模块包括:
展示单元,用于按照所述关联系数由高到低的顺序将所述内容集进行展示。
进一步地,所述输入指令包括用于获得搜索结果的搜索查询。
本发明的方案,为用户提供设置接口,可以直接获取目标网页中的内容信息。并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。此外,还可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本发明一个实施例的一种提取互联网上内容信息的方法的流程图;
图2是根据本发明另一个方面的提取互联网上内容信息的系统的示意图。
具体实施方式
图1示出了根据本发明一个实施例的一种提取互联网上内容信息的方法的流程图。如图1所示,所述方法包括如下步骤:
S100、响应于待提取内容的输入指令;
S200、识别所述输入指令,并根据识别结果选择分类类别;
S300、使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;
S400、将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。
其中,所述关联系数按照以下公式计算:
C=R*(M+N)N
C为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。
其中,生成与所述分类类别相关联的内容集,包括如下步骤:
获取URL的网页的分类类别;
提取与所述网页相关的文本;
将所述有文本汇聚为与所述分类类别相关联的内容集。
其中,在所述显示器上进行展示的步骤包括:
按照所述关联系数由高到低的顺序将所述内容集进行展示。
其中,所述输入指令包括用于获得搜索结果的搜索查询。
特别地,图2示出了根据本发明另一个方面的提取互联网上内容信息的系统的示意图。如图2所示,本发明还提供的一种提取互联网上内容信息的系统,包括:
响应模块10,用于响应于待提取内容的输入指令;
识别模块20,用于识别所述输入指令,并根据识别结果选择分类类别;
分析模块30,用于使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;
展示模块40,用于将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。
其中,所述关联系数按照以下公式计算:
C=R*(M+N)N
C为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。
其中,所述分析模块30包括:
获取单元31,用于获取URL的网页的分类类别;
提取单元32,用于提取与所述网页相关的文本;
汇聚单元33,用于将所述有文本汇聚为与所述分类类别相关联的内容集。
其中,所述展示模块40包括:
展示单元,用于按照所述关联系数由高到低的顺序将所述内容集进行展示。
其中,所述输入指令包括用于获得搜索结果的搜索查询。
本发明的方案,为用户提供设置接口,可以直接获取目标网页中的内容信息。并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。此外,还可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (10)
1.一种提取互联网上内容信息的方法,其特征在于,包括如下步骤:
响应于待提取内容的输入指令;
识别所述输入指令,并根据识别结果选择分类类别;
使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;
将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。
2.根据权利要求1所述的提取互联网上内容信息的方法,其特征在于,所述关联系数按照以下公式计算:
C=R*(M+N)N
C为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。
3.根据权利要求2所述的提取互联网上内容信息的方法,其特征在于,生成与所述分类类别相关联的内容集,包括如下步骤:
获取URL的网页的分类类别;
提取与所述网页相关的文本;
将所述有文本汇聚为与所述分类类别相关联的内容集。
4.根据权利要求2所述的提取互联网上内容信息的方法,其特征在于,在所述显示器上进行展示的步骤包括:
按照所述关联系数由高到低的顺序将所述内容集进行展示。
5.根据权利要求1-4中任一项所述的提取互联网上内容信息的方法,其特征在于,所述输入指令包括用于获得搜索结果的搜索查询。
6.一种提取互联网上内容信息的系统,其特征在于,包括:
响应模块,用于响应于待提取内容的输入指令;
识别模块,用于识别所述输入指令,并根据识别结果选择分类类别;
分析模块,用于使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;
展示模块,用于将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。
7.根据权利要求6所述的提取互联网上内容信息的系统,其特征在于,所述关联系数按照以下公式计算:
C=R*(M+N)N
C为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。
8.根据权利要求7所述的提取互联网上内容信息的系统,其特征在于,所述分析模块包括:
获取单元,用于获取URL的网页的分类类别;
提取单元,用于提取与所述网页相关的文本;
汇聚单元,用于将所述有文本汇聚为与所述分类类别相关联的内容集。
9.根据权利要求8所述的提取互联网上内容信息的系统,其特征在于,所述展示模块包括:
展示单元,用于按照所述关联系数由高到低的顺序将所述内容集进行展示。
10.根据权利要求6-9中任一项所述的提取互联网上内容信息的系统,其特征在于,所述输入指令包括用于获得搜索结果的搜索查询。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711435863.1A CN108170784A (zh) | 2017-12-26 | 2017-12-26 | 一种提取互联网上内容信息的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711435863.1A CN108170784A (zh) | 2017-12-26 | 2017-12-26 | 一种提取互联网上内容信息的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108170784A true CN108170784A (zh) | 2018-06-15 |
Family
ID=62521652
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711435863.1A Pending CN108170784A (zh) | 2017-12-26 | 2017-12-26 | 一种提取互联网上内容信息的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108170784A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109782990A (zh) * | 2018-12-13 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 指令推荐方法、装置、计算机设备及存储介质 |
CN111310096A (zh) * | 2020-02-25 | 2020-06-19 | 维沃移动通信有限公司 | 内容保存方法、电子设备及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075320A (zh) * | 2006-05-16 | 2007-11-21 | 申凌 | 信息发布、查询系统和方法 |
CN101094135A (zh) * | 2006-06-23 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种互联网内容信息的提取方法和提取系统 |
CN102364467A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种网络搜索方法和系统 |
CN102880609A (zh) * | 2011-07-13 | 2013-01-16 | 北京百度网讯科技有限公司 | 一种用于提供与查询序列相对应的搜索结果的设备和方法 |
CN103838735A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高检索效率和质量的数据检索方法 |
CN104331473A (zh) * | 2014-11-03 | 2015-02-04 | 同方知网(北京)技术有限公司 | 一种基于知网节的学术知识获取方法及系统 |
US9129308B2 (en) * | 2007-11-19 | 2015-09-08 | Yume, Inc. | Systems for associating advertising with internet content |
-
2017
- 2017-12-26 CN CN201711435863.1A patent/CN108170784A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075320A (zh) * | 2006-05-16 | 2007-11-21 | 申凌 | 信息发布、查询系统和方法 |
CN101094135A (zh) * | 2006-06-23 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种互联网内容信息的提取方法和提取系统 |
CN100512181C (zh) * | 2006-06-23 | 2009-07-08 | 腾讯科技(深圳)有限公司 | 一种互联网内容信息的提取方法和提取系统 |
US9129308B2 (en) * | 2007-11-19 | 2015-09-08 | Yume, Inc. | Systems for associating advertising with internet content |
CN102880609A (zh) * | 2011-07-13 | 2013-01-16 | 北京百度网讯科技有限公司 | 一种用于提供与查询序列相对应的搜索结果的设备和方法 |
CN102364467A (zh) * | 2011-09-29 | 2012-02-29 | 北京亿赞普网络技术有限公司 | 一种网络搜索方法和系统 |
CN103838735A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高检索效率和质量的数据检索方法 |
CN104331473A (zh) * | 2014-11-03 | 2015-02-04 | 同方知网(北京)技术有限公司 | 一种基于知网节的学术知识获取方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109782990A (zh) * | 2018-12-13 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 指令推荐方法、装置、计算机设备及存储介质 |
CN109782990B (zh) * | 2018-12-13 | 2022-01-04 | 深圳壹账通智能科技有限公司 | 指令推荐方法、装置、计算机设备及存储介质 |
CN111310096A (zh) * | 2020-02-25 | 2020-06-19 | 维沃移动通信有限公司 | 内容保存方法、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4806178B2 (ja) | ペンベースのコンピューティングシステムでの注釈の管理 | |
US7698626B2 (en) | Enhanced document browsing with automatically generated links to relevant information | |
CN1648902B (zh) | 统一和混合搜索的系统和方法 | |
KR101393839B1 (ko) | 링크된 용어들을 포함하는 활성 요약들을 제공하는 검색시스템 | |
US8359306B2 (en) | Intelligent automatic recognition toolbar search method and system | |
US20060101012A1 (en) | Search system presenting active abstracts including linked terms | |
Won et al. | Contextual web history: using visual and contextual cues to improve web browser history | |
US20030093427A1 (en) | Personalized web page | |
US20120054669A1 (en) | Method and system for providing enhanced user interfaces for web browsing | |
US20100010982A1 (en) | Web content characterization based on semantic folksonomies associated with user generated content | |
US9280522B2 (en) | Highlighting of document elements | |
US20060026173A1 (en) | System and method for searching websites associated with bookmarks | |
WO2016162843A1 (en) | Processing a search query and retrieving targeted records from a networked database system | |
CN108170784A (zh) | 一种提取互联网上内容信息的方法及系统 | |
CN109165264B (zh) | 一种基于多样化热力图的网页分析方法及装置 | |
JP2007207202A (ja) | ウェブログを利用した情報提供システム | |
Jin et al. | Information portal development and practice at Shanghai Jiao Tong University Library | |
US8832082B2 (en) | Presentation of search results with diagrams | |
JP2012103924A (ja) | 関連語登録装置、関連語登録方法、関連語登録装置用プログラム、記録媒体、および、関連語登録システム | |
US20160350405A1 (en) | Searching using pointers to pages in documents | |
Vockner et al. | Recommender-based enhancement of discovery in Geoportals | |
JP2008165785A (ja) | 検索システムおよびその方法 | |
Joshi et al. | Web mining and qualities of a website design to be evaluated for customer browsing behavior a review | |
Gao | Presenting implicit relevance feedback in educational search engine | |
Jeong et al. | Refining search results using a mining framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180615 |
|
WD01 | Invention patent application deemed withdrawn after publication |