CN108170784A

CN108170784A - 一种提取互联网上内容信息的方法及系统

Info

Publication number: CN108170784A
Application number: CN201711435863.1A
Authority: CN
Inventors: 王森
Original assignee: Foshan Dao Jing Science And Technology Co Ltd
Current assignee: Foshan Dao Jing Science And Technology Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2018-06-15

Abstract

本发明提供了一种提取互联网上内容信息的方法，包括如下步骤：响应于待提取内容的输入指令；识别所述输入指令，并根据识别结果选择分类类别；使用所述分类类别分析所述输入指令，从而生成与所述分类类别相关联的内容集，所述内容集包含所述待提取内容；将所述内容集按照与输入指令相关联的关联系数进行排序，并在显示器上进行展示。本发明的方案，为用户提供设置接口，可以直接获取目标网页中的内容信息，并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容，可以从更广阔的资讯来源中提取更丰富细致的资讯内容，此外，还可以将内容信息保存在本地以供用户访问，从而提高用户的浏览速度。

Description

一种提取互联网上内容信息的方法及系统

技术领域

本发明涉及通信技术领域，特别是涉及一种提取互联网上内容信息的方法及系统。

背景技术

互联网发展到如今，其包含的资讯内容已经达到了海量的地步，但是这些咨询内容分散在互联网中的成千上万个站点上，给人们的浏览带来了极大的不便。在这样的情况下，互联网内容提取技术越来越受到重视，它能够主动提取资讯内容，为内容聚合、内容挖掘、内容发布等业务提供原始数据。

互联网资讯内容的提取和搜索引擎是不同的概念。搜索引擎是通过用户输入的关键字，查找与关键字存在某种关系的网页，并将这些符合要求的网页地址罗列显示给用户。

互联网资讯内容的提取是通过用户输入的策略要求，对指定站点进行分析，找到符合要求的资讯内容，并且分别提取资讯内容的标题、作者、来源、发布时间、正文、图片等信息，然后通过一定的接口将这些提取的信息交付给其它应用程序，比如发布系统等。

目前存在一种基于可扩展标记语言(XML)的资讯内容提取技术，简称为“RSS”，是一种内容发布和展现格式，只包含数据，采用XML组织而成。在RSS方式下，资讯内容网站首先必须发布自己的RSS，即提供一个XML页面，该页面展示一定数量的最新资讯内容，包括标题、作者、发布时间、摘要、正文地址链接等。随后，用户通过一定的方式找到自己感兴趣的RSS，进行订阅。以后每隔一段时间刷新这个RSS，得到所订阅的最新资讯内容，包括标题、作者、发布时间、摘要、正文地址链接等，通过点击浏览正文地址链接，用户可以跳转到发布该RSS的咨询内容站点上浏览内容原文。

为了使用户方便订阅RSS，目前还出现了很多RSS阅读工具，包括桌面工具和Web工具，它们可以保存用户订阅的RSS，根据用户设置的时间间隔，定期的获取最新资讯内容，提醒用户浏览。

但是，上述现有技术存在以下的技术问题：

1)并非所有的资讯内容站点都提供RSS。采用上述现有技术的先决条件是，资讯内容站点必须首先发布RSS，用户才有可能进行订阅。但是对于互联网海量的资讯而言，发布RSS的站点只占很少一部分，而大部分的资讯站点仍然采用传统的网页浏览方式。

2)RSS内容依赖于资讯内容站点提供方。目前，许多资讯内容站点提供的RSS并没有覆盖该站点内所有的资讯，而只是提供了一小部分内容，对于RSS没有提供的内容，通过现有技术的方式就无法获得，这就限制了用户提取信息的主动性。

3)通过RSS无法获取并保存正文内容。目前的RSS只提供正文地址链接，而不提供正文的内容，用户必须访问正文地址链接所指向的网址，才能浏览正文，因此降低了用户的浏览速度。

发明内容

为了解决上述技术问题，本发明提供了一种提取互联网上内容信息的方法，包括如下步骤：

响应于待提取内容的输入指令；

识别所述输入指令，并根据识别结果选择分类类别；

使用所述分类类别分析所述输入指令，从而生成与所述分类类别相关联的内容集，所述内容集包含所述待提取内容；

将所述内容集按照与输入指令相关联的关联系数进行排序，并在显示器上进行展示。

进一步地，所述关联系数按照以下公式计算：

C＝R*(M+N)^N

C为关联系数，R为类别相关度，M为输入指令中的关键词匹配度，N为内容集中关键词所占比例。

进一步地，生成与所述分类类别相关联的内容集，包括如下步骤：

获取URL的网页的分类类别；

提取与所述网页相关的文本；

将所述有文本汇聚为与所述分类类别相关联的内容集。

进一步地，在所述显示器上进行展示的步骤包括：

按照所述关联系数由高到低的顺序将所述内容集进行展示。

进一步地，所述输入指令包括用于获得搜索结果的搜索查询。

特别地，本发明还提供了一种提取互联网上内容信息的系统，包括：

响应模块，用于响应于待提取内容的输入指令；

识别模块，用于识别所述输入指令，并根据识别结果选择分类类别；

分析模块，用于使用所述分类类别分析所述输入指令，从而生成与所述分类类别相关联的内容集，所述内容集包含所述待提取内容；

展示模块，用于将所述内容集按照与输入指令相关联的关联系数进行排序，并在显示器上进行展示。

进一步地，所述关联系数按照以下公式计算：

C＝R*(M+N)^N

进一步地，所述分析模块包括：

获取单元，用于获取URL的网页的分类类别；

提取单元，用于提取与所述网页相关的文本；

汇聚单元，用于将所述有文本汇聚为与所述分类类别相关联的内容集。

进一步地，所述展示模块包括：

展示单元，用于按照所述关联系数由高到低的顺序将所述内容集进行展示。

本发明的方案，为用户提供设置接口，可以直接获取目标网页中的内容信息。并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容，可以从更广阔的资讯来源中提取更丰富细致的资讯内容。此外，还可以将内容信息保存在本地以供用户访问，从而提高用户的浏览速度。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本发明一个实施例的一种提取互联网上内容信息的方法的流程图；

图2是根据本发明另一个方面的提取互联网上内容信息的系统的示意图。

具体实施方式

图1示出了根据本发明一个实施例的一种提取互联网上内容信息的方法的流程图。如图1所示，所述方法包括如下步骤：

S100、响应于待提取内容的输入指令；

S200、识别所述输入指令，并根据识别结果选择分类类别；

S300、使用所述分类类别分析所述输入指令，从而生成与所述分类类别相关联的内容集，所述内容集包含所述待提取内容；

S400、将所述内容集按照与输入指令相关联的关联系数进行排序，并在显示器上进行展示。

其中，所述关联系数按照以下公式计算：

C＝R*(M+N)^N

其中，生成与所述分类类别相关联的内容集，包括如下步骤：

获取URL的网页的分类类别；

提取与所述网页相关的文本；

将所述有文本汇聚为与所述分类类别相关联的内容集。

其中，在所述显示器上进行展示的步骤包括：

按照所述关联系数由高到低的顺序将所述内容集进行展示。

其中，所述输入指令包括用于获得搜索结果的搜索查询。

特别地，图2示出了根据本发明另一个方面的提取互联网上内容信息的系统的示意图。如图2所示，本发明还提供的一种提取互联网上内容信息的系统，包括：

响应模块10，用于响应于待提取内容的输入指令；

识别模块20，用于识别所述输入指令，并根据识别结果选择分类类别；

分析模块30，用于使用所述分类类别分析所述输入指令，从而生成与所述分类类别相关联的内容集，所述内容集包含所述待提取内容；

展示模块40，用于将所述内容集按照与输入指令相关联的关联系数进行排序，并在显示器上进行展示。

其中，所述关联系数按照以下公式计算：

C＝R*(M+N)^N

其中，所述分析模块30包括：

获取单元31，用于获取URL的网页的分类类别；

提取单元32，用于提取与所述网页相关的文本；

汇聚单元33，用于将所述有文本汇聚为与所述分类类别相关联的内容集。

其中，所述展示模块40包括：

其中，所述输入指令包括用于获得搜索结果的搜索查询。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种提取互联网上内容信息的方法，其特征在于，包括如下步骤：

响应于待提取内容的输入指令；

识别所述输入指令，并根据识别结果选择分类类别；

2.根据权利要求1所述的提取互联网上内容信息的方法，其特征在于，所述关联系数按照以下公式计算：

C＝R*(M+N)^N

3.根据权利要求2所述的提取互联网上内容信息的方法，其特征在于，生成与所述分类类别相关联的内容集，包括如下步骤：

获取URL的网页的分类类别；

提取与所述网页相关的文本；

将所述有文本汇聚为与所述分类类别相关联的内容集。

4.根据权利要求2所述的提取互联网上内容信息的方法，其特征在于，在所述显示器上进行展示的步骤包括：

按照所述关联系数由高到低的顺序将所述内容集进行展示。

5.根据权利要求1-4中任一项所述的提取互联网上内容信息的方法，其特征在于，所述输入指令包括用于获得搜索结果的搜索查询。

6.一种提取互联网上内容信息的系统，其特征在于，包括：

响应模块，用于响应于待提取内容的输入指令；

7.根据权利要求6所述的提取互联网上内容信息的系统，其特征在于，所述关联系数按照以下公式计算：

C＝R*(M+N)^N

8.根据权利要求7所述的提取互联网上内容信息的系统，其特征在于，所述分析模块包括：

获取单元，用于获取URL的网页的分类类别；

提取单元，用于提取与所述网页相关的文本；

9.根据权利要求8所述的提取互联网上内容信息的系统，其特征在于，所述展示模块包括：

10.根据权利要求6-9中任一项所述的提取互联网上内容信息的系统，其特征在于，所述输入指令包括用于获得搜索结果的搜索查询。