CN109284429B - 新闻数据推送方法、装置、系统和存储介质 - Google Patents

新闻数据推送方法、装置、系统和存储介质 Download PDF

Info

Publication number
CN109284429B
CN109284429B CN201810934809.XA CN201810934809A CN109284429B CN 109284429 B CN109284429 B CN 109284429B CN 201810934809 A CN201810934809 A CN 201810934809A CN 109284429 B CN109284429 B CN 109284429B
Authority
CN
China
Prior art keywords
news
data
hierarchy
template
level
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810934809.XA
Other languages
English (en)
Other versions
CN109284429A (zh
Inventor
李林杰
金剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Comba Network Systems Co Ltd
Original Assignee
Comba Network Systems Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Comba Network Systems Co Ltd filed Critical Comba Network Systems Co Ltd
Priority to CN201810934809.XA priority Critical patent/CN109284429B/zh
Publication of CN109284429A publication Critical patent/CN109284429A/zh
Application granted granted Critical
Publication of CN109284429B publication Critical patent/CN109284429B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种新闻数据推送方法、装置、计算机设备和存储介质,其中,方法包括:获取原始新闻数据,识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,推送模板新闻数据。整个过程中,将获取的原始新闻数据基于统一的新闻层级架构转换为模板新闻数据,因此开发者无需深入了解新闻统一样式相关技术,降低开发难度与门槛。

Description

新闻数据推送方法、装置、系统和存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及一种新闻数据推送方法、装置、计算机设备和存储介质。
背景技术
随着移动互联的发展,越来越多的应用需要用到新闻展示功能。另一方面,信息时代的来临,每天都有海量的新闻数据产生,如何在海量的新闻数据中捕捉到自己所需的新闻数据作为自身数据源是开发者面对的难题。
目前常规新闻数据捕捉的方式主要采用大数据分析和搜索,这类方式需要庞大的数据、网络、技术等支持,并且需要比较长时间数据的积累才能实现基本功能。对于一些中小型企业或者普通开发者而言,要提供全面丰富的新闻以及基于大数据的推荐和搜索功能具有较高的技术门槛,需要经过大量的技术积累才能满足此类业务要求,从而影响到其前期业务的发展。
发明内容
基于此,有必要针对上述技术问题,提供一种简单且门槛低的新闻数据推送方法、装置、计算机设备和存储介质。
一种新闻数据推送方法,所述方法包括:
获取原始新闻数据;
识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据;
将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,所述预设模板为基于新闻层级架构构建的模板;
推送所述模板新闻数据。
在其中一个实施例中,所述获取原始新闻数据,包括:
通过网络爬虫、新闻上传或新闻购买方式获取原始新闻数据。
在其中一个实施例中,所述获取原始新闻数据,包括:
获取目的新闻网站的新闻列表;
获取所述新闻列表中携带的网络链接;
通过网络爬虫爬取各所述网络链接对应的新闻数据,获取原始新闻数据。
在其中一个实施例中,所述识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据,包括:
剔除所述原始新闻数据中无法解析出新闻层级架构对应的数据,获得更新后的原始新闻数据;
识别所述更新后的原始新闻数据的新闻层级架构;
获取所述新闻层级架构中每个层级记载的数据。
在其中一个实施例中,所述推送所述模板新闻数据,之前还包括:
接收上传的用户新闻浏览记录;
根据用户新闻浏览记录,提取用户兴趣数据;
所述推送所述模板新闻数据,包括:
分析所述用户兴趣数据所属新闻类型;
采用大数据分析方式,分析所述用户兴趣数据所属新闻类型中的热点新闻数据,所述热点新闻数据为关注度大于预设关注度阈值的新闻数据;
推送所述热点新闻数据对应的模板新闻数据。
在其中一个实施例中,所述将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级之前,还包括:
识别所述新闻层级架构中每个层级的层级标识符;
根据所述新闻层级架构中每个层级记载的数据,建立层级标识符与层级记载数据的对应关系;
所述将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级包括:
识别预设模板中各层级的层级标识符,根据所述层级标识符与层级记载数据的对应关系,将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
在其中一个实施例中,所述获得模板新闻数据,之后包括:
存储所述模板新闻数据,构建模板新闻数据库。
一种新闻数据推送装置,所述装置包括:
获取模块,用于获取原始新闻数据;
层级识别模块,用于识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据;
填写模块,用于将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,所述预设模板为基于新闻层级架构构建的模板;
推送模块,用于推送所述模板新闻数据;
在其中一个实施例中,所述获取模块用于通过网络爬虫、新闻上传或新闻购买方式获取原始新闻数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。
上述新闻数据推送方法、装置、计算机设备和存储介质,获取原始新闻数据,识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据,将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,推送所述模板新闻数据。整个过程中,将获取的原始新闻数据基于统一的新闻层级架构转换为模板新闻数据,因此开发者无需深入了解新闻统一样式相关技术,降低开发难度与门槛。
另外,本申请还提供一种新闻数据推送系统,包括相互连接开发服务器和数据云服务器,所述开发服务器存储有预设新闻格式模板,所述预设新闻格式模板为基于新闻层级架构构建的模板;
所述数据云服务器通过互联网获取原始新闻数据,识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据,将所述新闻层级架构中每个层级记载的数据对应填写至预设新闻格式模板中各个层级,获得模板新闻数据,所述开发服务器发送用户兴趣数据至所述数据云服务器,所述数据云服务器筛选与所述用户兴趣数据对应的模板新闻数据,返回筛选到的模板新闻数据至所述开发服务器,所述开发服务器将接收到的模板新闻数据推送至用户终端。
上述新闻数据推送系统包括开发服务器和数据云服务器,数据云服务器通过互联网获取原始新闻数据,识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据,将新闻层级架构中每个层级记载的数据对应填写至预设新闻格式模板中各个层级,获得模板新闻数据,筛选与用户兴趣数据对应的模板新闻数据,返回筛选到的模板新闻数据至开发服务器,开发服务器将接收到的模板新闻数据推送至用户终端。整个系统中,数据云服务器将获取的原始新闻数据基于统一的新闻层级架构转换为模板新闻数据,因此在开服务器端开发者无需深入了解新闻统一样式相关技术,降低开发难度与门槛。
附图说明
图1为一个实施例中新闻数据推送方法的应用环境图;
图2为一个实施例中新闻数据推送方法的流程示意图;
图3为新闻层级架构示意图;
图4为另一个实施例中新闻数据推送方法的流程示意图;
图5为一个实施例中新闻数据推送装置的结构框图;
图6为一个实施例中本申请新闻数据推送系统的结构示意图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的新闻数据推送方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104可以通过互联网获取大量的原始新闻数据,服务器104识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据,将新闻层级架构中每个层级记载的数据对应填写至基于新闻层级架构构建的预设模板中各个层级,获得模板新闻数据,推送模板新闻数据至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种新闻数据推送方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S200:获取原始新闻数据。
原始新闻数据是指服务器直接抓取到的新闻数据,服务器可以通过网络爬虫、接收其他设备新闻上传或采用新闻购买方式获取原始新闻数据。一般来说,服务器可以在网页后台设置爬虫程序,自动爬取各个网站更新的新闻数据,服务器可以在多个类型的网页后台均设置爬虫程序,例如可以在娱乐新闻类网页设置、可以在竞技游戏类网页设置、还可以在体育类网页设置还可以时事资讯网设置等,这样设置之后,服务器可以在短时间内获取到包括娱乐新闻、竞技游戏新闻、体育新闻、时事资讯新闻等在内的原始新闻数据。
在其中一个实施例中,获取原始新闻数据具体包括:获取目的新闻网站的新闻列表;获取新闻列表中携带的网络链接;通过网络爬虫爬取各网络链接对应的新闻数据,获取原始新闻数据。
目的新闻网站是指操作人员配置的目前服务器需要想获取原始新闻数据的网站,例如X浪、X讯、X易等等,操作人员配置服务器,在服务器中设定当前目的新闻网站,服务器访问该新闻网站,获取该新闻网站的新闻列表,在新闻列表中携带有网络连接,通过网络爬虫爬取各网络连接对应的新闻数据,当完成当前页面的新闻数据爬取时,识别当前页面的中的分页符号,进入下一页面继续爬取,获取原始新闻数据。
S400:识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据。
常规的新闻数据一般都具有统一的层级架构,例如一般都包括标题、正文、附图等,进一步细分还包括一些子层级,例如正文中的简要、提要,总结等。对步骤S200获取的原始新闻数据进行解析,识别原始新闻数据的新闻层级架构,获取每个层级中记载的数据。以某个时事资讯新闻为例,如图3所示,其新闻层级架构包括标题、简要、正文、附图、结论,获取标题层级记载的数据A、简要层级记载的数据B、正文层级记载的C、附图层级记载的D、结论层级记载的数据E。
S600:将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,预设模板为基于新闻层级架构构建的模板。
预设模板是基于新闻层级架构构建的模板,预设模板可以采用类似图3所示的新闻层级架构,即依次设置有标题、简要、正文、附图、结论5个层级。需要指出的是,预设模板可以根据实际情况的需要设置,其设置的目的是为了让后续得到的新闻数据采用统一的样式。当新闻层级架构中某个层级记载的数据无法在预设模板中找到对应的层级时,丢弃这部分数据,并且服务器还可以生成“转换错误”的提示消息,推送该“转换错误”的提示消息。
S800:推送模板新闻数据。
模板新闻数据已经将原始新闻数据转换为统一样式(预设模板对应的样式),将统一样式的模板新闻数据推送至用户。可以通过移动网络或互联网,推送至用户终端。在实际应用中,服务器可以接收用户发送的查询请求,在查询请求中携带有用户兴趣数据,服务器查找与用户兴趣数据对应的模板新闻数据,反馈查找到的新闻数据至用户。
上述新闻数据推送方法,获取原始新闻数据,识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,推送模板新闻数据。整个过程中,将获取的原始新闻数据基于统一的新闻层级架构转换为模板新闻数据,因此开发者无需深入了解新闻统一样式相关技术,降低开发难度与门槛。
如图4所示,在其中一个实施例中,步骤S400包括:
S420:剔除原始新闻数据中无法解析出新闻层级架构对应的数据,获得更新后的原始新闻数据。
S440:识别更新后的原始新闻数据的新闻层级架构。
S460:获取新闻层级架构中每个层级记载的数据。
由于原始新闻数据是初始采集到的数据,为了保证新闻数据的多样性,一般而言,原始新闻数据是一个庞大的数据量,采集到的新闻数据可能是符合新闻层级架构排版的,也有可能是发布局者随意排版、随意编辑发布的。针对这类随意发布的新闻数据,服务器很有可能无法解析出新闻层级架构,对于这类数据服务器直接丢弃。在实际应用中,服务器采用大数据处理方式筛选、甄别出原始新闻数据中无法解析出新闻层级架构对应的数据,将筛选出的数据剔除,得到更新后的原始新闻数据,有效减小后续数据处理量,提高处理效率。
如图4所示,在其中一个实施例中,步骤S800之前还包括:
S720:接收上传的用户新闻浏览记录;
S740:根据用户新闻浏览记录,提取用户兴趣数据;
步骤S800具体包括:
S820:分析用户兴趣数据所属新闻类型;
S840:采用大数据分析方式,分析用户兴趣数据所属新闻类型中的热点新闻数据,热点新闻数据为关注度大于预设关注度阈值的新闻数据;
S860:推送热点新闻数据对应的模板新闻数据。
用户兴趣数据是指用户感兴趣的数据,一般来说,开发者终端会与普通用户终端之间进行通信,普通用户发送用户兴趣数据至开发者终端,开发者终端将用户兴趣数据上传至服务器,服务器查找与用户兴趣数据关联的模板新闻数据,推送查找到的模板新闻数据至开发者终端,开发者终端再将这个数据发送至普通用户终端。例如某个普通用户对“5G通信”感兴趣,则用户兴趣数据即为“5G通信”,普通用户终端响应用户输入的搜索内容“5G通信”,发送“5G通信”至开发者终端,开发者终端将“5G通信”发送至服务器,服务器查找与“5G通信”相关的模板新闻数据,推送与“5G通信”相关的模板新闻数据至开发者终端,开发者终端再转发至普通用户终端,普通用户即可通过终端查看到与“5G通信”相关的新闻数据。非必要的,服务器可以采用大数据分析方式,查找与用户兴趣数据关联的模板新闻数据。用户兴趣数据还可基于历史记录中用户新闻浏览记录来提取,具体来说,开发者终端记录一段时间内用户浏览新闻数据的行为,可以记录用户浏览时间、浏览时长、浏览新闻数据的类型以及浏览的新闻数据之间是否存在关联的“关键词”,对新闻浏览记录进行分析,提取用户兴趣数据,例如分析用户新闻浏览记录,识别浏览次数最多或浏览时间最长的新闻,分析识别出的新闻所属新闻类型并且综合“关键词”提取到用户兴趣数据。在服务器中,采用大数据分析方式查找与用户兴趣数据关联的模板新闻数据主要包括两个阶段,第一阶段,分析当前用户对应的用户兴趣数据所属新闻类型,常见的新闻类型包括娱乐、体育、资讯、时事等;第二阶段,采用大数据分析的方式,获取所属新闻类型中的热点新闻,具体来说,服务器可以基于多个用户新闻浏览记录,获取各新闻类型中的热点新闻,再获取上述所属新闻类型对应的热点新闻。具体来说,热点新闻数据是指关注度大于预设关注度阈值的新闻数据,预设关注度阈值是预先设定的门槛值,其具体可以为百分比值或具体数值,如80%用户关注的新闻数据或为有500用户关注的新闻。
在其中一个实施例中,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级之前,还包括:识别新闻层级架构中每个层级的层级标识符;根据新闻层级架构中每个层级记载的数据,建立层级标识符与层级记载数据的对应关系;
将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级包括:识别预设模板中各层级的层级标识符,根据层级标识符与层级记载数据的对应关系,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
层级标识可以理解行业规范中针对新闻层级机构各个层级设定的识别符号,在本实施例中,建立层级标识符与层级记载数据的对应关系,这样可以清楚知道预设模板中各个层级需要填写的数据,即可准确、高效根据层级标识符与层级记载数据的对应关系,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
在其中一个实施例中,获得模板新闻数据之后包括:存储模板新闻数据,构建模板新闻数据库。
服务器针对模板新闻数据进行存储,随着时间推移越来越多的模板新闻数据存储在服务器中,构建成模板新闻数据库。当服务器接收到用户兴趣数据时,可以直接从模板新闻数据库中查找关联的模板新闻数据。
在实际应用中,上述新闻数据推送方法,在服务器侧包括以下处理步骤:
1、通过用户提交、新闻爬虫、新闻购买的方式获取数据源。
2、存储获取的新闻数据到存储模块。
3、通过算法或人工的方式筛选有效新闻。
4、对有效新闻进行统一样式处理。
5、保存处理后的新闻页面。
6、接收开发者用户按规则提交用户兴趣数据。
7、大数据分析,得到关联度最高的新闻数据;返回开发者用户新闻数据。
应该理解的是,虽然图2与图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2与图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图5所示,一种新闻数据推送装置,装置包括:
获取模块200,用于获取原始新闻数据;
层级识别模块400,用于识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据;
填写模块600,用于将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,预设模板为基于新闻层级架构构建的模板;
推送模块800,用于推送模板新闻数据。
上述新闻数据推送装置,获取模块200获取原始新闻数据,层级识别模块400识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据,填写模块600将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,推送模块800推送模板新闻数据。整个过程中,将获取的原始新闻数据基于统一的新闻层级架构转换为模板新闻数据,因此开发者无需深入了解新闻统一样式相关技术,降低开发难度与门槛。
在其中一个实施例中,获取模块200用于通过网络爬虫、新闻上传或新闻购买方式获取原始新闻数据。
在其中一个实施例中,获取模块200还用于获取目的新闻网站的新闻列表;获取新闻列表中携带的网络链接;通过网络爬虫爬取各网络链接对应的新闻数据,获取原始新闻数据。
在其中一个实施例中,层级识别模块400具体还用于剔除原始新闻数据中无法解析出新闻层级架构对应的数据,获得更新后的原始新闻数据;识别更新后的原始新闻数据的新闻层级架构;获取新闻层级架构中每个层级记载的数据。
在其中一个实施例中,上述新闻数据推送装置还包括接收模块,用于接收上传的用户新闻浏览记录;根据用户新闻浏览记录,提取用户兴趣数据;推送模块800还用于分析用户兴趣数据所属新闻类型;采用大数据分析方式,分析用户兴趣数据所属新闻类型中的热点新闻数据,热点新闻数据为关注度大于预设关注度阈值的新闻数据;推送热点新闻数据对应的模板新闻数据。
在其中一个实施例中,推送模块800还用于采用大数据分析方式,查找与用户兴趣数据关联的模板新闻数据。
在其中一个实施例中,上述新闻数据推送装置还包括数据库模块,用于存储模板新闻数据,构建模板新闻数据库。
在其中一个实施例中,填写模块600还用于识别新闻层级架构中每个层级的层级标识符;根据新闻层级架构中每个层级记载的数据,建立层级标识符与层级记载数据的对应关系;识别预设模板中各层级的层级标识符,根据层级标识符与层级记载数据的对应关系,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
关于新闻数据推送装置的具体限定可以参见上文中对于新闻数据推送方法的限定,在此不再赘述。上述新闻数据推送装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
另外,如图6所示,本申请还提供一种新闻数据推送系统,包括相互连接开发服务器910和数据云服务器920,开发服务器910存储有预设新闻格式模板,预设新闻格式模板为基于新闻层级架构构建的模板;
数据云服务器920通过互联网获取原始新闻数据,识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据,将新闻层级架构中每个层级记载的数据对应填写至预设新闻格式模板中各个层级,获得模板新闻数据,开发服务器910发送用户兴趣数据至数据云服务器920,数据云服务器920筛选与用户兴趣数据对应的模板新闻数据,返回筛选到的模板新闻数据至开发服务器910,开发服务器910将接收到的模板新闻数据推送至用户终端。
开发服务器910可以理解为面向开发者的服务器,针对新闻数据的开发者可以在开发服务器910上进行操作、修改,以实现多样式、多种类推送新闻数据至用户终端。具体来说,开发服务器910可以记录用户终端浏览新闻的历史记录,例如记录用户通过手机浏览互联网上新闻数据,分析出用户兴趣数据,发送用户兴趣数据至数据云服务器920。
进一步来说,用户兴趣数据是指用户感兴趣的数据,用户兴趣数据除了上述由开发服务器910基于历史记录提取之外还可以是由用户直接输入关键字,再由用户终端上传该“关键字”。具体来说,开发服务器910会与用户终端之间进行通信,用户发送用户兴趣数据至开发服务器910,开发服务器910将用户兴趣数据上传至数据云服务器920,数据云服务器920查找与用户兴趣数据关联的模板新闻数据,推送查找到的模板新闻数据至开发服务器910,开发服务器910再将这个数据发送至用户终端。例如某个用户对“5G通信”感兴趣,则用户兴趣数据即为“5G通信”,用户终端响应用户输入的搜索内容“5G通信”,发送“5G通信”至开发服务器910,开发服务器910将“5G通信”发送至数据云服务器920,数据云服务器920查找与“5G通信”相关的模板新闻数据,推送与“5G通信”相关的模板新闻数据至开发服务器910,开发服务器910再转发至用户终端,用户即可通过终端查看到与“5G通信”相关的新闻数据。非必要的,数据云服务器920可以采用大数据分析方式,查找与用户兴趣数据关联的模板新闻数据
数据云服务器920可以理解为后台服务器,其进行核心后台数据处理,单个数据云服务器920可以为多个开发服务器910提供数据支持,即单个数据云服务器920可以与多个开发服务器910连接,响应来自多个开发服务器910发送的用户兴趣数据。数据云服务器920互联网连接,从互联网获取原始新闻数据,识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据,将新闻层级架构中每个层级记载的数据对应填写至预设新闻格式模板中各个层级,获得模板新闻数据。非必要的,数据云服务器920可以基于模板新闻数据构建模板新闻数据库,在该数据库中携带有大量形成统一样式(模板样式)的模板新闻数据,当接收到开发服务器910发送的用户兴趣数据时,筛选与用户兴趣数据对应的模板新闻数据,并反馈筛的模板新闻数据至开发服务器910,开发服务器910发送这部分模板新闻数据至用户终端。
进一步来说,原始新闻数据是指数据云服务器920直接抓取到的新闻数据,数据云服务器920可以通过网络爬虫、接收其他设备新闻上传或采用新闻购买方式获取原始新闻数据。一般来说,数据云服务器920可以在网页后台设置爬虫程序,自动爬取各个网站更新的新闻数据,数据云服务器920可以在多个类型的网页后台均设置爬虫程序,例如可以在娱乐新闻类网页设置、可以在竞技游戏类网页设置、还可以在体育类网页设置还可以时事资讯网设置等,这样设置之后,数据云服务器920可以在短时间内获取到包括娱乐新闻、竞技游戏新闻、体育新闻、时事资讯新闻等在内的原始新闻数据。
在其中一个实施例中,数据云服务器920包括用户接口层、新闻数据采集层、新闻数据分析层、新闻模板层以及存储层;
用户接口层与开发服务器910连接,新闻数据采集层与外部互联网连接,新闻数据分析层与新闻数据采集层连接,用户接口层、新闻数据分析层以及存储层与新闻模板层连接。
用户接口层与开发服务器910连接,用于与开发服务器910之间行数据交互,接收开发服务器910发送的用户兴趣数据,并且发送与用户兴趣数据对应的模板新闻数据。新闻数据采集层与互联网连接,用于采集互联网中原始新闻数据,其具体可以通过网络爬虫的方式获取互联网中的原始新闻数据。新闻数据分析层用于分析新闻数据层级,并且提取各新闻数据层级中的内容。新闻模板层中存储有预设新闻格式模板,新闻模板层将新闻数据分析层分析出的各新闻数据层级中的内容填充至预设新闻格式模板中对应的层级,得到模板新闻数据。存储层用于存储模板新闻数据,非必要的,还可以基于存储的模板新闻数据构建模板新闻数据库。
在其中一个实施例中,数据云服务器920还用于将新闻层级架构中每个层级记载的数据对应填写至预设新闻格式模板中各个层级,形成网页文件,并生成与网页文件对应的网页浏览链接,网页文件中携带有模板新闻数据。
在本实施例中,数据云服务器920采用网页文件的形式存储模板新闻数据,并且基于网页文件生成网页浏览链接,点击该网页浏览链接即可浏览到对应的模板新闻数据,这样有利于用户浏览所需模板新闻数据。
在其中一个实施例中,数据云服务器920还用于筛选与用户兴趣数据对应的模板新闻数据,返回携带筛选到的模板新闻数据对应的网页浏览链接;开发服务器910还用于推送网页浏览链接至用户终端。
进一步的,数据云服务器920还可以直接将网页浏览链接发送至开发服务器910,开发服务器910将网页浏览链接发送至用户终端,用户操作用户终端点击该网页浏览链接直接访问数据云服务器920,直接从数据云服务器920中读取所需模板新闻数据。需要指出的是,在实际应用中数据云服务器920一方面可以发送与用户兴趣数据对应的模板新闻数据至开发服务器910;另一方面还可以发送基于与用户兴趣数据对应的模板新闻数据生成的网页浏览链接至开发服务器910,开发服务器910可以同时反馈模板新闻数据和网页浏览链接至用户终端,用户可以通过网页浏览链接二次查看开发服务器910是否推送是否准确。更进一步来说,网页文件中除了包含模板新闻数据之外还可以包括其他内容,例如与模板新闻数据关联的其他“附加”模板新闻数据,这类新闻数据可以基于大数据获得,即网页文件中携带有比模板新闻数据更加丰富的数据,这样,同时推送反馈的模板新闻数据和网页浏览链接至用户终端时,用户可以通过反馈的模板新闻数据获取准确的新闻数据,还可以通过网页浏览链接直接访问数据云服务器920获取更加丰富的新闻数据,给用户带来便利。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设模板等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种新闻数据推送方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取原始新闻数据;
识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据;
将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,预设模板为基于新闻层级架构构建的模板;
推送模板新闻数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过网络爬虫、新闻上传或新闻购买方式获取原始新闻数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取目的新闻网站的新闻列表;获取新闻列表中携带的网络链接;通过网络爬虫爬取各网络链接对应的新闻数据,获取原始新闻数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:剔除原始新闻数据中无法解析出新闻层级架构对应的数据,获得更新后的原始新闻数据;识别更新后的原始新闻数据的新闻层级架构;获取新闻层级架构中每个层级记载的数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:接收上传的用户新闻浏览记录;根据用户新闻浏览记录,提取用户兴趣数据;分析用户兴趣数据所属新闻类型;采用大数据分析方式,分析用户兴趣数据所属新闻类型中的热点新闻数据,热点新闻数据为关注度大于预设关注度阈值的新闻数据;推送热点新闻数据对应的模板新闻数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:识别新闻层级架构中每个层级的层级标识符;根据新闻层级架构中每个层级记载的数据,建立层级标识符与层级记载数据的对应关系;识别预设模板中各层级的层级标识符,根据层级标识符与层级记载数据的对应关系,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:存储模板新闻数据,构建模板新闻数据库。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取原始新闻数据;
识别原始新闻数据的新闻层级架构,并获取新闻层级架构中每个层级记载的数据;
将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得模板新闻数据,预设模板为基于新闻层级架构构建的模板;
推送模板新闻数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过网络爬虫、新闻上传或新闻购买方式获取原始新闻数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取目的新闻网站的新闻列表;获取新闻列表中携带的网络链接;通过网络爬虫爬取各网络链接对应的新闻数据,获取原始新闻数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:剔除原始新闻数据中无法解析出新闻层级架构对应的数据,获得更新后的原始新闻数据;识别更新后的原始新闻数据的新闻层级架构;获取新闻层级架构中每个层级记载的数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:接收上传的用户新闻浏览记录;根据用户新闻浏览记录,提取用户兴趣数据;分析用户兴趣数据所属新闻类型;采用大数据分析方式,分析用户兴趣数据所属新闻类型中的热点新闻数据,热点新闻数据为关注度大于预设关注度阈值的新闻数据;推送热点新闻数据对应的模板新闻数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:识别新闻层级架构中每个层级的层级标识符;根据新闻层级架构中每个层级记载的数据,建立层级标识符与层级记载数据的对应关系;识别预设模板中各层级的层级标识符,根据层级标识符与层级记载数据的对应关系,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:存储模板新闻数据,构建模板新闻数据库。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种新闻数据推送方法,所述方法包括:
获取原始新闻数据;
识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据,所述新闻层级架构包括标题、简要、正文、附图以及结论;
将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得统一样式的模板新闻数据,所述预设模板为基于新闻层级架构构建的模板;
接收上传的用户新闻浏览记录;
提取用户新闻浏览记录中用户浏览时间、浏览时长、浏览新闻数据的类型以及浏览的新闻数据之间关联的关键词,对所述用户新闻浏览记录进行分析,提取用户兴趣数据;
分析所述用户兴趣数据所属新闻类型;
采用大数据分析方式,分析所述用户兴趣数据所属新闻类型中的热点新闻数据,所述热点新闻数据为关注度大于预设关注度阈值的新闻数据;
推送所述热点新闻数据对应的模板新闻数据;
所述识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据,包括:剔除所述原始新闻数据中无法解析出新闻层级架构对应的数据,获得更新后的原始新闻数据;识别所述更新后的原始新闻数据的新闻层级架构;获取所述新闻层级架构中每个层级记载的数据;
所述将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级之前,还包括:识别所述新闻层级架构中每个层级的层级标识符;根据所述新闻层级架构中每个层级记载的数据,建立层级标识符与层级记载数据的对应关系;
所述将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级包括:识别预设模板中各层级的层级标识符,根据所述层级标识符与层级记载数据的对应关系,将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
2.根据权利要求1所述的方法,其特征在于,所述获取原始新闻数据,包括:
通过网络爬虫、新闻上传或新闻购买方式获取原始新闻数据。
3.根据权利要求1所述的方法,其特征在于,所述获取原始新闻数据,包括:
获取目的新闻网站的新闻列表;
获取所述新闻列表中携带的网络链接;
通过网络爬虫爬取各所述网络链接对应的新闻数据,获取原始新闻数据。
4.根据权利要求1所述的方法,其特征在于,所述获得模板新闻数据,之后包括:
存储所述模板新闻数据,构建模板新闻数据库。
5.一种新闻数据推送装置,其特征在于,所述装置包括:
获取模块,用于获取原始新闻数据;
层级识别模块,用于识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据,所述新闻层级架构包括标题、简要、正文、附图以及结论;
填写模块,用于将所述新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级,获得统一样式的模板新闻数据,所述预设模板为基于新闻层级架构构建的模板;
推送模块,用于接收上传的用户新闻浏览记录;提取用户新闻浏览记录中用户浏览时间、浏览时长、浏览新闻数据的类型以及浏览的新闻数据之间关联的关键词,对所述用户新闻浏览记录进行分析,提取用户兴趣数据;分析所述用户兴趣数据所属新闻类型;采用大数据分析方式,分析所述用户兴趣数据所属新闻类型中的热点新闻数据,所述热点新闻数据为关注度大于预设关注度阈值的新闻数据;推送所述热点新闻数据对应的模板新闻数据;
层级识别模块还用于剔除原始新闻数据中无法解析出新闻层级架构对应的数据,获得更新后的原始新闻数据;识别更新后的原始新闻数据的新闻层级架构;获取新闻层级架构中每个层级记载的数据;
填写模块还用于识别新闻层级架构中每个层级的层级标识符;根据新闻层级架构中每个层级记载的数据,建立层级标识符与层级记载数据的对应关系;识别预设模板中各层级的层级标识符,根据层级标识符与层级记载数据的对应关系,将新闻层级架构中每个层级记载的数据对应填写至预设模板中各个层级。
6.根据权利要求5所述的装置,其特征在于,获取模块用于通过网络爬虫、新闻上传或新闻购买方式获取原始新闻数据。
7.一种新闻数据推送系统,其特征在于,包括相互连接开发服务器和数据云服务器,所述开发服务器存储有预设新闻格式模板,所述预设新闻格式模板为基于新闻层级架构构建的模板;
所述数据云服务器通过互联网获取原始新闻数据,识别所述原始新闻数据的新闻层级架构,并获取所述新闻层级架构中每个层级记载的数据,将所述新闻层级架构中每个层级记载的数据对应填写至预设新闻格式模板中各个层级,获得统一样式的模板新闻数据,所述开发服务器发送用户兴趣数据至所述数据云服务器,所述数据云服务器筛选与所述用户兴趣数据对应的模板新闻数据,返回筛选到的模板新闻数据至所述开发服务器,所述开发服务器将接收到的模板新闻数据推送至用户终端,所述新闻层级架构包括标题、简要、正文、附图以及结论;
其中,将接收到的模板新闻数据推送至用户终端包括接收上传的用户新闻浏览记录;提取用户新闻浏览记录中用户浏览时间、浏览时长、浏览新闻数据的类型以及浏览的新闻数据之间关联的关键词,对所述用户新闻浏览记录进行分析,提取用户兴趣数据;分析所述用户兴趣数据所属新闻类型;采用大数据分析方式,分析所述用户兴趣数据所属新闻类型中的热点新闻数据,所述热点新闻数据为关注度大于预设关注度阈值的新闻数据;推送所述热点新闻数据对应的模板新闻数据。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
CN201810934809.XA 2018-08-16 2018-08-16 新闻数据推送方法、装置、系统和存储介质 Expired - Fee Related CN109284429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810934809.XA CN109284429B (zh) 2018-08-16 2018-08-16 新闻数据推送方法、装置、系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810934809.XA CN109284429B (zh) 2018-08-16 2018-08-16 新闻数据推送方法、装置、系统和存储介质

Publications (2)

Publication Number Publication Date
CN109284429A CN109284429A (zh) 2019-01-29
CN109284429B true CN109284429B (zh) 2021-12-28

Family

ID=65183099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810934809.XA Expired - Fee Related CN109284429B (zh) 2018-08-16 2018-08-16 新闻数据推送方法、装置、系统和存储介质

Country Status (1)

Country Link
CN (1) CN109284429B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590999A (zh) * 2021-06-23 2021-11-02 小铁世纪(成都)科技有限公司 一种基于小程序的自适应内容识别及发布系统
CN113822035A (zh) * 2021-09-24 2021-12-21 北京搜房科技发展有限公司 资讯生成方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398839A (zh) * 2008-10-23 2009-04-01 浙江大学 一种有声网页新闻的个性化推送方法
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN106407078A (zh) * 2016-09-26 2017-02-15 中国工商银行股份有限公司 基于信息交互的客户端性能监控装置及方法
CN107609123A (zh) * 2017-09-14 2018-01-19 西安领讯卓越信息技术有限公司 一种基于新闻推荐系统聚合新闻呈现的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101398839A (zh) * 2008-10-23 2009-04-01 浙江大学 一种有声网页新闻的个性化推送方法
CN102495872A (zh) * 2011-11-30 2012-06-13 中国科学技术大学 对移动设备用户进行个性化新闻推荐的方法和装置
CN106407078A (zh) * 2016-09-26 2017-02-15 中国工商银行股份有限公司 基于信息交互的客户端性能监控装置及方法
CN107609123A (zh) * 2017-09-14 2018-01-19 西安领讯卓越信息技术有限公司 一种基于新闻推荐系统聚合新闻呈现的方法

Also Published As

Publication number Publication date
CN109284429A (zh) 2019-01-29

Similar Documents

Publication Publication Date Title
US20170169349A1 (en) Recommending method and electronic device
US9990431B2 (en) Rich web page generation
CN106557513B (zh) 事件信息推送方法及事件信息推送装置
CN109101658B (zh) 信息搜索方法、装置及设备/终端/服务器
US10623522B2 (en) Uploading a form attachment
TW200928811A (en) Collecting and presenting temporal-based action information
CN105069087A (zh) 基于Web日志数据挖掘的网站优化方法
CN103399855B (zh) 基于多数据源的行为意图确定方法及装置
CN105721578A (zh) 一种用户行为数据采集方法和系统
CN109284429B (zh) 新闻数据推送方法、装置、系统和存储介质
CN110929058B (zh) 商标图片的检索方法、装置、存储介质及电子装置
CN110659435A (zh) 页面数据采集处理方法、装置、计算机设备和存储介质
CN111737577A (zh) 一种基于业务平台的数据查询方法、装置、设备和介质
Azhar et al. Forensic analysis of secure ephemeral messaging applications on android platforms
CN104765823A (zh) 一种网站数据采集的方法及装置
KR102313338B1 (ko) 영상 검색 장치 및 방법
CN105550179A (zh) 一种网页收藏方法和浏览器插件
CN106446055B (zh) 网页的生成方法及系统
CN102932421A (zh) 云备份方法及装置
CN105893584A (zh) 一种显示收藏夹网址标签的方法、客户端和系统
US20160004776A1 (en) Cloud search analytics
CN112307386A (zh) 信息监控方法、系统、电子设备及计算机可读存储介质
US9977836B2 (en) Storing method and apparatus for data acquisition
KR101471522B1 (ko) 콘텐츠의 생성 및 소비에 기반한 개인 정보 제공 시스템
CN110941711A (zh) 电子检索报告获取方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200113

Address after: 510663 Shenzhou Road, Guangzhou Science City, Guangzhou economic and Technological Development Zone, Guangdong, 10

Applicant after: COMBA TELECOM SYSTEMS (CHINA) Ltd.

Address before: 510663 Shenzhou Road 10, Guangzhou Science City, Guangzhou economic and Technological Development Zone, Guangzhou, Guangdong

Applicant before: COMBA TELECOM SYSTEMS (CHINA) Ltd.

Applicant before: COMBA TELECOM SYSTEMS (GUANGZHOU) Ltd.

Applicant before: COMBA TELECOM TECHNOLOGY (GUANGZHOU) Ltd.

Applicant before: TIANJIN COMBA TELECOM SYSTEMS Ltd.

TA01 Transfer of patent application right
CB02 Change of applicant information

Address after: 510663 Shenzhou Road, Guangzhou Science City, Guangzhou economic and Technological Development Zone, Guangdong, 10

Applicant after: Jingxin Network System Co.,Ltd.

Address before: 510663 Shenzhou Road, Guangzhou Science City, Guangzhou economic and Technological Development Zone, Guangdong, 10

Applicant before: COMBA TELECOM SYSTEMS (CHINA) Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211228

CF01 Termination of patent right due to non-payment of annual fee