CN111723262A - 一种批量合并网络新闻标题、摘要、正文的系统和方法 - Google Patents

一种批量合并网络新闻标题、摘要、正文的系统和方法 Download PDF

Info

Publication number
CN111723262A
CN111723262A CN202010540941.XA CN202010540941A CN111723262A CN 111723262 A CN111723262 A CN 111723262A CN 202010540941 A CN202010540941 A CN 202010540941A CN 111723262 A CN111723262 A CN 111723262A
Authority
CN
China
Prior art keywords
data
news
unit
query
abstracts
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010540941.XA
Other languages
English (en)
Inventor
王世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Wenhuigu Information Technology Co ltd
Original Assignee
Wuhan Wenhuigu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Wenhuigu Information Technology Co ltd filed Critical Wuhan Wenhuigu Information Technology Co ltd
Priority to CN202010540941.XA priority Critical patent/CN111723262A/zh
Publication of CN111723262A publication Critical patent/CN111723262A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种批量合并网络新闻标题、摘要、正文的系统和方法,涉及文档合并技术领域,包括获取模块、数据处理模块、数据库、数据查询模块和客户端,通过获取模块进行在线新闻采集,数据处理模块对新闻数据进行处理,可以用一个页面让读者看到某大型网站当天发布的几千条新闻的标题,并可对悦心的文章在线浏览,通过对新闻摘要的生成与合并,可以用一个页面让读者看到某个专题几百篇文章的摘要,通过对新闻正文的合并,可以用一个页面让读者看到某个专题几十篇文章的正文,管理员可以根据整理之后的新闻,选择优质内容,进行发布到前台,用户通过客户端访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容。

Description

一种批量合并网络新闻标题、摘要、正文的系统和方法
技术领域
本发明涉及文档合并技术领域,具体涉及一种批量合并网络新闻标题、摘要、正文的系统和方法。
背景技术
由于互联网的发展,我们现在正处在一个信息大爆炸的时代,国家级、省市级、地市级、行业、专业等各级各类网站每天都产生大量信息,于是乎我们每天要进行反复的如下操作:打开网站,找到相关栏目,点开文章链接,阅读文章,再点开下一篇文章;然后,退出这个网站,继续前面的操作,阅读下一个网站;重要新闻网站阅读完毕之后,再打开专业网站,继续点来点去,新闻信息不能集中进行合并阅读,查找阅读新闻的过程中时间被大量的浪费,导致阅读效率低下,不能快速筛选和获取我们所需要的知识。
发明内容
本发明实施例提供了一种批量合并网络新闻标题、摘要、正文的系统和方法,通过对新闻标题的合并,可以用一个页面让读者看到某大型网站当天发布的几千条新闻的标题,并可对悦心的文章在线浏览;通过摘要的生成与合并,可以用一个页面让读者看到某个专题几百篇文章的摘要;通过正文是合并,可以用一个页面让读者看到某个专题几十篇文章的正文,节省了大量的查找和筛选的时间,解决了目前新闻阅读存在的新闻信息不能集中进行合并阅读,查找阅读新闻的过程中时间被大量的浪费,导致阅读效率低下,不能快速筛选和获取我们所需要的知识的问题。
鉴于上述问题,提出了本发明以便提供一种批量合并网络新闻标题、摘要、正文的系统通过对采集的新闻进行处理和合并进行发布,用户通过浏览一个页面可以看到某个专题几十篇文章的正文,解决了目前新闻阅读存在的新闻信息不能集中进行合并阅读,查找阅读新闻的过程中时间被大量的浪费,导致阅读效率低下,不能快速筛选和获取我们所需要的知识的问题。
一种批量合并网络新闻标题、摘要、正文的系统,包括:获取模块,数据处理模块,数据库,数据查询模块和客户端;
获取模块,用于采集各种新闻数据,并将采集到的新闻数据传输到数据处理模块;
数据处理模块,用于接收获取模块传输的新闻数据,并对新闻数据进行处理并将处理后的新闻数据传输到数据库;
数据库,用于接收数据处理模块传输的新闻数据并对新闻数据就那些存储;
数据查询模块,用于查询数据库中存储的数据并反馈到客户端;
客户端,用于发送控制指令到数据查询模块对数据库进行查询操作。
进一步的,所述获取模块包括采集器,所述采集器采集的数据包括各大平台免费新闻以及访问地址;
进一步的,数据处理模块包括数据清洗单元、数据合并单元、数据索引单元和数据发布单元,所述数据清洗单元用于新闻数据的数据、栏目信息补充、异常数据过滤、数据去重以及错误数据收集,所述数据合并单元用于新闻数据合并,包括标题合并、正文合并和摘要合并,所述数据索引单元用于管理新闻数据,包括全量数据索引、增量数据索引、修改数据索引更新和删除新闻索引同步,所述数据发布单元用于发布新闻数据,包括首页新闻推荐、分栏目新闻阅读、新闻简报查看、新闻详情参考和新闻源地址查看。
进一步的,所述数据查询模块包括查询单元、缓存单元和反馈单元,所述查询单元用于在系统和数据库中进行新闻数据的查询,所述缓存单元用于缓存历史查询记录形成快速访问接口,所述反馈单元用于反馈查询结果数据到客户端。
进一步的,所述客户端用于用户根据自身需求手动输入关键词进行新闻数据的搜索和查阅。
进一步的,所述数据库为通用型关系型数据库。
第二方面,本发明实施例提供一种批量合并网络新闻标题、摘要、正文的方法,包括以下步骤:
S1,数据采集,采集器采集各大平台的新闻,并将采集到的新闻数据传输到数据处理模块;
S2,数据处理,数据处理模块接收到新闻数据后,数据清洗单元对数据进行初步清洗统一规范数据格式,数据合并单元对新闻数据的标题、正文和摘要进行合并,数据索引单元对新闻数据增加增加索引方便后期查询,处理完成后,将数据写入数据库进行存储;
S3,数据发布,管理员根据整理之后的新闻,选择优质内容,通过数据发布单元进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻;
S4,数据查询,用户通过客户端访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容;用户通过客户端输入关键词,并将关键词传输到数据查询模块,查询单元按照关键词进行查询,缓存单元对查询的结果进行缓存,并将查询结果通过反馈单元反馈到客户端。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明通过获取模块进行在线新闻采集,采集各大平台免费新闻标题以及访问地址,数据处理模块对新闻数据进行处理,通过对新闻标题的合并,可以用一个页面让读者看到某大型网站当天发布的几千条新闻的标题,并可对悦心的文章在线浏览,通过对新闻摘要的生成与合并,可以用一个页面让读者看到某个专题几百篇文章的摘要,通过对新闻正文的合并,可以用一个页面让读者看到某个专题几十篇文章的正文,管理员可以根据整理之后的新闻,选择优质内容,进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻,用户通过客户端访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容,同时用户通过客户端可以进行关键词搜索,数据查询模块对用户输入的关键词进行查询并反馈至客户端供用户查阅,从而使批量合并网络新闻标题、摘要、正文的系统具有了将新闻信息集中进行合并阅读,一个页面让读者看到某个专题几百篇文章的摘要,可以进行关键词搜索,提高阅读效率,快速筛选和获取我们所需要的知识的效果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例一示意图;
图2为本发明实施例二示意图;
图3为本发明实施例中公开的数据处理模块处理流程示意图;
图4为本发明实施例中公开的一种新闻采集合并结果示意图;
图5为本发明实施例中公开的另一种新闻采集合并结果示意图;
图6为本发明实施例中公开的用户查询新闻流程示意图。
附图标记:
1-获取模块;101-采集器;2-数据处理模块;201-数据清洗单元;202-数据合并单元;203-数据索引单元;204-数据发布单元;3-数据库;4-数据查询模块;401-查询单元;402-缓存单元;403-反馈单元;5-客户端。
具体实施例
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
如图1所示,本发明实施例提供一种批量合并网络新闻标题、摘要、正文的系统,包括:获取模块1,数据处理模块2,数据库3,数据查询模块4和客户端5;
获取模块1,用于采集各种新闻数据,并将采集到的新闻数据传输到数据处理模块2,获取模块1包括采集器101,所述采集器101采集的数据包括各大平台免费新闻以及访问地址;
具体的,采集器101对各个平台发布的新闻进行采集,例如:采集人民日报网的新闻,采集器101访问人民日报网网站,对人民日报网中的新闻进行采集,并将采集到的新闻数据传输到数据处理模块2。
数据处理模块2,用于接收获取模块1传输的新闻数据,并对新闻数据进行处理并将处理后的新闻数据传输到数据库3,数据处理模块2包括数据清洗单元201、数据合并单元202、数据索引单元203和数据发布单元204,所述数据清洗单元201用于新闻数据的数据、栏目信息补充、异常数据过滤、数据去重以及错误数据收集,所述数据合并单元202用于新闻数据合并,包括标题合并、正文合并和摘要合并,所述数据索引单元203用于管理新闻数据,包括全量数据索引、增量数据索引、修改数据索引更新和删除新闻索引同步,所述数据发布单元204用于发布新闻数据,包括首页新闻推荐、分栏目新闻阅读、新闻简报查看、新闻详情参考和新闻源地址查看;
具体的,数据处理模块2接收到采集器101传输的数据,数据清洗单元201对数据进行初步清洗统一规范数据格式,对采集的新闻进行分类,对栏目的信息进行补充,对异常的数据进行过滤,对重复的数据进行去重操作,对错误的数据进行收集,数据合并单元202对新闻数据的标题、正文和摘要进行合并,数据索引单元203对新闻数据增加增加索引方便后期查询,处理完成后,将数据写入数据库3进行存储,管理员可以根据整理之后的新闻,选择优质内容,通过数据发布单元204进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻,用户通过客户端5访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容,例如,分别采集人民日报2020年1至5月的新闻和凤凰网2020年5月8日1的新闻,采集器101分别访问人民日报网网站对和凤凰网,对人民日报网2020年1月至5月的新闻和凤凰网2020年5月8日发布的的新闻进行采集,并将采集到的新闻数据传输到数据处理模块2,数据处理模块2接收到采集器101采集的新闻数据,数据清洗单元201对数据进行初步清洗统一规范数据格式,对采集的新闻进行分类,对栏目的信息进行补充,对异常的数据进行过滤,对重复的数据进行去重操作,对错误的数据进行收集,处理完成的新闻数据通过数据合并单元202进行数据合并,分别提取标题、来源和时间进行合并,提起标题、正文、来源和时间进行合并,提取摘要、来源和时间进行合并,合并完成后对合并的文本数据格式进行规范操作,并合并生成word文档下载到本地,数据索引单元203对新闻数据添加数据索引,在有新的数据进行更新的时候自动修改新的数据的索引,管理员根据整理之后的新闻,选择优质内容,通过数据发布单元204进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻,用户通过客户端5访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容;
数据库3,用于接收数据处理模块2传输的新闻数据并对新闻数据就那些存储;数据查询模块4,用于查询数据库3中存储的数据并反馈到客户端5,所述数据库为通用型关系型数据库;
具体的,系统中的新闻数据量随着时间推移,将以越来越快的速度增长。为了配合用户从海量新闻中快速定位到自己关心的新闻,系统采用的数据查询模块4和数据库3均是分布式架构体系,支持海量数据存储与查询;
(1)高性能,数据存储系统是基于分布式的数据查询模块4和通用型关系型数据库3,在高并发大量写入、查询时,多台机器可协同并发工作,同一个机器内,也有针对多个CPU的并发任务,在此基础上,大大提高系统的响应时间;
(2)高可靠,整个数据存储系统是基于分布式环境,所以数据会被存储到不同的机器,且各个机器上存储的数据在其它机器上互相备份,作容灾处理,系统中的数据是绝对安全的,从而保证了系统运行的稳定性,还可以把机器分布在不同的机房,这样一来针对机房而言安全系数又进一步提升;
(3)易扩展,当网络越来越普及,越来越发达,在线查看新闻的人数越来越多,系统中的数据毫无疑问的会以越来越快的增长速率增长,单台机器的硬件不变的情况下,它的处理能力是有上限的,当一台服务器处理的数据已经达到上限时,通过增加设备,基于分布式的架构,使得增加一台机器的维护成本非常低,程序本身不需要作任何改动,只需要把增加的机器加入原有的配置文件中即可,系统会自动重新分布数据,自动作负载均衡。
客户端5,用于发送控制指令到数据查询模块4对数据库3进行查询操作,客户端5包括手机、电脑、平板电脑等,用户通过客户端5访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容,同时通过客户端5可以进行关键词搜索,数据查询模块4对用户输入的关键词进行查询并反馈至客户端5供用户查阅,从而使批量合并网络新闻标题、摘要、正文的系统具有了将新闻信息集中进行合并阅读,一个页面让读者看到某个专题几百篇文章的摘要,可以进行关键词搜索,提高阅读效率,快速筛选和获取我们所需要的知识的效果。
具体的,用户通过客户端5发送查询请求,数据查询模块4接收到查询指令后首先查看缓存单元402内部是否存有查询结果数据,有对应的数据通过反馈单元403反馈到客户端5,缓存单元402内部没有相对应的缓存结果时通过查询单元401查询系统内部是否存有查询结果数据,有对应的数据通过反馈单元403反馈到客户端5,在没有相对应的缓存结果时对数据库3进行查询,将对应的数据通过反馈单元403反馈到客户端5并将本次查询通缓存单元402进行保存,在下一次有相同的查询指令时可以快速从缓存单元402中反馈到客户端5,运行时间越长系统反馈效率越高,提高用户的阅读效率。
本发明通过获取模块1进行在线新闻采集,采集各大平台免费新闻标题以及访问地址,数据处理模块2对新闻数据进行处理,通过对新闻标题的合并,可以用一个页面让读者看到某大型网站当天发布的几千条新闻的标题,并可对悦心的文章在线浏览,通过对新闻摘要的生成与合并,可以用一个页面让读者看到某个专题几百篇文章的摘要,通过对新闻正文的合并,可以用一个页面让读者看到某个专题几十篇文章的正文,管理员可以根据整理之后的新闻,选择优质内容,进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻,用户通过客户端5访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容,同时用户通过客户端5可以进行关键词搜索,数据查询模块4对用户输入的关键词进行查询并反馈至客户端5供用户查阅,从而使批量合并网络新闻标题、摘要、正文的系统具有了将新闻信息集中进行合并阅读,一个页面让读者看到某个专题几百篇文章的摘要,可以进行关键词搜索,提高阅读效率,快速筛选和获取我们所需要的知识的效果。
实施例二
本发明实施例还公开了一种批量合并网络新闻标题、摘要、正文的方法,如图2,包括以下步骤:
S1,数据采集,采集器101采集各大平台的新闻,并将采集到的新闻数据传输到数据处理模块2;
具体的,采集器101同时登陆不同的网络新闻平台对发布的新闻进行采集。
S2,数据处理,数据处理模块2接收到新闻数据后,数据清洗单元201对数据进行初步清洗统一规范数据格式,数据合并单元202对新闻数据的标题、正文和摘要进行合并,数据索引单元203对新闻数据增加增加索引方便后期查询,处理完成后,将数据写入数据库3进行存储;
具体的,数据清洗单元201对数据进行初步清洗统一规范数据格式,对采集的新闻进行分类,对栏目的信息进行补充,对异常的数据进行过滤,对重复的数据进行去重操作,对错误的数据进行收集,数据合并单元202对新闻数据的标题、正文和摘要进行合并,数据索引单元203对新闻数据增加增加索引方便后期查询,处理完成后,将数据写入数据库3进行存储。
S3,数据发布,管理员根据整理之后的新闻,选择优质内容,通过数据发布单元204进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻;
S4,数据查询,用户通过客户端5访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容;用户通过客户端5输入关键词,并将关键词传输到数据查询模块4,查询单元401按照关键词进行查询,缓存单元402对查询的结果进行缓存,并将查询结果通过反馈单元403反馈到客户端5。
具体的,用户通过客户端5访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容,同时通过客户端5可以进行关键词搜索,用户通过客户端5发送查询请求,数据查询模块4接收到查询指令后首先查看缓存单元402内部是否存有查询结果数据,有对应的数据通过反馈单元403反馈到客户端5,缓存单元402内部没有相对应的缓存结果时通过查询单元401查询系统内部是否存有查询结果数据,有对应的数据通过反馈单元403反馈到客户端5,在没有相对应的缓存结果时对数据库3进行查询,将对应的数据通过反馈单元403反馈到客户端5并将本次查询通缓存单元402进行保存,在下一次有相同的查询指令时可以快速从缓存单元402中反馈到客户端5,运行时间越长系统反馈效率越高,提高用户的阅读效率,数据查询模块4对用户输入的关键词进行查询并反馈至客户端5供用户查阅,提高阅读效率,快速筛选和获取我们所需要的知识的效果。
本实施例公开的一种批量合并网络新闻标题、摘要、正文的方法,通过获取模块1进行在线新闻采集,采集各大平台免费新闻标题以及访问地址,数据处理模块2对新闻数据进行处理,通过对新闻标题的合并,可以用一个页面让读者看到某大型网站当天发布的几千条新闻的标题,并可对悦心的文章在线浏览,通过对新闻摘要的生成与合并,可以用一个页面让读者看到某个专题几百篇文章的摘要,通过对新闻正文的合并,可以用一个页面让读者看到某个专题几十篇文章的正文,管理员可以根据整理之后的新闻,选择优质内容,进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻,用户通过客户端5访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容,同时用户通过客户端5可以进行关键词搜索,数据查询模块4对用户输入的关键词进行查询并反馈至客户端5供用户查阅,从而使批量合并网络新闻标题、摘要、正文的系统具有了将新闻信息集中进行合并阅读,一个页面让读者看到某个专题几百篇文章的摘要,可以进行关键词搜索,提高阅读效率,快速筛选和获取我们所需要的知识的效果。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
本领域技术人员还应当理解,结合本文的实施例描述的各种说明性的逻辑框、模块、电路和算法步骤均可以实现成电子硬件、计算机软件或其组合。为了清楚地说明硬件和软件之间的可交换性,上面对各种说明性的部件、框、模块、电路和步骤均围绕其功能进行了一般地描述。至于这种功能是实现成硬件还是实现成软件,取决于特定的应用和对整个系统所施加的设计约束条件。熟练的技术人员可以针对每个特定应用,以变通的方式实现所描述的功能,但是,这种实现决策不应解释为背离本公开的保护范围。
结合本文的实施例所描述的方法或者算法的步骤可直接体现为硬件、由处理器执行的软件模块或其组合。软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质连接至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该ASIC可以位于用户终端中。当然,处理器和存储介质也可以作为分立组件存在于用户终端中。
对于软件实现,本申请中描述的技术可用执行本申请所述功能的模块(例如,过程、函数等)来实现。这些软件代码可以存储在存储器单元并由处理器执行。存储器单元可以实现在处理器内,也可以实现在处理器外,在后一种情况下,它经由各种手段以通信方式耦合到处理器,这些都是本领域中所公知的。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。

Claims (7)

1.一种批量合并网络新闻标题、摘要、正文的系统,其特征在于,包括:获取模块,数据处理模块,数据库,数据查询模块和客户端;
获取模块,用于采集各种新闻数据,并将采集到的新闻数据传输到数据处理模块;
数据处理模块,用于接收获取模块传输的新闻数据,并对新闻数据进行处理并将处理后的新闻数据传输到数据库;
数据库,用于接收数据处理模块传输的新闻数据并对新闻数据就那些存储;
数据查询模块,用于查询数据库中存储的数据并反馈到客户端;
客户端,用于发送控制指令到数据查询模块对数据库进行查询操作。
2.如权利要求1所述的批量合并网络新闻标题、摘要、正文的系统,其特征在于,所述获取模块包括采集器,所述采集器采集的数据包括各大平台免费新闻以及访问地址。
3.如权利要求1所述的批量合并网络新闻标题、摘要、正文的系统,其特征在于,数据处理模块包括数据清洗单元、数据合并单元、数据索引单元和数据发布单元,所述数据清洗单元用于新闻数据的数据、栏目信息补充、异常数据过滤、数据去重以及错误数据收集,所述数据合并单元用于新闻数据合并,包括标题合并、正文合并和摘要合并,所述数据索引单元用于管理新闻数据,包括全量数据索引、增量数据索引、修改数据索引更新和删除新闻索引同步,所述数据发布单元用于发布新闻数据,包括首页新闻推荐、分栏目新闻阅读、新闻简报查看、新闻详情参考和新闻源地址查看。
4.如权利要求1所述的批量合并网络新闻标题、摘要、正文的系统,其特征在于,所述数据查询模块包括查询单元、缓存单元和反馈单元,所述查询单元用于在系统和数据库中进行新闻数据的查询,所述缓存单元用于缓存历史查询记录形成快速访问接口,所述反馈单元用于反馈查询结果数据到客户端。
5.如权利要求1所述的批量合并网络新闻标题、摘要、正文的系统,其特征在于,所述客户端用于用户根据自身需求手动输入关键词进行新闻数据的搜索和查阅。
6.如权利要求1所述的批量合并网络新闻标题、摘要、正文的系统,其特征在于,所述数据库为通用型关系型数据库。
7.一种批量合并网络新闻标题、摘要、正文的方法,应用于如权利要求1-6所述的批量合并网络新闻标题、摘要、正文的系统,其特征在于,包括以下步骤:
S1,数据采集,采集器采集各大平台的新闻,并将采集到的新闻数据传输到数据处理模块;
S2,数据处理,数据处理模块接收到新闻数据后,数据清洗单元对数据进行初步清洗统一规范数据格式,数据合并单元对新闻数据的标题、正文和摘要进行合并,数据索引单元对新闻数据增加增加索引方便后期查询,处理完成后,将数据写入数据库进行存储;
S3,数据发布,管理员根据整理之后的新闻,选择优质内容,通过数据发布单元进行发布到前台,也可以人工选择优质内容,合并生成新闻简报,供用户快速浏览热点新闻;
S4,数据查询,用户通过客户端访问系统并在看到感兴趣的内容时,快速的打开详细地址,查阅详细内容;用户通过客户端输入关键词,并将关键词传输到数据查询模块,查询单元按照关键词进行查询,缓存单元对查询的结果进行缓存,并将查询结果通过反馈单元反馈到客户端。
CN202010540941.XA 2020-06-15 2020-06-15 一种批量合并网络新闻标题、摘要、正文的系统和方法 Pending CN111723262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010540941.XA CN111723262A (zh) 2020-06-15 2020-06-15 一种批量合并网络新闻标题、摘要、正文的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010540941.XA CN111723262A (zh) 2020-06-15 2020-06-15 一种批量合并网络新闻标题、摘要、正文的系统和方法

Publications (1)

Publication Number Publication Date
CN111723262A true CN111723262A (zh) 2020-09-29

Family

ID=72566746

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010540941.XA Pending CN111723262A (zh) 2020-06-15 2020-06-15 一种批量合并网络新闻标题、摘要、正文的系统和方法

Country Status (1)

Country Link
CN (1) CN111723262A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231543A (zh) * 2020-10-14 2021-01-15 方世敏 一种科技新闻情报处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN106326496A (zh) * 2016-09-30 2017-01-11 广州特道信息科技有限公司 一种基于云平台的新闻阅读系统
CN106383887A (zh) * 2016-09-22 2017-02-08 深圳市博安达信息技术股份有限公司 一种环保新闻数据采集和推荐展示的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102012917A (zh) * 2010-11-26 2011-04-13 百度在线网络技术(北京)有限公司 信息处理装置以及处理方法
CN106383887A (zh) * 2016-09-22 2017-02-08 深圳市博安达信息技术股份有限公司 一种环保新闻数据采集和推荐展示的方法及系统
CN106326496A (zh) * 2016-09-30 2017-01-11 广州特道信息科技有限公司 一种基于云平台的新闻阅读系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231543A (zh) * 2020-10-14 2021-01-15 方世敏 一种科技新闻情报处理系统

Similar Documents

Publication Publication Date Title
CN102667761B (zh) 可扩展的集群数据库
CA2530565C (en) Server architecture and methods for persistently storing and serving event data
US6484161B1 (en) Method and system for performing online data queries in a distributed computer system
US6493721B1 (en) Techniques for performing incremental data updates
JP5661104B2 (ja) 検索エンジンインデクシング及びインデックスを使用する検索のための方法とシステム
CN108763578B (zh) 一种索引文件更新的方法以及服务器
CN102012933B (zh) 分布式文件系统及利用其存储数据和提供服务的方法
US8122069B2 (en) Methods for pairing text snippets to file activity
US20060041606A1 (en) Indexing system for a computer file store
US20100115003A1 (en) Methods For Merging Text Snippets For Context Classification
CN102426609A (zh) 一种基于MapReduce编程架构的索引生成方法和装置
AU2017243870B2 (en) "Methods and systems for database optimisation"
CN103678494A (zh) 客户端同步服务端数据的方法及装置
WO2007002412A2 (en) Systems and methods for retrieving data
CN105912609A (zh) 一种数据文件处理方法和装置
CN101594377A (zh) 用于管理Feed数据的系统和方法
WO2022165168A1 (en) Configuring an instance of a software program using machine learning
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
CN103917970A (zh) 企业中的顾客关注的关键字搜索
CN111723262A (zh) 一种批量合并网络新闻标题、摘要、正文的系统和方法
CN103823805A (zh) 基于社区的相关帖推荐系统及推荐方法
US9230011B1 (en) Index-based querying of archived data sets
CN113626463B (zh) 高并发访问下的Web性能优化方法
CN111858480A (zh) 一种数据处理方法、装置及计算机存储介质
JP2002342371A (ja) Www検索システムおよび方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200929