CN114661770A - 数据分页查询方法、装置、计算机设备及可读存储介质 - Google Patents

数据分页查询方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN114661770A
CN114661770A CN202210372802.XA CN202210372802A CN114661770A CN 114661770 A CN114661770 A CN 114661770A CN 202210372802 A CN202210372802 A CN 202210372802A CN 114661770 A CN114661770 A CN 114661770A
Authority
CN
China
Prior art keywords
data
page
public
result set
public opinion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210372802.XA
Other languages
English (en)
Other versions
CN114661770B (zh
Inventor
杨真
屠乐奇
郭磊
戎辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Asset Management Co Ltd
Original Assignee
Ping An Asset Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Asset Management Co Ltd filed Critical Ping An Asset Management Co Ltd
Priority to CN202210372802.XA priority Critical patent/CN114661770B/zh
Publication of CN114661770A publication Critical patent/CN114661770A/zh
Application granted granted Critical
Publication of CN114661770B publication Critical patent/CN114661770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9574Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据领域,公开了一种数据分页查询方法、装置、计算机设备及可读存储介质,包括:将舆情聚合池中相应于查询请求的基本数据整合成结果集;将结果集中前N位的待查询数据录入页面模板形成首页信息;将结果集中属性信息一致的待查询数据划分成舆情集合,及识别舆情集合中位于末位的基本数据在结果集中所在的基本位次并生成舆情数组;将结果集中相应于跳页请求的待查询数据作为展示数据,或识别相应于跳页请求的舆情数组并获取对应的舆情集合,将舆情集合中相应于跳页请求的待查询数据作为展示数据。本发明避免了当前用户端获取展示页面作业的响应时间过长,造成展示页面生成及获取效率低下,影响用户体验的问题。

Description

数据分页查询方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及一种数据分页查询方法、装置、计算机设备及可读存储介质。
背景技术
在金融市场,相关舆情非常受用户关注,我们也为此提供了多种分析工具,其中舆情本身的查询服务算是最基本的一个。因为用户对其查询角度丰富,为支持全文搜索,在技术选型上通常选择了ElasticSearch(以下简称ES)作为查询引擎。而ES在大规模数据场景下,如果结果集中的待查询数据量过大,采用传统的“from size”的方法对所述结果集进行翻页,会导致搜索服务器运行时间过长,造成用户端获取跳转页面操作的响应时间过长,而获取效率低下,影响用户体验的问题。
发明内容
本发明的目的是提供一种数据分页查询方法、装置、计算机设备及可读存储介质,用于解决现有技术存在的如果结果集中的待查询数据量过大,对所述结果集进行翻页会导致搜索服务器运行时间过长,造成用户端获取跳转页面操作的响应时间过长,而获取效率低下,影响用户体验的问题。
为实现上述目的,本发明提供一种应用在大数据的数据分页查询方法,包括:
接收用户端发送的查询请求,调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据;
将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格,所述待查询数据在所述结果集中的位置为基本位次;以及
判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;若所述数据量超过所述性能阈值,则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征;
接收所述用户端发送的跳页请求;
将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或
识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据;
将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面。
上述方案中,所述接收用户端发送的查询请求之前,所述方法还包括:
获取多个舆情数据,将所述多个舆情数据录入预置的数据库中,使所述数据库转为数据池;
将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,将具有舆情数据和/或聚合数据的数据池转为舆情聚合池,并将所述舆情数据和/或聚合数据作为所述舆情聚合池的基本数据。
上述方案中,所述将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,包括:
根据预置的舆情时间段,将所述数据池中的舆情数据划分为至少一个时间段集合;
提取所述时间段集合中舆情数据的信息要素,对所述信息要素进行向量运算得到所述舆情数据的空间向量,其中,所述信息要素包括描述事件的词汇、和/或表征对所述时间的态度和/或观点的词汇;
识别距离小于预置的相似阈值的两个或两个以上的空间向量,并汇总相应于所述两个或两个以上的空间向量的舆情数据形成所述聚合数据。
上述方案中,所述调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,包括:
提取所述查询请求中的查询关键字,在所述舆情聚合池中识别包括所述查询关键字的基本数据,并将识别出的所述基本数据设为待查询数据;
对所述待查询数据进行结果集处理得到结果集,其中,所述结果集是记载有至少一个所述待查询数据的表格。
上述方案中,所述将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,包括:
提取所述结果集中各待查询数据的时间戳,根据所述时间戳对所述待查询数据进行升序或降序排列得到舆情序列集合,其中,所述时间戳表征了所述待查询数据的生成时间;
按照预置的时间粒度,将所述舆情序列集合划分成至少一个舆情集合,其中,所述舆情集合由至少一个待查询数据组成;
将所述至少一个舆情集合中的任一舆情集合作为目标集合,及对所述至少一个舆情集合中,位于所述目标集合之前的各舆情集合的待查询数据的数量进行求和得到前向数量;
对所述前向数量和所述目标集合中待查询数据的数量进行求和得到截止数量,将所述截止数量设为所述目标集合的基本位次;
整合所述目标集合在所述至少一个舆情集合中的位次,以及所述目标集合的基本位次,得到所述目标集合的舆情数组。
上述方案中,所述接收所述用户端发送的跳页请求之前,所述方法还包括:
提取所述查询请求中的查询关键字,及获取所述用户端的用户身份信息,汇总所述查询关键字、所述用户身份信息、以及所述汇总成至少一个舆情集合的结果集形成缓存信息,将所述缓存信息保存至预置的缓存模块中;
所述将所述缓存信息保存至预置的缓存模块中之后,所述方法还包括:
将所述缓存信息上传至区块链中。
上述方案中,所述识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据,包括:
根据所述深度查询请求识别所述用户端当前展示页面中位于末位的展示数据,及提取所述深度查询请求中的目标位次,识别所述展示数据在所述结果集中的展示位次,及识别相应于所述目标位次的待查询数据在所述结果集中的目标位次;
将所述目标位次与所述展示位次相减得到数据跳转数量,根据所述数据跳转数量和所述分页阈值得到页面跳转数量,其中,所述页面跳转数量反映了从所述展示位次跳转到所述目标位次的页面跨度数量;
判断所述页面跳转数量是否超过预置的跳转阈值;
若所述页面跳转数量未超过所述跳转阈值,则识别所述用户端当前的展示页面中位于末位的展示数据,并将所述位于末位的展示数据在所述结果集中下一位次的待查询数据作为起点数据,在所述结果集中自所述起点数据开始,获取相应于所述数据跳转数量的待查询数据并汇总得到跳转集合,将所述跳转集合中后N位的待查询数据作为所述展示数据;
若所述页面跳转数量超过所述跳转阈值,则在所述结果集中识别截止数量与所述目标位次前后相邻的两个舆情数组,以所述目标位次与所述相邻的两个舆情数组中前一舆情数组的截止数量的差值作为初始值,根据所述初始值从与所述相邻的两个舆情数组中后一舆情数组对应的舆情集合中获取的待查询数据,并将获取的待查询数据中前N位的待查询数据作为所述展示数据。
为实现上述目的,本发明还提供一种应用在大数据的数据分页查询装置,包括:
结果查询模块,用于接收用户端发送的查询请求,并调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据;
展示分析模块,用于将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格;以及
判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;若所述数据量超过所述性能阈值,则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征;
跳页识别模块,用于接收所述用户端发送的跳页请求;将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据;
跳页展示模块,用于将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面。
为实现上述目的,本发明还提供一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机设备的处理器执行所述计算机程序时实现上述数据分页查询方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述可读存储介质存储的所述计算机程序被处理器执行时实现上述数据分页查询方法的步骤。
本发明提供的数据分页查询方法、装置、计算机设备及可读存储介质,通过将预置的舆情聚合池中相应于查询请求的基本数据整合成结果集,使结果集中的基本数据转为待查询数据的方式,得到将分散存在的相应于查询请求的基本数据,整合成能够在用户端上以分页形式展示的结构化数据,便于用户端后续翻页的结果集。
通过将结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将首页信息发送至用户端的方式,使得用户端能够快速获取记载有其所需展示数据的展示页面;避免了当前需要对结果集完全进行分页之后,再将首页信息发送至用户端,导致用户端获取展示页面作业的响应时间过长,造成展示页面生成及获取效率低下,影响用户体验的问题。
通过针对数据量超过性能阈值的结果集,在向用户端发送首页信息的同时,异步将结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别舆情集合中位于末位的基本数据在结果集中所在的基本位次,并根据基本位次生成舆情集合的舆情数组的方式,使得用户端在浏览首页信息时,对结果集进行划分并标注以舆情数组,以便于后续根据跳页请求快速根据舆情数组获取舆情集合,并从该舆情集合中获取相应的展示数据,并且有效的利用了用户端浏览首页信息时的时间,不仅避免了对结果集进行大范围轮询的情况发生,极大的缩短了获取跳转页面操作的响应时长,提高了获取效率,还消除了用户端对结果集进行划分时所产生的算力消耗的感知,提高了用户体验。
通过将结果集中相应于跳页请求的待查询数据作为展示数据的方式,获取数据量未超过性能阈值的结果集中的待查询数据,使得数据量不大的结果集不会调用额外的算力对其进行划分,避免了算力过大消耗。通过识别相应于跳页请求的舆情数组,并获取与舆情数组对应的舆情集合,将舆情集合中相应于跳页请求的待查询数据作为展示数据的方式,获取数据量超过性能阈值的结果集中的待查询数据,因此,只需从某一舆情集合中获取待查询数据,而无需遍历整个结果集,提高了展示数据的获取效率。通过将展示数据录入页面模板得到跳转页面,将跳转页面发送至用户端,以作为用户端的展示页面,确保展示数据展示的可靠性。
附图说明
图1为本发明数据分页查询方法实施例一的流程图;
图2为本发明数据分页查询方法实施例二中数据分页查询方法的环境应用示意图;
图3是本发明数据分页查询方法实施例二中数据分页查询方法的具体方法流程图;
图4为本发明数据分页查询装置实施例三的程序模块示意图;
图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的数据分页查询方法、装置、计算机设备及可读存储介质,适用于大数据技术领域,为提供一种基于结果查询模块、展示分析模块、跳页识别模块、跳页展示模块的数据分页查询方法。本发明通过接收用户端发送的查询请求,将预置的舆情聚合池中相应于查询请求的基本数据整合成结果集,使结果集中的基本数据转为待查询数据;将结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将首页信息发送至用户端以作为用户端的展示页面;以及判断结果集中待查询数据的数据量是否超过预置的性能阈值;若数据量超过性能阈值,结果集则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别舆情集合中位于末位的基本数据在结果集中所在的基本位次,并根据基本位次生成舆情集合的舆情数组;接收用户端发送的跳页请求;将结果集中相应于跳页请求的待查询数据作为展示数据;或识别相应于跳页请求的舆情数组,并获取与舆情数组对应的舆情集合,将舆情集合中相应于跳页请求的待查询数据作为展示数据。
实施例一:
请参阅图1,本实施例的一种应用在大数据的数据分页查询方法,包括:
S103:接收用户端发送的查询请求,结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,其中,所述舆情聚合池是用于保存所述基本数据的数据库。
S104:将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格;以及
判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;若所述数据量超过所述性能阈值,结果集则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征。
S106:接收所述用户端发送的跳页请求;
将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或
识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据。
S107:将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面。
在示例性的实施例中,通过结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据的方式,得到将分散存在的相应于所述查询请求的基本数据,整合成能够在用户端上以分页形式展示的结构化数据,便于用户端后续翻页的结果集。
通过将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端的方式,使得用户端能够快速获取记载有其所需展示数据的展示页面;避免了当前需要对结果集完全进行分页之后,再将首页信息发送至所述用户端,导致用户端获取展示页面作业的响应时间过长,造成展示页面生成及获取效率低下,影响用户体验的问题。
通过针对数据量超过所述性能阈值的结果集,在向用户端发送首页信息的同时,异步将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组的方式,使得用户端在浏览首页信息时,对结果集进行划分并标注以舆情数组,以便于后续根据跳页请求快速根据舆情数组获取舆情集合,并从该舆情集合中获取相应的展示数据,并且有效的利用了用户端浏览首页信息时的时间,不仅避免了对结果集进行大范围轮询的情况发生,极大的缩短了获取跳转页面操作的响应时长,提高了获取效率,还消除了用户端对结果集进行划分时所产生的算力消耗的感知,提高了用户体验。
通过将所述结果集中相应于所述跳页请求的待查询数据作为展示数据的方式,获取数据量未超过性能阈值的结果集中的待查询数据,使得数据量不大的结果集不会调用额外的算力对其进行划分,避免了算力过大消耗。
通过识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据的方式,获取数据量超过性能阈值的结果集中的待查询数据,因此,只需从某一舆情集合中获取所述待查询数据,而无需遍历整个结果集,提高了展示数据的获取效率。
通过将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面,确保展示数据展示的可靠性。
于所述图1中,所述S104通过以下标注展示:
S104-1:将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格;
S104-2:判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;
S104-3:若所述数据量超过所述性能阈值,结果集则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征。
所述S106通过以下标注展示:
S106-1:接收所述用户端发送的跳页请求,将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;
S106-2:接收所述用户端发送的跳页请求,识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据。
实施例二:
本实施例为上述实施例一的一种具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
下面,以在运行有数据分页查询方法的服务器中,将结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将结果集中相应于跳页请求的待查询数据作为展示数据;或识别相应于跳页请求的舆情数组,并获取与舆情数组对应的舆情集合,将舆情集合中相应于跳页请求的待查询数据作为展示数据为例,来对本实施例提供的方法进行具体说明。需要说明的是,本实施例只是示例性的,并不限制本发明实施例所保护的范围。
图2示意性示出了根据本申请实施例二的数据分页查询方法的环境应用示意图。
在示例性的实施例中,数据分页查询方法所在的服务器2通过网络3分别连接用户端4;所述服务器2可以通过一个或多个网络3提供服务,网络3可以包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或等等。网络3可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似物。网络3可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类似物;所述用户端4可为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。
图3是本发明一个实施例提供的一种数据分页查询方法的具体方法流程图,该方法具体包括步骤S201至S208。
S201:获取多个舆情数据,将所述多个舆情数据录入预置的数据库中,使所述数据库转为数据池。
本步骤中,所述舆情数据是指网络舆情,所述网络舆情是指在互联网上流行的对社会问题不同看法的网络舆论,是社会舆论的一种表现形式,是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。于本实施例中,所述舆情数据为金融市场中个体基于某一金融事件的出现所传达的个人观点和看法,其通常出现在新闻评论、贴吧、网络平台讨论组中。因此,所述舆情数据至少包括:
事件名称信息,其用于表征现实中所出现的金融事件;
事件态度信息,其用于表征个体对所述事件的态度;
事件舆情信息,其用于表征个体针对所述事件所提出的观点、意见、建议等内容。
S202:将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,将具有舆情数据和/或聚合数据的数据池转为舆情聚合池,并将所述舆情数据和/或聚合数据作为所述舆情聚合池的基本数据。
为避免在用户端展示多个内容相似甚至重复的无效的舆情数据,导致用户端对于有效数据获取效率低下的问题发生,本步骤通过将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,将具有舆情数据和/或聚合数据的数据池转为舆情聚合池,并将所述舆情数据和/或聚合数据作为所述舆情聚合池的基本数据,实现将相同或相似的多个舆情数据进行整合使得最终展示在用户端的基本数据,不会出现内容相同或相似的情况,提高了用户端对舆情数据的获取效率。
在一个优选的实施例中,所述将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,包括:
S21:根据预置的舆情时间段,将所述数据池中的舆情数据划分为至少一个时间段集合。
本步骤中,对于舆情的聚合问题,我们采用提前进行相似度计算并聚合预处理的办法。根据舆情数据的特点,我们选取一个较小的时间窗口(比如一周),在入库前对舆情进行相似度分析(我们认为超过一周时间间隔的舆情,即使相似也大概率不是同一条)。
S22:提取所述时间段集合中舆情数据的信息要素,对所述信息要素进行向量运算得到所述舆情数据的空间向量,其中,所述信息要素包括描述事件的词汇、和/或表征对所述时间的态度和/或观点的词汇。
本步骤中,所述信息要素包括:所述事件名称信息、所述事件态度信息中用于表征个体对所述事件态度的关键字,以及事件舆情信息中表征个体对所述事件提出的观点、意见和/或建议等信息的关键字。于本实施例中,通过预置的自然语言模型识别舆情数据中的信息要素,其中,通过所述自然语言模型的信息提取模块(IE,Information Extraction)定位自然语言文档中的特定信息,以实现识别所述舆情数据中的信息要素的技术效果。
采用向量空间模型依次对所述数据池中的各舆情数据的信息要素进行向量运算,依次得到各用于表征所述信息要素的空间向量。需要说明的是,所述向量空间模型(VSM:Vector Space Model)是应用于SMART文本检索系统,其用于对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。
S23:识别距离小于预置的相似阈值的两个或两个以上的事件向量,并汇总相应于所述两个或两个以上的空间向量的舆情数据形成所述聚合数据。
可选的,采用事件网络模型对所述空间向量进行影响因子计算,以调整所述空间向量中相应于描述事件词汇的信息要素的向量值得到所述舆情数据的事件向量,识别距离小于预置的相似阈值的两个或两个以上的事件向量。
具体地,所述事件网络模型是具有事件影响因子的计算模型或神经网络模型,所述事件影响因子用于调整所述空间向量中表征事件名称的词汇、和/或描述事件特征的词汇、和/或表明对所述事件的态度的词汇的向量值,因此,使用事件影响因子对事件名称、事件特征以及事件态度的词汇的向量值进行调整,进而调整各向量值相对于舆情数据的重要程度,确保最终得到的事件向量能够准确的反应舆情数据的真实含义;
例如:舆情数据A:我对M公司的发展非常失望,但是对M公司的N金融事件是认可的。
舆情数据B:我对M公司的发展非常失望,但是对M公司的N金融事件表示肯定。
如果不调整舆情数据A和舆情数据B的空间向量,那么两个舆情数据的空间向量可能是较为接近的,因此,很容易将两个舆情数据整合为一个聚合数据。但如果调整舆情数据A和舆情数据B的空间向量,提高事件态度的向量值,那么,可以提高舆情数据A和舆情数据B的空间向量之间的距离,进而有利于区分针对同一事件表明不同态度的舆情数据。
S203:接收用户端发送的查询请求,结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,其中,所述舆情聚合池是用于保存所述基本数据的数据库。
为将分散存在的相应于所述查询请求的基本数据,整合成能够在用户端上以分页形式展示的结构化数据,本步骤通过结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据的方式,得到结构化的,且便于用户端后续翻页的结果集。
在一个优选的实施例中,所述调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,包括:
S31:提取所述查询请求中的查询关键字,在所述舆情聚合池中识别包括所述查询关键字的基本数据,并将识别出的所述基本数据设为待查询数据;
本步骤中,采用“VLOOKUP”函数作为用于识别所述舆情聚合池中具有查询关键字的基本数据的计算机函数。
S32:对所述待查询数据进行结果集处理得到结果集,其中,所述结果集是记载有至少一个所述待查询数据的表格。
本步骤中,所述结果集处理是指将所述基本数据进行结构化调整,用以将至少一个基本数据整合到同一制式的表格中的过程;所述结果集处理所生成的结果集是对象包含符合SQL语句中条件的所有行集合,所述行即为所述基本数据。
S204:将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格;以及
判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;若所述数据量超过所述性能阈值,结果集则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征。
为确保用户端能够及时根据其查询请求获得其所需的展示数据,本步骤通过将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端的方式,使得用户端能够快速获取记载有其所需展示数据的展示页面;避免了当前需要对结果集完全进行分页之后,再将首页信息发送至所述用户端,导致用户端获取展示页面作业的响应时间过长,造成展示页面生成及获取效率低下,影响用户体验的问题。
如果结果集中的待查询数据量过大,采用传统的“from+size”的方法对所述结果集进行翻页,会导致搜索服务器运行时间过长,造成用户端获取跳转页面操作的响应时间过长,而获取效率低下,影响用户体验的问题。本步骤通过针对数据量超过所述性能阈值的结果集,在向用户端发送首页信息的同时,异步将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组的方式,使得用户端在浏览首页信息时,对结果集进行划分并标注以舆情数组,以便于后续根据跳页请求快速根据舆情数组获取舆情集合,并从该舆情集合中获取相应的展示数据,并且有效的利用了用户端浏览首页信息时的时间,不仅避免了对结果集进行大范围轮询的情况发生,极大的缩短了获取跳转页面操作的响应时长,提高了获取效率,还消除了用户端对结果集进行划分时所产生的算力消耗的感知,提高了用户体验。
其中,所述属性信息可为类型、或地址、或生成时间,于本实施例中,将所述属性信息设为所述生成时间,以所述基本数据的生成时间作为所述基本数据的属性信息,根据所述舆情聚合池中基本数据的生成时间,将所述舆情聚合池中生成时间一致的基本数据划分成至少一个舆情集合。
在一个优选的实施例中,所述将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,包括:
S41:提取所述结果集中各待查询数据的时间戳,根据所述时间戳对所述待查询数据进行升序或降序排列得到舆情序列集合,其中,所述时间戳表征了所述待查询数据的生成时间;
S42:按照预置的时间粒度,将所述舆情序列集合划分成至少一个舆情集合,其中,所述舆情集合由至少一个待查询数据组成;
S43:将所述至少一个舆情集合中的任一舆情集合作为目标集合,及对所述至少一个舆情集合中,位于所述目标集合之前的各舆情集合的待查询数据的数量进行求和得到前向数量;
S44:对所述前向数量和所述目标集合中待查询数据的数量进行求和得到截止数量,将所述截止数量设为所述目标集合的基本位次;
S45:整合所述目标集合在所述至少一个舆情集合中的位次,以及所述目标集合的基本位次,得到所述目标集合的舆情数组。
结果集示例性地,获取的结果集的时间戳:10月1日-10月15日,假设时间粒度为“日”,将“10月1日”-“10月15日”的基本数据分别汇总成舆情集合。
假设:“10月1日”的舆情集合具有“1.2万”个基本数据,该舆情集合的舆情数组为:data【0】=1.2万,该1.2为本舆情集合的截止数量;
“10月2日”的舆情集合具有“1.8万”个基本数据,该舆情集合的舆情数组为:data【1】=3万,该3万为本舆情集合的截止数量;
“10月3日”的舆情集合具有“2万”个基本数据,该舆情集合的舆情数组为:data【2】=5万,该5万为本舆情集合的截止数量,依次类推直至“10月15日”。
进一步地,所述得到所述目标集合的舆情数组之后,所述方法还包括:
S46:按照预置的深度时间粒度,将舆情集合中的基本数据划分成至少一个依次排列的舆情子集合,其中,所述舆情子集合由至少一个基本数据组成;
S47:将所述至少一个依次排列的舆情子集合中的任一舆情子集合作为目标子集合;
S48:对所述至少一个依次排列的舆情子集合中,位于所述目标子集合之前的各舆情子集合的基本数据的数量进行求和得到前向数量;
S49:对所述前向数量和所述目标子集合中基本数据的数量进行求和得到截止数量;整合所述目标子集合在所述至少一个依次排列的舆情子集合中的位次,以及所述目标子集合的截止数量,得到所述目标子集合的舆情子数组。
示例性地,获取“10月1日”的舆情集合的时间戳:“0时-23时”假设时间粒度为“时”,将“0时-23时”的基本数据分别汇总成舆情子集合。
假设:“0时”的舆情子集合具有“1000”个基本数据,该舆情子集合的舆情子数组为:hour【0】=1000,该1000为本舆情子集合的截止数量;
“1时”的舆情子集合具有“2000”个基本数据,该舆情子集合的舆情子数组为:hour【1】=3000,该3000为本舆情子集合的截止数量;
“2时”的舆情子集合具有“3000”个基本数据,该舆情子集合的舆情子数组为:hour【2】=6000,该6000为本舆情子集合的截止数量,依次类推直至“23时”。
于所述图3中,所述S204通过以下标注展示:
S204-1:将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格;
S204-2:判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;
S204-3:若所述数据量超过所述性能阈值,结果集则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征。
S205:提取所述查询请求中的查询关键字,及获取所述用户端的用户身份信息,汇总所述查询关键字、所述用户身份信息、以及所述汇总成至少一个舆情集合的结果集形成缓存信息,将所述缓存信息保存至预置的缓存模块中。
为降低用户端在后续再次根据查询关键字获取相应结果集的响应时长,以提高用户端再次获取所述结果集的速度,本步骤通过提取所述查询请求中的查询关键字,及获取所述用户端的用户身份信息,汇总所述查询关键字、所述用户身份信息、以及所述汇总成至少一个舆情集合的结果集形成缓存信息的方式,将查询关键字和用户身份信息作为所述结果集的属性标注,再将所述缓存信息保存至所述缓存模块中,以便于用户端后续再次根据曾经搜索的查询关键字查询待查询数据时,能够直接从所述缓存模块中获取缓存信息,而无需重新从舆情聚合池中再次获取基本数据并整合成结果集,因此提高了用户端获取待查询数据的效率。
优选的,所述将所述缓存信息保存至预置的缓存模块中之后,所述方法还包括:
将所述缓存信息上传至区块链中。
需要说明的是,基于缓存信息得到对应的摘要信息,具体来说,摘要信息由缓存信息进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证缓存信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
S206:接收所述用户端发送的跳页请求;
将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或
识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据。
本步骤中,通过将所述结果集中相应于所述跳页请求的待查询数据作为展示数据的方式,获取数据量未超过性能阈值的结果集中的待查询数据,使得数据量不大的结果集不会调用额外的算力对其进行划分,避免了算力过大消耗。
通过识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据的方式,获取数据量超过性能阈值的结果集中的待查询数据,因此,只需从某一舆情集合中获取所述待查询数据,而无需遍历整个结果集,提高了展示数据的获取效率。
在一个优选的实施例中,所述将所述结果集中相应于所述跳页请求的待查询数据作为展示数据,包括:
S61:提取所述简单查询请求中的偏移值参数和返回数据参数;
S62:将所述结果集中相应于所述偏移值参数的待查询数据设为起点数据,及在所述结果集中从所述起点数据开始,将相应于所述返回数据参数数量的待查询数据设为邻接数据;
S63:将所述起点数据和所述邻接数据作为所述展示数据。
示例性地,采用Elasticsearch作为所述搜索服务器,并调用所述搜索服务器中“from size”搜索组件,其中,将偏移值参数作为from的参数值,将返回数据参数作为size的参数值。其中,Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。
在一个优选的实施例中,所述识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据,包括:
S64:根据所述深度查询请求识别所述用户端当前展示页面中位于末位的展示数据,及提取所述深度查询请求中的目标位次,识别所述展示数据在所述结果集中的展示位次,及识别相应于所述目标位次的待查询数据在所述结果集中的目标位次;
S65:将所述目标位次与所述展示位次相减得到数据跳转数量,根据所述数据跳转数量和所述分页阈值得到页面跳转数量,其中,所述页面跳转数量反映了从所述展示位次跳转到所述目标位次的页面跨度数量;
S66:判断所述页面跳转数量是否超过预置的跳转阈值;
S67:若所述页面跳转数量未超过所述跳转阈值,则识别所述用户端当前的展示页面中位于末位的展示数据,并将所述位于末位的展示数据在所述结果集中下一位次的待查询数据作为起点数据,在所述结果集中自所述起点数据开始,获取相应于所述数据跳转数量的待查询数据并汇总得到跳转集合,将所述跳转集合中后N位的待查询数据作为所述展示数据。
于本步骤中,若所述数据跳转数量为正值,则从所述起点数据开始向后获取待查询数据;若所述数据跳转数量为负值,则从所述起点数据开始向前获取待查询数据。
示例性地,假设展示位次为第5000个待查询数据,目标位次为第15000个待查询数据,采用Elasticsearch作为所述搜索服务器,并调用所述搜索服务器中“search after”搜索组件,用以从所述起点数据开始(例如,当前起点数据为结果集中的第5000个待查询数据),获取相应于数据跳转数量(例如:10000个待查询数据),得到第5001个-第15000个的待查询数据的跳转集合,假设N为10,那么,将第14991个-第15000个待查询数据作为所述展示数据。其中,Elasticsearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。
S68:若所述页面跳转数量超过所述跳转阈值,则在所述结果集中识别截止数量与所述目标位次前后相邻的两个舆情数组,以所述目标位次与所述相邻的两个舆情数组中前一舆情数组的截止数量的差值作为初始值,根据所述初始值从与所述相邻的两个舆情数组中后一舆情数组对应的舆情集合中获取的待查询数据,并将获取的待查询数据中前N位的待查询数据作为所述展示数据。
示例性地,假设展示位次为第5000个待查询数据,目标位次为第10万个待查询数据,识别到相邻的两个舆情数组data【10】=9万个,以及data【11】=11万个,那么,将目标位次10万与舆情数组data【10】=9万个的截止数量“9万”相减,得到初始值1万;采用Elasticsearch作为所述搜索服务器,并调用所述搜索服务器中“from size”搜索组件,以初始值1万作为from的参数,将N=10作为size的参数,那么,将第10万个-第100010个待查询数据作为所述展示数据。
具体地,所述以所述目标位次与所述相邻的两个舆情数组中前一舆情数组的截止数量的差值作为初始值,根据所述初始值从与所述相邻的两个舆情数组中前一舆情数组对应的舆情集合中获取的待查询数据,并将所述获取的待查询数据作为展示数据,包括:
S681:将所述相邻的两个舆情数组中前一舆情数组的舆情集合设为起始集合,及将后一舆情数组的舆情集合设为终止集合;
S682:计算所述目标位次与所述起始集合的截止数量之间的差值得到初始值,以所述终止集合中相应于所述初始值的待查询数据为起点,提取从所述起点到所述终止集合中位于末位的待查询数据,并汇总形成待查询集合;
S683:判断所述待查询集合中的待查询数据的数量是否超过所述跳转阈值;
S684:若是,则从所述待查询子集合中获取所述目标位次相邻的两个舆情子数组,并将相应于所述两个舆情子数组中前一舆情子数组的舆情子集合设为起始子集合,及将相应于所述两个舆情子数组中后一舆情子数组的舆情子集合设为终止子集合;
S685:计算所述目标位次与所述起始子集合的截止数量之间的差值得到初始值,以所述终止子集合中相应于所述初始值的待查询数据为起点,提取从所述起点到所述终止子集合中位于末位的待查询数据并汇总形成待查询子集合,将所述待查询子集合中的待查询数据作为展示数据。
S686:若否,则以所述待查询集合中位于首位的待查询数据为起点,从所述待查询集合中获取将相应于所述分页阈值的待查询数据,并将从所述待查询子集合中获取的待查询数据作为展示数据。
于所述图3中,所述S206通过以下标注展示:
S206-1:接收所述用户端发送的跳页请求;将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;
S206-2:接收所述用户端发送的跳页请求;识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据。
S207:将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面。
为确保展示数据能够有序可靠的在用户端上展示,本步骤通过将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面,确保展示数据展示的可靠性。于本实施例中,所述页面模板可为html5模板、或css3模板、或bootstrap模板、或html模板、或css模板、或ecshop模板。
S208:接收用户端发送的查询请求,判断所述缓存模块中是否具有相应于所述用户端的用户身份信息,及所述查询请求中查询关键字的缓存信息;
若是,将所述缓存信息中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面;
若否,则执行所述S203,用以结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,其中,所述舆情聚合池是用于保存所述基本数据的数据库。
本步骤中,通过根据所述查询请求,以及所述用户端的用户身份信息,识别缓存信息的方式,缩短了获取展示页面的响应时长,以实现最快效率的向用户端反馈结果集的技术效果。
于所述图3中,所述S208采用以下标注展示:
S208-1:接收用户端发送的查询请求;
S208-2:判断所述缓存模块中是否具有相应于所述用户端的用户身份信息,及所述查询请求中查询关键字的缓存信息;
S208-3:若是,将所述缓存信息中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面;
S208-4:若否,则执行所述S203,用以结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,其中,所述舆情聚合池是用于保存所述基本数据的数据库。
实施例三:
请参阅图4,本实施例的一种应用在大数据的数据分页查询装置1,包括:
结果查询模块13,用于接收用户端发送的查询请求,结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,其中,所述舆情聚合池是用于保存所述基本数据的数据库;
展示分析模块14,用于将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格;以及
判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;若所述数据量超过所述性能阈值,结果集则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征;
跳页识别模块16,用于接收所述用户端发送的跳页请求;将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据;
跳页展示模块17,用于将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面。
可选的,所述数据分页查询装置1还包括:
数据整合模块11,用于获取多个舆情数据,将所述多个舆情数据录入预置的数据库中,使所述数据库转为数据池。
数据聚合模块12,用于将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,将具有舆情数据和/或聚合数据的数据池转为舆情聚合池,并将所述舆情数据和/或聚合数据作为所述舆情聚合池的基本数据。
可选的,所述数据聚合模块12还包括:
时间划分单元121,用于根据预置的舆情时间段,将所述数据池中的舆情数据划分为至少一个时间段集合。
向量构建单元122,用于提取所述时间段集合中舆情数据的信息要素,对所述信息要素进行向量运算得到所述舆情数据的空间向量,其中,所述信息要素包括描述事件的词汇、和/或表征对所述时间的态度和/或观点的词汇。
向量聚合单元123,用于调整所述空间向量中相应于描述事件词汇的信息要素的向量值,得到所述舆情数据的事件向量,识别距离小于预置的相似阈值的两个或两个以上的事件向量,并汇总所述两个或两个以上的事件向量形成所述聚合数据。
可选的,所述结果查询模块13还包括:
数据查询单元131,用于提取所述查询请求中的查询关键字,在所述舆情聚合池中识别包括所述查询关键字的基本数据,并将识别出的所述基本数据设为待查询数据;
结果集处理单元132,用于对所述待查询数据进行结果集处理得到结果集,其中,所述结果集是记载有至少一个所述待查询数据的表格。
可选的,所述展示分析模块14还包括:
数据排列单元141,用于提取所述结果集中各基本数据的时间戳,所述时间戳对所述基本数据进行升序或降序排列得到舆情序列集合,其中,所述时间戳表征了所述基本数据的生成时间;
粒度划分单元142,用于按照预置的时间粒度,将所述舆情序列集合划分成至少一个舆情集合,其中,所述舆情集合由至少一个待查询数据组成;
目标识别单元143,用于将所述至少一个舆情集合中的任一舆情集合作为目标集合,及对所述至少一个舆情集合中,位于所述目标集合之前的各舆情集合的基本数据的数量进行求和得到前向数量;
数量计算单元144,用于对所述前向数量和所述目标集合中基本数据的数量进行求和得到截止数量;
数值整合单元145,用于整合所述目标集合在所述至少一个舆情集合中的位次,以及所述目标集合的截止数量,得到所述目标集合的舆情数组。
可选的,所述数据分页查询装置1还包括:
信息缓存模块15,用于提取所述查询请求中的查询关键字,及获取所述用户端的用户身份信息,汇总所述查询关键字、所述用户身份信息、以及所述汇总成至少一个舆情集合的结果集形成缓存信息,将所述缓存信息保存至预置的缓存模块中。
可选的,所述跳页识别模块16还包括:
参数提取单元161,用于提取所述简单查询请求中的偏移值参数和返回数据参数;
数据提取单元162,用于将所述结果集中相应于所述偏移值参数的待查询数据设为起点数据,及在所述结果集中从所述起点数据开始,将相应于所述返回数据参数数量的待查询数据设为邻接数据;
数据展示单元163,用于将所述起点数据和所述邻接数据作为所述展示数据;
位次识别单元164,用于根据所述深度查询请求识别所述用户端当前展示页面中位于末位的展示数据,及提取所述深度查询请求中的目标位次,识别所述展示数据在所述结果集中的展示位次,及识别相应于所述目标位次的待查询数据在所述结果集中的目标位次;
页面计算单元165,用于将所述目标位次与所述展示位次相减得到数据跳转数量,根据所述数据跳转数量和所述分页阈值得到页面跳转数量,其中,所述页面跳转数量反映了从所述展示位次跳转到所述目标位次的页面跨度数量;
阈值判断单元166,用于判断所述页面跳转数量是否超过预置的跳转阈值;
第一展示单元167,用于在所述页面跳转数量未超过所述跳转阈值时,识别所述用户端当前的展示页面中位于末位的展示数据,并将所述位于末位的展示数据在所述结果集中下一位次的待查询数据作为起点数据,在所述结果集中自所述起点数据开始,获取相应于所述数据跳转数量的待查询数据并汇总得到跳转集合,将所述跳转集合中后N位的待查询数据作为所述展示数据;
第二展示单元168,用于在所述页面跳转数量超过所述跳转阈值时,在所述结果集中识别截止数量与所述目标位次前后相邻的两个舆情数组,以所述目标位次与所述相邻的两个舆情数组中前一舆情数组的截止数量的差值作为初始值,根据所述初始值从与所述相邻的两个舆情数组中后一舆情数组对应的舆情集合中获取的待查询数据,并将获取的待查询数据中前N位的待查询数据作为所述展示数据。
可选的,所述数据分页查询装置1还包括:
页面展示模块18,用于接收用户端发送的查询请求,判断所述缓存模块中是否具有相应于所述用户端的用户身份信息,及所述查询请求中查询关键字的缓存信息;
若是,将所述缓存信息中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面;
若否,则调用结果查询模块13,用以结果集调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,其中,所述舆情聚合池是用于保存所述基本数据的数据库。
本技术方案应用于大数据的数据处理领域,通过将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据,以实现采用树表查询的方式对海量数据的查询。
实施例四:
为实现上述目的,本发明还提供一种计算机设备5,实施例三的数据分页查询装置的组成部分可分散于不同的计算机设备中,计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例三的数据分页查询装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行数据分页查询装置,以实现实施例一和实施例二的数据分页查询方法。
实施例五:
为实现上述目的,本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储实现所述数据分页查询方法的计算机程序,被处理器52执行时实现实施例一和实施例二的数据分页查询方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种应用在大数据的数据分页查询方法,其特征在于,包括:
接收用户端发送的查询请求,调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据;
将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值结果集;以及
判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;若所述数据量超过所述性能阈值,则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征;
接收所述用户端发送的跳页请求;
将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或
识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据;
将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面。
2.根据权利要求1所述的数据分页查询方法,其特征在于,所述接收用户端发送的查询请求之前,所述方法还包括:
获取多个舆情数据,将所述多个舆情数据录入预置的数据库中,使所述数据库转为数据池;
将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,将具有舆情数据和/或聚合数据的数据池转为舆情聚合池,并将所述舆情数据和/或聚合数据作为所述舆情聚合池的基本数据。
3.根据权利要求2所述的数据分页查询方法,其特征在于,所述将所述数据池中相似的两个或两个以上舆情数据整合成一个聚合数据,包括:
根据预置的舆情时间段,将所述数据池中的舆情数据划分为至少一个时间段集合;
提取所述时间段集合中舆情数据的信息要素,对所述信息要素进行向量运算得到所述舆情数据的空间向量,其中,所述信息要素包括描述事件的词汇、和/或表征对所述时间的态度和/或观点的词汇;
识别距离小于预置的相似阈值的两个或两个以上的空间向量,并汇总相应于所述两个或两个以上的空间向量的舆情数据形成所述聚合数据。
4.根据权利要求1所述的数据分页查询方法,其特征在于,所述调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据,包括:
提取所述查询请求中的查询关键字,在所述舆情聚合池中识别包括所述查询关键字的基本数据,并将识别出的所述基本数据设为待查询数据;
对所述待查询数据进行结果集处理得到结果集,其中,所述结果集是记载有至少一个所述待查询数据的表格。
5.根据权利要求1所述的数据分页查询方法,其特征在于,所述将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,包括:
提取所述结果集中各待查询数据的时间戳,根据所述时间戳对所述待查询数据进行升序或降序排列得到舆情序列集合,其中,所述时间戳表征了所述待查询数据的生成时间;
按照预置的时间粒度,将所述舆情序列集合划分成至少一个舆情集合,其中,所述舆情集合由至少一个待查询数据组成;
将所述至少一个舆情集合中的任一舆情集合作为目标集合,及对所述至少一个舆情集合中,位于所述目标集合之前的各舆情集合的待查询数据的数量进行求和得到前向数量;
对所述前向数量和所述目标集合中待查询数据的数量进行求和得到截止数量,将所述截止数量设为所述目标集合的基本位次;
整合所述目标集合在所述至少一个舆情集合中的位次,以及所述目标集合的基本位次,得到所述目标集合的舆情数组。
6.根据权利要求1所述的数据分页查询方法,其特征在于,所述接收所述用户端发送的跳页请求之前,所述方法还包括:
提取所述查询请求中的查询关键字,及获取所述用户端的用户身份信息,汇总所述查询关键字、所述用户身份信息、以及所述汇总成至少一个舆情集合的结果集形成缓存信息,将所述缓存信息保存至预置的缓存模块中;
所述将所述缓存信息保存至预置的缓存模块中之后,所述方法还包括:
将所述缓存信息上传至区块链中。
7.根据权利要求1所述的数据分页查询方法,其特征在于,所述识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据,包括:
根据所述深度查询请求识别所述用户端当前展示页面中位于末位的展示数据,及提取所述深度查询请求中的目标位次,识别所述展示数据在所述结果集中的展示位次,及识别相应于所述目标位次的待查询数据在所述结果集中的目标位次;
将所述目标位次与所述展示位次相减得到数据跳转数量,根据所述数据跳转数量和所述分页阈值得到页面跳转数量,其中,所述页面跳转数量反映了从所述展示位次跳转到所述目标位次的页面跨度数量;
判断所述页面跳转数量是否超过预置的跳转阈值;
若所述页面跳转数量未超过所述跳转阈值,则识别所述用户端当前的展示页面中位于末位的展示数据,并将所述位于末位的展示数据在所述结果集中下一位次的待查询数据作为起点数据,在所述结果集中自所述起点数据开始,获取相应于所述数据跳转数量的待查询数据并汇总得到跳转集合,将所述跳转集合中后N位的待查询数据作为所述展示数据;
若所述页面跳转数量超过所述跳转阈值,则在所述结果集中识别截止数量与所述目标位次前后相邻的两个舆情数组,以所述目标位次与所述相邻的两个舆情数组中前一舆情数组的截止数量的差值作为初始值,根据所述初始值从与所述相邻的两个舆情数组中后一舆情数组对应的舆情集合中获取的待查询数据,并将获取的待查询数据中前N位的待查询数据作为所述展示数据。
8.一种应用在大数据的数据分页查询装置,其特征在于,包括:
结果查询模块,用于接收用户端发送的查询请求,并调用保存有至少一个基本数据的舆情聚合池,将所述舆情聚合池中相应于所述查询请求的基本数据整合成结果集,使所述结果集中的基本数据转为待查询数据;
结果集展示分析模块,用于将所述结果集中前N位的待查询数据录入预置的页面模板形成首页信息,将所述首页信息发送至所述用户端以作为所述用户端的展示页面,其中,所述N为预置的分页阈值,所述结果集是记载有至少一个所述待查询数据的表格;以及
判断所述结果集中待查询数据的数据量是否超过预置的性能阈值;若所述数据量超过所述性能阈值,结果集则将所述结果集中属性信息一致的至少一个待查询数据汇总成一个舆情集合,及结果集识别所述舆情集合中位于末位的待查询数据在所述结果集中所在的基本位次,并根据所述基本位次生成所述舆情集合的舆情数组,其中,所述属性信息表征了所述待查询数据在某一维度上的特征;
跳页识别模块,用于接收所述用户端发送的跳页请求;将所述结果集中相应于所述跳页请求的待查询数据作为展示数据;或识别相应于所述跳页请求的舆情数组,并获取与所述舆情数组对应的舆情集合,将所述舆情集合中相应于所述跳页请求的待查询数据作为展示数据;
跳页展示模块,用于将所述展示数据录入所述页面模板得到跳转页面,将所述跳转页面发送至所述用户端,以作为所述用户端的展示页面。
9.一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述数据分页查询方法的步骤。
10.一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,其特征在于,所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述数据分页查询方法的步骤。
CN202210372802.XA 2022-04-11 2022-04-11 数据分页查询方法、装置、计算机设备及可读存储介质 Active CN114661770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210372802.XA CN114661770B (zh) 2022-04-11 2022-04-11 数据分页查询方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210372802.XA CN114661770B (zh) 2022-04-11 2022-04-11 数据分页查询方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114661770A true CN114661770A (zh) 2022-06-24
CN114661770B CN114661770B (zh) 2024-09-24

Family

ID=82035074

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210372802.XA Active CN114661770B (zh) 2022-04-11 2022-04-11 数据分页查询方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114661770B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492148A (zh) * 2018-11-22 2019-03-19 北京明朝万达科技股份有限公司 基于Redis的ElasticSearch分页查询方法和设备
CN110399389A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 数据分页查询方法、装置、设备及存储介质
CN111680063A (zh) * 2020-05-25 2020-09-18 泰康保险集团股份有限公司 Elasticsearch分页查询数据的方法及装置
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN113468217A (zh) * 2021-06-29 2021-10-01 平安养老保险股份有限公司 数据查询管理方法、装置、计算机设备及可读存储介质
CN113946725A (zh) * 2021-12-20 2022-01-18 飞狐信息技术(天津)有限公司 分页查询方法及装置、存储介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492148A (zh) * 2018-11-22 2019-03-19 北京明朝万达科技股份有限公司 基于Redis的ElasticSearch分页查询方法和设备
CN110399389A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 数据分页查询方法、装置、设备及存储介质
CN111680063A (zh) * 2020-05-25 2020-09-18 泰康保险集团股份有限公司 Elasticsearch分页查询数据的方法及装置
CN112395539A (zh) * 2020-11-26 2021-02-23 格美安(北京)信息技术有限公司 一种基于自然语言处理的舆情风险监测方法及系统
CN113468217A (zh) * 2021-06-29 2021-10-01 平安养老保险股份有限公司 数据查询管理方法、装置、计算机设备及可读存储介质
CN113946725A (zh) * 2021-12-20 2022-01-18 飞狐信息技术(天津)有限公司 分页查询方法及装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN114661770B (zh) 2024-09-24

Similar Documents

Publication Publication Date Title
CN108304444B (zh) 信息查询方法及装置
US10565208B2 (en) Analyzing multiple data streams as a single data object
CN106326361B (zh) 一种基于HBase数据库的数据查询方法及装置
US9094478B2 (en) Prereading method and system for web browser
CN102054003B (zh) 网络信息推荐、建立网络资源索引的方法及系统
CN107103032B (zh) 一种分布式环境下避免全局排序的海量数据分页查询方法
US20090198676A1 (en) Indexing Documents for Information Retrieval
US20140278939A1 (en) Advertisement extraction device and advertisement extraction method
CN102171689A (zh) 响应于搜索查询提供针对讨论话题的帖子
CN111666490A (zh) 基于kafka的信息推送方法、装置、设备及存储介质
CN104182506A (zh) 日志管理方法
CN113010542B (zh) 业务数据处理方法、装置、计算机设备及存储介质
CN111309677A (zh) 一种分布式文件系统的文件管理方法及装置
CN110737432A (zh) 一种基于词根表的脚本辅助设计方法及装置
CN111339566B (zh) 区块摘要方法、装置、计算机设备和存储介质
CN112000866B (zh) 互联网数据分析方法、装置、电子装置及介质
CN110955855A (zh) 一种信息拦截的方法、装置及终端
CN105824951A (zh) 检索方法和装置
WO2009078887A1 (en) System and method for categorizing answers such as urls
US20110264639A1 (en) Learning diverse rankings over document collections
US20110137886A1 (en) Data-Centric Search Engine Architecture
Hurst et al. Social streams blog crawler
CN114661770B (zh) 数据分页查询方法、装置、计算机设备及可读存储介质
CN107977381B (zh) 数据配置方法、索引管理方法、相关装置以及计算设备
CN103902687A (zh) 一种搜索结果的生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant