CN113688157B - 一种基于中间表的数据抽取的系统和方法 - Google Patents

一种基于中间表的数据抽取的系统和方法 Download PDF

Info

Publication number
CN113688157B
CN113688157B CN202111000509.2A CN202111000509A CN113688157B CN 113688157 B CN113688157 B CN 113688157B CN 202111000509 A CN202111000509 A CN 202111000509A CN 113688157 B CN113688157 B CN 113688157B
Authority
CN
China
Prior art keywords
data
management server
extraction
client
intermediate table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111000509.2A
Other languages
English (en)
Other versions
CN113688157A (zh
Inventor
王佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdun Innovative Digital Technology Beijing Co ltd
Original Assignee
Zhongdun Innovative Digital Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongdun Innovative Digital Technology Beijing Co ltd filed Critical Zhongdun Innovative Digital Technology Beijing Co ltd
Priority to CN202111000509.2A priority Critical patent/CN113688157B/zh
Publication of CN113688157A publication Critical patent/CN113688157A/zh
Application granted granted Critical
Publication of CN113688157B publication Critical patent/CN113688157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于中间表的数据抽取的系统和方法,该系统通过预先建立中间表,在需要执行数据抽取时,用户从客户端通过修改中间表,将该中间件的配置参数发送至管理服务器,理服务器通过配置参数对中间表进行配置生成批处理执行脚本,并通过运行对应的执行脚本,根据个性化设置后的执行脚本,从分布式系统抽取所需要的数据,有效提高了数据抽取效率。

Description

一种基于中间表的数据抽取的系统和方法
技术领域:
本发明属于数据抽取的系统和方法,尤其涉及一种基于中间表的数据抽取的系统和方法。
背景技术:
数据仓库中的数据根据需求可分为日粒度数据、月粒度数据、年粒度数据,这些数据的基础来源都是详细数据,需要每天通过对核心业务系统获取增量数据后加载到数据仓库中。如果不通过增量数据加载就需要每天加载全量数据,在数据量越来越大的情况下,每天都加载全量数据的做法是不可取的。
目前,大型的数据仓库技术中的数据加载都是每天对增量数据进行加载。做好增量数据加载才能保证整个数据的完整性。每天一次增量数据,这些增量数据的合集就是全量。
做好增量数据抽取才能保证系统数据抽取的及时性和高效率性。如果不能保证增量的准确性和效率,那么系统的数据就不完整,而最终导致呈现给分析人员和决策人员的数据是不可靠的,错误的数据造成对市场的分析决策错误,给企业带来的损失不可估量。如何改进分布式系统从生产系统抽取数据的过程,提高数据抽取准确性和效率是本领域当前需要解决的技术问题之一。
发明内容
针对目前现有的数据抽取效率慢,不稳定,本发明提供通过预先建立中间表,在需要执行数据抽取时,用户从客户端通过修改中间表,将该中间件的配置参数发送至管理服务器,理服务器通过配置参数对中间表进行配置生成批处理执行脚本,并通过运行对应的执行脚本,根据个性化设置后的执行脚本,从分布式系统抽取所需要的数据。
将数据抽取转化为中间表抽取的方式,针对生产系统中新增数据表,无需重新开发特定数据抽取脚本,通过对中间表进行修改即可实现,提升了分布式存储系统对数据的抽取效率,减少了分布式存储系统的数据维护压力,同时,周期性通过触发器和时间戳的方式获取待选增量数据集,为后续数据抽取减少压力,为分析人员提供了可靠支持。
本发明为解决以上技术问题所采取的技术方案是:
基于中间表的数据抽取的系统,该系统包括通过网络连接的客户端,管理服务器,分布式数据库;
所述客户端用于获取用户对中间表设置界面的数据抽取条件后向管理服务器发送数据抽取命令;
所述管理服务器根据抽取指令以及中间表配置参数生成批处理任务执行脚本,根据批处理任务执行脚本从分布式数据库中获取数据后,将所述获取数据按照预设规则排序后存储至客户端并显示。
进一步地,在中间表设置界面设置数据抽取条件以及关联的数据库。
进一步地,所述数据抽取条件包括选择所需参数以及设置所述参数的权重值;所述设置参数包括:数据生成时间,数据访问热度,数据下载热度,数据库名,排序方式。
进一步地,分布式数据库中的数据表中设置有触发器,根据所述触发器获得数据增量日志汇总到日志表中,所述管理服务器会给每一条日志加时间戳;所述管理服务器周期性地会通过时间戳获取分布式数据库的多个增量数据数据集合;所述管理服务器在接受到数据抽取指令后,根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据。
进一步地,所述预设规则排序具体为:根据数据质量分数、数据修改时间和数据大小进行排序,所述数据质量分数计算公式为:S=w1·P+w2·Q,其中w1+w2=1,P为下载热度,Q为访问热度,w1和w2为权重。
进一步地,所述根据数据质量分数、数据修改时间和数据大小进行排序具体为:
客户端获取返回的抽取增量数据后,根据数据质量分数阈值进行过滤,将大于所述阈值的增量数据按照数据大小或时间排序显示。
一种基于中间表的数据抽取的方法,该方法包括以下步骤:步骤S1,客户端获取用户对中间表界面的参数设置,所述设置参数包括:数据生成时间,数据访问热度,数据下载热度,数据库名,权重值;
步骤S2,所述客户端向管理服务器发送数据抽取指令;
步骤S3,所述管理服务器根据所述抽取指令以及所述中间表配置参数生成批处理任务执行脚本,
步骤S4,所述管理管理服务器根据所述批处理任务执行脚本从分布式数据库中获取数据;
步骤S5,所述管理管理服务器将从所述分布式数据库中获取的数据按照预设规则排序后存储至所述客户端并按照预设显示规则显示。
进一步地,分布式数据库中的数据表中设置有触发器,根据所述触发器获得数据增量日志汇总到日志表中,所述管理服务器会给每一条日志加时间戳;所述管理服务器周期性地会通过时间戳获取分布式数据库的多个增量数据数据集合;所述管理服务器在接受到数据抽取指令后,根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据,其中所述增量数据数据集合的生命周期为7天。
进一步地,所述预设显示规则具体为:根据数据质量分数、数据修改时间和数据大小进行排序,所述数据质量分数计算公式为:S=w1·P+w2·Q,其中w1+w2=1,P为下载热度,Q为访问热度,w1和w2为权重。
本发明的有益效果如下:
将数据抽取转化为中间表抽取的方式,针对生产系统中新增数据表,无需重新开发特定数据抽取脚本,通过对中间表进行修改即可实现,提升了分布式存储系统对数据的抽取效率,减少了分布式存储系统的数据维护压力,同时,周期性通过触发器和时间戳的方式获取待选增量数据集,为后续数据抽取减少压力,为分析人员提供了可靠支持。
上述说明,仅是本发明技术方案的概述,为了能够更清楚了解本发明技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述说明和其它目的、特征及优点能够更明显易懂,特举较佳实施例,详细说明如下。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明的基于中间件抽取系统的结构图
图2为本发明的增量数据数据集合示意图
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
基于中间表的数据抽取的系统,该系统包括通过网络连接的客户端,管理服务器,分布式数据库;
所述客户端用于获取用户对中间表设置界面的数据抽取条件后向管理服务器发送数据抽取命令;
所述管理服务器根据抽取指令以及中间表配置参数生成批处理任务执行脚本,根据批处理任务执行脚本从分布式数据库中获取数据后,将所述获取数据按照预设规则排序后存储至客户端并显示。
进一步地,在中间表设置界面设置数据抽取条件以及关联的数据库。
进一步地,所述数据抽取条件包括选择所需参数以及设置所述参数的权重值;所述设置参数包括:数据生成时间,数据访问热度,数据下载热度,数据库名,排序方式。
进一步地,分布式数据库中的数据表中设置有触发器,根据所述触发器获得数据增量日志汇总到日志表中,所述管理服务器会给每一条日志加时间戳;所述管理服务器周期性地会通过时间戳获取分布式数据库的增量数据数据集合;所述管理服务器在接受到数据抽取指令后,根据所述批处理任务执行脚本从所述增量数据数据集合抽取所需数据。
进一步地,所述预设规则排序具体为:根据数据质量分数、数据修改时间和数据大小进行排序,所述数据质量分数计算公式为:S=w1·P+w2·Q,其中w1+w2=1,P为下载热度,Q为访问热度,w1和w2为权重。
进一步地,所述根据数据质量分数、数据修改时间和数据大小进行排序具体为:
客户端获取返回的抽取增量数据后,根据数据质量分数阈值进行过滤,将大于所述阈值的增量数据按照数据大小或时间排序显示。
一种基于中间表的数据抽取的方法,该方法包括以下步骤:步骤S1,客户端获取用户对中间表界面的参数设置,所述设置参数包括:数据生成时间,数据访问热度,数据下载热度,数据库名,权重值;
步骤S2,所述客户端向管理服务器发送数据抽取指令;
步骤S3,所述管理服务器根据所述抽取指令以及所述中间表配置参数生成批处理任务执行脚本,
步骤S4,所述管理管理服务器根据所述批处理任务执行脚本从分布式数据库中获取数据;
步骤S5,所述管理管理服务器将从所述分布式数据库中获取的数据按照预设规则排序后存储至所述客户端并按照预设显示规则显示。
进一步地,分布式数据库中的数据表中设置有触发器,根据所述触发器获得数据增量日志汇总到日志表中,所述管理服务器会给每一条日志加时间戳;所述管理服务器周期性地会通过时间戳获取分布式数据库的增量数据数据集合;所述管理服务器在接受到数据抽取指令后,根据所述批处理任务执行脚本从所述增量数据数据集合抽取所需数据,其中所述增量数据数据集合的生命周期为7天。
进一步地,所述预设显示规则具体为:根据数据质量分数、数据修改时间和数据大小进行排序,所述数据质量分数计算公式为:S=w1·P+w2·Q,其中w1+w2=1,P为下载热度,Q为访问热度,w1和w2为权重。
进一步地,批处理任务经管理服务器分配到分布式存储系统的各执行器节点,所述执行器节点设置执行队列负责存储任务,每个任务占用队列上的一个线程资源;所述执行器节点上的任务执行的优先级按照目标函数进行动态调整,所述目标函数为:
其中,Ti表示管理服务器映射执行器节点i的时间,Tei表示数据抽取任务i执行时间,Twi表示数据抽取任务i的等待执行时间,动态调整使得目标函数取得最小值。
本发明的优点在于:
将数据抽取转化为中间表抽取的方式,针对生产系统中新增数据表,无需重新开发特定数据抽取脚本,通过对中间表进行修改即可实现,提升了分布式存储系统对数据的抽取效率,减少了分布式存储系统的数据维护压力,同时,周期性通过触发器和时间戳的方式获取待选增量数据集,为后续数据抽取减少压力,为分析人员提供了可靠支持。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (5)

1.一种基于中间表的数据抽取的系统,其特征在于,该系统包括通过网络连接的客户端,管理服务器,分布式数据库;
所述客户端用于获取用户对中间表设置界面的数据抽取条件后向管理服务器发送数据抽取命令;
所述管理服务器根据抽取指令以及中间表配置参数生成批处理任务执行脚本,根据批处理任务执行脚本从分布式数据库中获取数据后,将所述获取数据按照预设规则排序后存储至客户端并显示;
其中,所述分布式数据库中的数据表中设置有触发器,根据所述触发器获得数据增量日志汇总到日志表中,所述管理服务器会给每一条日志加时间戳;
其中,所述管理服务器周期性地会通过所述时间戳获取分布式数据库的多个增量数据数据集合;所述管理服务器在接受到数据抽取指令后,根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据;
所述预设规则排序具体为:根据数据质量分数、数据修改时间和数据大小进行排序,所述数据质量分数计算公式为:S=w1·P+w2·Q,其中w1+w2=1,P为下载热度,Q为访问热度,w1和w2为权重;
所述根据数据质量分数、数据修改时间和数据大小进行排序具体为:
客户端获取返回的抽取增量数据后,根据数据质量分数阈值进行过滤,将大于所述阈值的增量数据按照数据大小或时间排序显示。
2.根据权利要求1所述基于中间表的数据抽取的系统,其特征在于:在中间表设置界面设置数据抽取条件以及关联的数据库。
3.根据权利要求2所述的基于中间表的数据抽取的系统,其特征在于:所述数据抽取条件包括选择所需参数以及设置所述参数的权重值;设置参数包括:数据生成时间,数据访问热度,数据下载热度,数据库名,排序方式。
4.一种基于中间表的数据抽取的方法,其特征在于:
步骤S1,客户端获取用户对中间表界面的参数设置,设置参数包括:数据生成时间,数据访问热度,数据下载热度,数据库名,权重值;
步骤S2,所述客户端向管理服务器发送数据抽取指令;
步骤S3,所述管理服务器根据所述抽取指令以及所述中间表配置参数生成批处理任务执行脚本,
步骤S4,所述管理服务器根据所述批处理任务执行脚本从分布式数据库中获取数据;
步骤S5,所述管理服务器将从所述分布式数据库中获取的数据按照预设规则排序后存储至所述客户端并按照预设显示规则显示;
其中,所述预设显示规则具体为:根据数据质量分数、数据修改时间和数据大小进行排序,所述数据质量分数计算公式为:S=w1·P+w2·Q,其中w1+w2=1,P为下载热度,Q为访问热度,w1和w2为权重;
批处理任务经管理服务器分配到分布式存储系统的各执行器节点,所述执行器节点设置执行队列负责存储任务,每个任务占用队列上的一个线程资源;所述执行器节点上的任务执行的优先级按照目标函数进行动态调整,所述目标函数为:
其中,Ti表示管理服务器映射执行器节点i的时间,Tei表示数据抽取任务i执行时间,Twi表示数据抽取任务i的等待执行时间,动态调整使得目标函数取得最小值。
5.根据权利要求4所述的基于中间表的数据抽取的方法,其特征在于:分布式数据库中的数据表中设置有触发器,根据所述触发器获得数据增量日志汇总到日志表中,所述管理服务器会给每一条日志加时间戳;所述管理服务器周期性地会通过时间戳获取分布式数据库的多个增量数据数据集合;所述管理服务器在接受到数据抽取指令后,根据所述批处理任务执行脚本从所述多个增量数据数据集合抽取所需数据,其中所述增量数据数据集合的生命周期为7天。
CN202111000509.2A 2021-08-29 2021-08-29 一种基于中间表的数据抽取的系统和方法 Active CN113688157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111000509.2A CN113688157B (zh) 2021-08-29 2021-08-29 一种基于中间表的数据抽取的系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111000509.2A CN113688157B (zh) 2021-08-29 2021-08-29 一种基于中间表的数据抽取的系统和方法

Publications (2)

Publication Number Publication Date
CN113688157A CN113688157A (zh) 2021-11-23
CN113688157B true CN113688157B (zh) 2023-12-05

Family

ID=78583731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111000509.2A Active CN113688157B (zh) 2021-08-29 2021-08-29 一种基于中间表的数据抽取的系统和方法

Country Status (1)

Country Link
CN (1) CN113688157B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103139251A (zh) * 2011-11-29 2013-06-05 神州数码信息系统有限公司 一种城市级数据共享交换平台技术的方法
CN106126753A (zh) * 2016-08-23 2016-11-16 易联众信息技术股份有限公司 基于大数据的增量抽取的方法
CN106951435A (zh) * 2017-02-08 2017-07-14 广州神马移动信息科技有限公司 新闻推荐方法、设备及可编程设备
CN107368500A (zh) * 2016-05-13 2017-11-21 北京京东尚科信息技术有限公司 数据抽取方法及系统
CN109101521A (zh) * 2018-06-12 2018-12-28 江苏开拓信息与系统有限公司 基于大数据的数据自动抽取系统
CN109669975A (zh) * 2018-11-09 2019-04-23 成都数之联科技有限公司 一种工业大数据处理系统及方法
CN109711845A (zh) * 2019-01-18 2019-05-03 山东浪潮易云在线科技有限公司 一种基于SaaS模式银企互联对接方法及系统
CN112035727A (zh) * 2019-06-03 2020-12-04 阿里巴巴集团控股有限公司 信息获取方法、装置、设备、系统及可读存储介质
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11823089B2 (en) * 2016-12-02 2023-11-21 Christian Günther System and method for managing transactions in dynamic digital documents

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103139251A (zh) * 2011-11-29 2013-06-05 神州数码信息系统有限公司 一种城市级数据共享交换平台技术的方法
CN107368500A (zh) * 2016-05-13 2017-11-21 北京京东尚科信息技术有限公司 数据抽取方法及系统
CN106126753A (zh) * 2016-08-23 2016-11-16 易联众信息技术股份有限公司 基于大数据的增量抽取的方法
CN106951435A (zh) * 2017-02-08 2017-07-14 广州神马移动信息科技有限公司 新闻推荐方法、设备及可编程设备
CN109101521A (zh) * 2018-06-12 2018-12-28 江苏开拓信息与系统有限公司 基于大数据的数据自动抽取系统
CN109669975A (zh) * 2018-11-09 2019-04-23 成都数之联科技有限公司 一种工业大数据处理系统及方法
CN109711845A (zh) * 2019-01-18 2019-05-03 山东浪潮易云在线科技有限公司 一种基于SaaS模式银企互联对接方法及系统
CN112035727A (zh) * 2019-06-03 2020-12-04 阿里巴巴集团控股有限公司 信息获取方法、装置、设备、系统及可读存储介质
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
enhanced prediction of hot spots at protein-protein interfaces using extreme gradient boosting;Wang H等;scientific reports;第1卷(第8期);1-10 *
学习云空间中基于应用语义的资源组织模型研究与实践;刘博;胡杏;罗雯;黄昌勤;;现代远距离教育(第01期);69-81 *
搜索日志中热点查询的内容抽取;任育伟;吕学强;李卓;徐丽萍;;计算机应用与软件;第12卷(第12期);16-21 *

Also Published As

Publication number Publication date
CN113688157A (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN104572122B (zh) 一种软件应用数据的生成装置及方法
CN109684053B (zh) 大数据的任务调度方法和系统
CN109002484B (zh) 一种用于顺序消费数据的方法及系统
CN109739818B (zh) 一种便捷式高吞吐量大数据采集方法及系统
CN101141754B (zh) 一种增值业务分析系统及其方法
CN107103064B (zh) 数据统计方法及装置
CN104866599A (zh) 可视化报表的生产方法和系统
CN104573065A (zh) 一种基于元数据的报表展示引擎
CN107870949B (zh) 数据分析作业依赖关系生成方法和系统
CN109669975B (zh) 一种工业大数据处理系统及方法
CN111460019A (zh) 一种异构数据源的数据转换方法及中间件
CN112131131A (zh) 一种预构造域名及请求体的接口自动化测试框架系统
CN113641567B (zh) 一种数据库巡检方法、装置、电子设备及存储介质
CN101702209A (zh) 一种物料的领料方法和装置
CN107291938A (zh) 订单查询系统及方法
CN113010310B (zh) 作业数据的处理方法、装置和服务器
CN113688157B (zh) 一种基于中间表的数据抽取的系统和方法
CN107357919A (zh) 行为日志查询系统及方法
CN112559641A (zh) 拉链表的处理方法及装置、可读存储介质及电子设备
CN111782657B (zh) 数据处理方法及装置
CN112632173A (zh) 海量数据下基于etl的尽职调查数据分析系统及方法
CN114818635A (zh) 数据报表生成方法、装置、电子设备及存储介质
CN112347095B (zh) 数据表的处理方法、装置和服务器
CN118035060B (zh) 一种动态生成埋点标准基础数据模型的方法
CN116644039B (zh) 一种基于大数据的在线能力运营日志自动采集分析的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 769, building 2, East Ring Road, Yanqing Park, Zhongguancun, Yanqing District, Beijing 102101

Applicant after: ZHONGDUN innovative digital technology (Beijing) Co.,Ltd.

Address before: Room 769, building 2, East Ring Road, Yanqing Park, Zhongguancun, Yanqing District, Beijing 102101

Applicant before: ZHONGDUN innovation archives management (Beijing) Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant