CN107463692B - 超大文本数据同步到搜索引擎的方法和系统 - Google Patents

超大文本数据同步到搜索引擎的方法和系统 Download PDF

Info

Publication number
CN107463692B
CN107463692B CN201710684158.9A CN201710684158A CN107463692B CN 107463692 B CN107463692 B CN 107463692B CN 201710684158 A CN201710684158 A CN 201710684158A CN 107463692 B CN107463692 B CN 107463692B
Authority
CN
China
Prior art keywords
data
hive
super large
synchronized
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710684158.9A
Other languages
English (en)
Other versions
CN107463692A (zh
Inventor
田立娜
高军
王可鑫
段文良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Heetian Information Technology Co Ltd
Original Assignee
Shandong Heetian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Heetian Information Technology Co Ltd filed Critical Shandong Heetian Information Technology Co Ltd
Priority to CN201710684158.9A priority Critical patent/CN107463692B/zh
Publication of CN107463692A publication Critical patent/CN107463692A/zh
Application granted granted Critical
Publication of CN107463692B publication Critical patent/CN107463692B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种超大文本数据同步到搜索引擎的方法和系统,所述方法包括将待同步的超大文本数据进行规范化;将规范化的超大文本数据按行切割,获取多个碎片文件,并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群;所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表,创建hive与ElasticSearch的数据对应的视图表,指定待同步ElasticSearch的服务器节点,将外链表中的数据同步至视图表,实现超大文本数据向ElasticSearch的同步。本发明能够避免因数据不规范问题导致的同步中断,并且有效的提高了同步效率,简化了操作方式。

Description

超大文本数据同步到搜索引擎的方法和系统
技术领域
本发明涉及本发明涉及大数据处理领域,是一种针对超大文本数据同步到搜索引擎的方法和系统。
背景技术
随着网络和信息技术的迅猛发展,人们可以获得越来越多的数字化信息,但同时也投入了越来越多时间和精力对信息进行组织和整理。同一份文本数据,有可能会被不同的厂商、系统所使用,因此将超大文本数据信息同步到各种大数据平台成为了一种关键技术。而目前针对超大文本数据同步主要存在以下问题:大文本中的数据的格式错乱复杂、形式不统一在处理数据同步时候会遇到很大的瓶颈;但是数据来源无论是从互联网采集还是从其他厂商获获取,得到的文件都有可能是一个上百G或者更大的文本文件,针对这种文件我们使用可视化编辑器查看编辑数据是无法实现的,甚至还会导致服务器直接宕机,因此无法通过这种方式对数据进行规范化处理;再者,在某些特定的场景下由于硬件的限制无论是磁盘、内存、CPU都达不到高性能的配置时,我们还需要对这种超大文件数据进行处理分析,同时进行数据同步到ElasticSearch搜索服务引擎变的比较困难。
目前需要本领域技术人员迫切解决的一个技术问题是:如何避免数据同步过程中可能的中段问题以及提高同步效率。
发明内容
为了解决上述问题,本发明提供一种针对超大文件数据同步到ElasticSearch的机制,该机制通过特定数据切割方法,数据规范定义处理大文本中的数据并且进行分批分量的数据同步。
为了实现上述目的,本发明采用如下技术方案:
一种超大文本数据同步到搜索引擎的方法,包括:
步骤1:将待同步的超大文本数据进行规范化。
步骤2:将规范化的超大文本数据按行切割,获取多个碎片文件,并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群;
步骤3:所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表,创建hive与ElasticSearch的数据对应的视图表,指定待同步ElasticSearch的服务器节点,将外链表中的数据同步至视图表,实现超大文本数据向ElasticSearch的同步。
进一步地,所述步骤1包括:
步骤101:对待同步的超大文本数据逐行读取并进行校验,判断每行是否符合规则,若判断出具有不符合规则的行数据,创建临时文件,将不符合规则的行数据输出到临时文本;
步骤102:接收用户对临时文件的编辑处理,得到符合规则的行数据;
步骤103:逐行对所述超大文本数据进行校验,采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换;
步骤104:重复执行上述步骤,直到全部数据符合规则;
进一步地,所述规则由数据生成者和使用者共同制定,用于规定每行数据遵循的规则。
进一步地,,所述步骤3包括:
步骤301:所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;
步骤302:创建hive的外链表的表结构,以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;方便快速查找碎片文件;
步骤303:使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;
步骤304:将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
进一步地,所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。
根据本发明的另一方面,本发明还提供了一种超大文本数据同步到搜索引擎的系统,包括ElasticSearch服务器集群、计算机设备和Hadoop分布式文件系统集群;
所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:将将待同步的超大文本数据进行规范化;将规范化的超大文本数据进行行切割,获取多个碎片文件,并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群;
所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表,创建hive与开源式搜索引擎的数据对应的视图表,指定待同步ElasticSearch的服务器节点,将外链表中的数据同步至视图表,实现超大文本数据向ElasticSearch的同步。
进一步地,所述将待同步超大文本数据进行规范化包括:
对待同步的超大文本数据逐行读取并进行校验,判断每行是否符合规则,若判断出具有不符合规则的行数据,创建临时文件,将不符合规则的行数据输出到临时文本;
接收用户对临时文件的编辑处理,得到符合规则的行数据;
逐行对所述超大文本数据进行校验,采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换;
重复执行上述步骤,直到全部数据符合规则。
进一步地,所述规则由数据生成者和使用者共同制定,用于规定每行数据遵循的规则,例如每行包含几列,每列是数字还是文本等。
进一步地,所述数据向搜索引擎同步包括:
所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;
创建hive的外链表的表结构,以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;
使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;
将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
进一步地,所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。
根据本发明的第三方面,本发明还提供了一种用于超大文本数据同步的Hadoop分布式文件系统集群,
接收超大文本数据的碎片文件;将所述多个碎片文件存储至hive的外链表,创建hive与ElasticSearch的数据对应的视图表,将外链表中的数据同步至视图表,并在视图表中指定待同步ElasticSearch的服务器节点,实现超大文本数据向搜索引擎的同步。
进一步地,所述视图表中还指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,以及hive中的主键字段映射到ElasticSearch中_id。
本发明的有益效果:
1、通过逐行读取处理文本,借助临时文本,进行超大文本的规范化,可有效的规范文本,避免超大文本无法编辑检验的问题,也有效避免同步中断的问题。
2、借助分布式存储hadoop作为中介存储文本,可以避免传统关系数据库无法处理超大文本的问题,有效解决文本的中转问题。
3、利用hive,可以将导入到hadoop中的文本,作为数据库表来处理,充分发挥hive的分布式特长,有效的提高了使用效率,简化了操作方式。同时利用hive中的视图中,还可以方便的将数据直接同步到elasticsearch中。
附图说明
图1为本发明超大文本数据同步到搜索引擎的方法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例提供了一种超大文本数据同步到搜索引擎的方法,如图1所示,包括:
步骤1:将待同步的超大文本数据进行规范化。
步骤101:对待同步的超大文本数据逐行读取并进行校验,判断每行是否符合规则,若判断出具有不符合规则的行数据,创建临时文件,将不符合规则的行数据输出到临时文本;
步骤102:接收用户对临时文件的编辑处理,得到符合规则的行数据;
步骤103:逐行对所述超大文本数据进行校验,采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换;
步骤104:重复执行上述步骤,直到全部数据符合规则;
所述规则由数据生成者和使用者共同制定,用于规定每行数据遵循的规则,例如每行包含几列,每列是数字还是文本等。
针对步骤102-103的处理方案,如果超大文本由其他系统或工具生成,也可根据步骤101中临时文本中的数据,了解不规则数据情况,重新生成超大文本数据。
步骤2:将规范化的超大文本数据进行行切割,获取多个碎片文件,并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群;
当一个大文本文件的数据大小达到上百G的时候,如果直接在普通的PC机操作此大文件很大可能会导致机器直接死机或者崩溃。这种大文件的直接操作受限于PC物理的硬件内存、CPU等各种限制。
优选地,将所述多个碎片文件按照英文字母的顺序依次进行命名。
优选地,所述切割是按行进行切割,且行数能够动态配置。
步骤3:所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表,创建hive与ElasticSearch的数据对应的视图表,并指定待同步ElasticSearch的服务器节点,将外链表中的数据同步至视图表。
步骤301:所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;
步骤302:创建hive的外链表的表结构,用于存储获取的文本碎片;以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;方便快速查找碎片文件;
步骤303:使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;
如若不设置此字段的映射关系,ElasticSearch中的_id为自动增长,由此可导致一旦碎片文件中出现错误数据时程序中断,重新启动同步数据服务会导致大量的重复冗余的数据,这样是非常的浪费空间也是不必要的。
步骤304:将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
其中,所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。
实施例二
根据实施例一中所述的方法,本实施例提供了一种超大文本数据同步到搜索引擎的系统,包括ElasticSearch服务器集群、计算机设备和Hadoop分布式文件系统集群,
所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:将将待同步的超大文本数据进行规范化;将规范化的超大文本数据进行行切割,获取多个碎片文件,并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群;
所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表,创建hive与开源式搜索引擎的数据对应的视图表,将外链表中的数据同步至视图表,指定待同步ElasticSearch的服务器节点,实现超大文本数据向搜索引擎的同步。
所述将待同步超大文本数据进行规范化包括:
对待同步的超大文本数据逐行读取并进行校验,判断每行是否符合规则,若判断出具有不符合规则的行数据,创建临时文件,将不符合规则的行数据输出到临时文本;
接收用户对临时文件的编辑处理,得到符合规则的行数据;
逐行对所述超大文本数据进行校验,采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换;
重复执行上述步骤,直到全部数据符合规则。
所述数据向搜索引擎同步包括:
所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;
创建hive的外链表的表结构,以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;
使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;
将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
其中,所述规则由数据生成者和使用者共同制定,用于规定每行数据遵循的规则,例如每行包含几列,每列是数字还是文本等。
所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。
实施例三
本实施例提供了一种用于超大文本数据同步的Hadoop分布式文件系统集群,
接收超大文本数据的碎片文件;将所述多个碎片文件存储至hive的外链表,创建hive与ElasticSearch的数据对应的视图表,将外链表中的数据同步至视图表,并在视图表中指定待同步ElasticSearch的服务器节点,实现超大文本数据向搜索引擎的同步。
所述视图表中还指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,以及hive中的主键字段映射到ElasticSearch中_id。
采用本发明的技术方案,能够有效的规范超大文本数据,避免因数据不规范问题导致的同步中断;利用hive,可以将导入到hadoop中的文本,作为数据库表来处理,充分发挥hive的分布式特长,同时利用hive中的视图中,还可以方便的将数据直接同步到elasticsearch中,有效的提高了使用效率,简化了文本数据同步的操作方式。
本领域技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.一种超大文本数据同步到搜索引擎的方法,其特征在于,包括:
步骤1:将待同步的超大文本数据进行规范化;
步骤2:将规范化的超大文本数据按行切割,获取多个碎片文件,并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群;
步骤3:所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表,创建hive与ElasticSearch的数据对应的视图表,指定待同步ElasticSearch的服务器节点,将外链表中的数据同步至视图表,实现超大文本数据向ElasticSearch的同步;
所述步骤3包括:
步骤301:所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;
步骤302:创建hive的外链表的表结构,以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;方便快速查找碎片文件;
步骤303:使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;
步骤304:将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
2.如权利要求1所述的一种超大文本数据同步到搜索引擎的方法,其特征在于,所述步骤1包括:
步骤101:对待同步的超大文本数据逐行读取并进行校验,判断每行是否符合规则,若判断出具有不符合规则的行数据,创建临时文件,将不符合规则的行数据输出到临时文本;
步骤102:接收用户对临时文件的编辑处理,得到符合规则的行数据;
步骤103:逐行对所述超大文本数据进行校验,采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换;
步骤104:重复执行上述步骤,直到全部数据符合规则;
3.如权利要求2所述的一种超大文本数据同步到搜索引擎的方法,其特征在于,所述规则由数据生成者和使用者共同制定,用于规定每行数据遵循的规则。
4.如权利要求1所述的一种超大文本数据同步到搜索引擎的方法,其特征在于,所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。
5.一种超大文本数据同步到搜索引擎的系统,其特征在于,包括ElasticSearch服务器集群、计算机设备和Hadoop分布式文件系统集群;
所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:将将待同步的超大文本数据进行规范化;将规范化的超大文本数据进行行切割,获取多个碎片文件,并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群;
所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;创建hive的外链表的表结构,以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;方便快速查找碎片文件;使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
6.如权利要求5所述的一种超大文本数据同步到搜索引擎的系统,其特征在于,所述将待同步超大文本数据进行规范化包括:
对待同步的超大文本数据逐行读取并进行校验,判断每行是否符合规则,若判断出具有不符合规则的行数据,创建临时文件,将不符合规则的行数据输出到临时文本;
接收用户对临时文件的编辑处理,得到符合规则的行数据;
逐行对所述超大文本数据进行校验,采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换;
重复执行上述步骤,直到全部数据符合规则。
7.如权利要求5所述的一种超大文本数据同步到搜索引擎的系统,其特征在于,所述数据向搜索引擎同步包括:
所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;
创建hive的外链表的表结构,以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;
使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;
将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
8.一种用于超大文本数据同步的Hadoop分布式文件系统集群,其特征在于,
所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储;创建hive的外链表的表结构,以所述超大文本数据中的分隔符作为数据表中字段的分隔符,文本的一行记录对应到hive表中的一条记录;hive的外链表的地址指向到hadoop的碎片分区;使用hive加载扩展驱动程序,创建一张hive与ElasticSearch的数据对应的视图表,在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,指定hive中的主键字段映射到ElasticSearch中_id;将外链表中的数据同步到所述视图表中,实现超大文本数据向搜索引擎的同步。
9.如权利要求8所述的Hadoop分布式文件系统集群,所述视图表中还指定ElasticSearch的服务器节点地址、端口及对应的索引、文档,以及hive中的主键字段映射到ElasticSearch中_id。
CN201710684158.9A 2017-08-11 2017-08-11 超大文本数据同步到搜索引擎的方法和系统 Active CN107463692B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710684158.9A CN107463692B (zh) 2017-08-11 2017-08-11 超大文本数据同步到搜索引擎的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710684158.9A CN107463692B (zh) 2017-08-11 2017-08-11 超大文本数据同步到搜索引擎的方法和系统

Publications (2)

Publication Number Publication Date
CN107463692A CN107463692A (zh) 2017-12-12
CN107463692B true CN107463692B (zh) 2019-10-18

Family

ID=60548740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710684158.9A Active CN107463692B (zh) 2017-08-11 2017-08-11 超大文本数据同步到搜索引擎的方法和系统

Country Status (1)

Country Link
CN (1) CN107463692B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415934B (zh) * 2018-01-23 2022-05-03 海尔优家智能科技(北京)有限公司 一种Hive表修复方法、装置、设备及计算机可读存储介质
CN109657006A (zh) * 2018-12-14 2019-04-19 万翼科技有限公司 数据同步方法、装置及计算机可读存储介质
CN109710603B (zh) * 2018-12-28 2020-11-24 江苏满运软件科技有限公司 数据清洗方法、系统、存储介质及电子设备
CN109902114B (zh) * 2019-01-24 2024-04-23 中国平安人寿保险股份有限公司 Es集群数据复用方法、系统、计算机装置及存储介质
CN111914066B (zh) * 2020-08-17 2024-02-02 山东合天智汇信息技术有限公司 多源数据库全局搜索方法及系统
CN114490525B (zh) * 2022-02-22 2022-08-02 北京科杰科技有限公司 基于hadoop远程超大非结构化文本文件解析出入库系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399887A (zh) * 2013-07-19 2013-11-20 蓝盾信息安全技术股份有限公司 一种海量日志的查询与统计分析系统
CN105847378A (zh) * 2016-04-13 2016-08-10 北京思特奇信息技术股份有限公司 一种实现大数据同步的方法和系统
CN106294695A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种面向实时大数据搜索引擎的实现方法
CN106970929A (zh) * 2016-09-08 2017-07-21 阿里巴巴集团控股有限公司 数据导入方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949175B2 (en) * 2012-04-17 2015-02-03 Turn Inc. Meta-data driven data ingestion using MapReduce framework

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399887A (zh) * 2013-07-19 2013-11-20 蓝盾信息安全技术股份有限公司 一种海量日志的查询与统计分析系统
CN105847378A (zh) * 2016-04-13 2016-08-10 北京思特奇信息技术股份有限公司 一种实现大数据同步的方法和系统
CN106294695A (zh) * 2016-08-08 2017-01-04 深圳市网安计算机安全检测技术有限公司 一种面向实时大数据搜索引擎的实现方法
CN106970929A (zh) * 2016-09-08 2017-07-21 阿里巴巴集团控股有限公司 数据导入方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于电力客户搜索数据同步的方法与实现;于广荣 等;《江苏科技信息》;20161030(第30期);75-78 *

Also Published As

Publication number Publication date
CN107463692A (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN107463692B (zh) 超大文本数据同步到搜索引擎的方法和系统
US9311326B2 (en) Virtual file system for automated data replication and review
CN106657213B (zh) 文件传输方法和装置
CN108153849B (zh) 一种数据库表切分方法、装置、系统和介质
CN105701098B (zh) 针对数据库中的表生成索引的方法和装置
CN109857803B (zh) 数据同步方法、装置、设备、系统及计算机可读存储介质
JP2016505930A (ja) 協調的cax編集のためのシステム、方法、および装置
CN102272751B (zh) 在数据库环境通过背景同步的数据完整性
US10885085B2 (en) System to organize search and display unstructured data
JP2015118609A (ja) 予め決められた複数のビット幅のデータに対して操作を行う命令を使用してツリーの検索を行うための方法、並びに、当該命令を使用してツリーの検索を行うためのコンピュータ及びそのコンピュータ・プログラム
JP6506686B2 (ja) ファイル記述子を自動的に管理する技法
CN110928498B (zh) 一种目录遍历的方法、装置、设备和存储介质
CN101178726A (zh) 数据文件解归档的方法和系统
CN109325016A (zh) 数据迁移方法、装置、介质及电子设备
CN108427728A (zh) 元数据的管理方法、设备及计算机可读介质
CN110532347A (zh) 一种日志数据处理方法、装置、设备和存储介质
CN111611622A (zh) 基于区块链的文件存储方法和电子设备
US10019185B2 (en) System and method for copying directory structures
CN104636441B (zh) 网络文件系统实现方法和装置
CN107423321B (zh) 适用大批量小文件云存储的方法及其装置
CN111447265A (zh) 文件存储方法、文件下载方法和文件处理方法及相关组件
CN111984745B (zh) 数据库字段动态扩展方法、装置、设备及存储介质
US20080222183A1 (en) Autonomic rule generation in a content management system
JP2023518136A (ja) ファイル処理方法、装置、電子デバイス、記憶媒体、及びプログラム
US10754748B2 (en) System and method for constructing extensible event log with javascript object notation (JSON) encoded payload data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant