CN107463692B

CN107463692B - 超大文本数据同步到搜索引擎的方法和系统

Info

Publication number: CN107463692B
Application number: CN201710684158.9A
Authority: CN
Inventors: 田立娜; 高军; 王可鑫; 段文良
Original assignee: Shandong Heetian Information Technology Co Ltd
Current assignee: Shandong Heetian Information Technology Co Ltd
Priority date: 2017-08-11
Filing date: 2017-08-11
Publication date: 2019-10-18
Anticipated expiration: 2037-08-11
Also published as: CN107463692A

Abstract

本发明公开了一种超大文本数据同步到搜索引擎的方法和系统，所述方法包括将待同步的超大文本数据进行规范化；将规范化的超大文本数据按行切割，获取多个碎片文件，并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群；所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表，创建hive与ElasticSearch的数据对应的视图表，指定待同步ElasticSearch的服务器节点，将外链表中的数据同步至视图表，实现超大文本数据向ElasticSearch的同步。本发明能够避免因数据不规范问题导致的同步中断，并且有效的提高了同步效率，简化了操作方式。

Description

超大文本数据同步到搜索引擎的方法和系统

技术领域

本发明涉及本发明涉及大数据处理领域，是一种针对超大文本数据同步到搜索引擎的方法和系统。

背景技术

随着网络和信息技术的迅猛发展，人们可以获得越来越多的数字化信息，但同时也投入了越来越多时间和精力对信息进行组织和整理。同一份文本数据，有可能会被不同的厂商、系统所使用，因此将超大文本数据信息同步到各种大数据平台成为了一种关键技术。而目前针对超大文本数据同步主要存在以下问题：大文本中的数据的格式错乱复杂、形式不统一在处理数据同步时候会遇到很大的瓶颈；但是数据来源无论是从互联网采集还是从其他厂商获获取，得到的文件都有可能是一个上百G或者更大的文本文件，针对这种文件我们使用可视化编辑器查看编辑数据是无法实现的，甚至还会导致服务器直接宕机，因此无法通过这种方式对数据进行规范化处理；再者，在某些特定的场景下由于硬件的限制无论是磁盘、内存、CPU都达不到高性能的配置时，我们还需要对这种超大文件数据进行处理分析，同时进行数据同步到ElasticSearch搜索服务引擎变的比较困难。

目前需要本领域技术人员迫切解决的一个技术问题是：如何避免数据同步过程中可能的中段问题以及提高同步效率。

发明内容

为了解决上述问题，本发明提供一种针对超大文件数据同步到ElasticSearch的机制，该机制通过特定数据切割方法，数据规范定义处理大文本中的数据并且进行分批分量的数据同步。

为了实现上述目的，本发明采用如下技术方案：

一种超大文本数据同步到搜索引擎的方法，包括：

步骤1：将待同步的超大文本数据进行规范化。

步骤2：将规范化的超大文本数据按行切割，获取多个碎片文件，并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群；

步骤3：所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表，创建hive与ElasticSearch的数据对应的视图表，指定待同步ElasticSearch的服务器节点，将外链表中的数据同步至视图表，实现超大文本数据向ElasticSearch的同步。

进一步地，所述步骤1包括：

步骤101：对待同步的超大文本数据逐行读取并进行校验，判断每行是否符合规则，若判断出具有不符合规则的行数据，创建临时文件，将不符合规则的行数据输出到临时文本；

步骤102：接收用户对临时文件的编辑处理，得到符合规则的行数据；

步骤103：逐行对所述超大文本数据进行校验，采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换；

步骤104：重复执行上述步骤，直到全部数据符合规则；

进一步地，所述规则由数据生成者和使用者共同制定，用于规定每行数据遵循的规则。

进一步地，，所述步骤3包括：

步骤301：所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储；

步骤302：创建hive的外链表的表结构，以所述超大文本数据中的分隔符作为数据表中字段的分隔符，文本的一行记录对应到hive表中的一条记录；hive的外链表的地址指向到hadoop的碎片分区；方便快速查找碎片文件；

步骤303：使用hive加载扩展驱动程序，创建一张hive与ElasticSearch的数据对应的视图表，在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档，指定hive中的主键字段映射到ElasticSearch中_id；

步骤304：将外链表中的数据同步到所述视图表中，实现超大文本数据向搜索引擎的同步。

进一步地，所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。

根据本发明的另一方面，本发明还提供了一种超大文本数据同步到搜索引擎的系统，包括ElasticSearch服务器集群、计算机设备和Hadoop分布式文件系统集群；

所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤：将将待同步的超大文本数据进行规范化；将规范化的超大文本数据进行行切割，获取多个碎片文件，并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群；

所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表，创建hive与开源式搜索引擎的数据对应的视图表，指定待同步ElasticSearch的服务器节点，将外链表中的数据同步至视图表，实现超大文本数据向ElasticSearch的同步。

进一步地，所述将待同步超大文本数据进行规范化包括：

对待同步的超大文本数据逐行读取并进行校验，判断每行是否符合规则，若判断出具有不符合规则的行数据，创建临时文件，将不符合规则的行数据输出到临时文本；

接收用户对临时文件的编辑处理，得到符合规则的行数据；

逐行对所述超大文本数据进行校验，采用临时文本中编辑处理后的行数据对所述超大文本数据中不符合规则的行进行替换；

重复执行上述步骤，直到全部数据符合规则。

进一步地，所述规则由数据生成者和使用者共同制定，用于规定每行数据遵循的规则，例如每行包含几列，每列是数字还是文本等。

进一步地，所述数据向搜索引擎同步包括：

所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储；

创建hive的外链表的表结构，以所述超大文本数据中的分隔符作为数据表中字段的分隔符，文本的一行记录对应到hive表中的一条记录；hive的外链表的地址指向到hadoop的碎片分区；

使用hive加载扩展驱动程序，创建一张hive与ElasticSearch的数据对应的视图表，在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档，指定hive中的主键字段映射到ElasticSearch中_id；

将外链表中的数据同步到所述视图表中，实现超大文本数据向搜索引擎的同步。

根据本发明的第三方面，本发明还提供了一种用于超大文本数据同步的Hadoop分布式文件系统集群，

接收超大文本数据的碎片文件；将所述多个碎片文件存储至hive的外链表，创建hive与ElasticSearch的数据对应的视图表，将外链表中的数据同步至视图表，并在视图表中指定待同步ElasticSearch的服务器节点，实现超大文本数据向搜索引擎的同步。

进一步地，所述视图表中还指定ElasticSearch的服务器节点地址、端口及对应的索引、文档，以及hive中的主键字段映射到ElasticSearch中_id。

本发明的有益效果：

1、通过逐行读取处理文本，借助临时文本，进行超大文本的规范化，可有效的规范文本，避免超大文本无法编辑检验的问题，也有效避免同步中断的问题。

2、借助分布式存储hadoop作为中介存储文本，可以避免传统关系数据库无法处理超大文本的问题，有效解决文本的中转问题。

3、利用hive，可以将导入到hadoop中的文本，作为数据库表来处理，充分发挥hive的分布式特长，有效的提高了使用效率，简化了操作方式。同时利用hive中的视图中，还可以方便的将数据直接同步到elasticsearch中。

附图说明

图1为本发明超大文本数据同步到搜索引擎的方法流程图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供了一种超大文本数据同步到搜索引擎的方法，如图1所示，包括：

步骤1：将待同步的超大文本数据进行规范化。

步骤104：重复执行上述步骤，直到全部数据符合规则；

所述规则由数据生成者和使用者共同制定，用于规定每行数据遵循的规则，例如每行包含几列，每列是数字还是文本等。

针对步骤102-103的处理方案，如果超大文本由其他系统或工具生成，也可根据步骤101中临时文本中的数据，了解不规则数据情况，重新生成超大文本数据。

步骤2：将规范化的超大文本数据进行行切割，获取多个碎片文件，并将所述多个碎片文件批量上传同步到Hadoop分布式文件系统集群；

当一个大文本文件的数据大小达到上百G的时候，如果直接在普通的PC机操作此大文件很大可能会导致机器直接死机或者崩溃。这种大文件的直接操作受限于PC物理的硬件内存、CPU等各种限制。

优选地，将所述多个碎片文件按照英文字母的顺序依次进行命名。

优选地，所述切割是按行进行切割，且行数能够动态配置。

步骤3：所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表，创建hive与ElasticSearch的数据对应的视图表，并指定待同步ElasticSearch的服务器节点，将外链表中的数据同步至视图表。

步骤302：创建hive的外链表的表结构，用于存储获取的文本碎片；以所述超大文本数据中的分隔符作为数据表中字段的分隔符，文本的一行记录对应到hive表中的一条记录；hive的外链表的地址指向到hadoop的碎片分区；方便快速查找碎片文件；

如若不设置此字段的映射关系，ElasticSearch中的_id为自动增长，由此可导致一旦碎片文件中出现错误数据时程序中断，重新启动同步数据服务会导致大量的重复冗余的数据，这样是非常的浪费空间也是不必要的。

其中，所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。

实施例二

根据实施例一中所述的方法，本实施例提供了一种超大文本数据同步到搜索引擎的系统，包括ElasticSearch服务器集群、计算机设备和Hadoop分布式文件系统集群，

所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表，创建hive与开源式搜索引擎的数据对应的视图表，将外链表中的数据同步至视图表，指定待同步ElasticSearch的服务器节点，实现超大文本数据向搜索引擎的同步。

所述将待同步超大文本数据进行规范化包括：

接收用户对临时文件的编辑处理，得到符合规则的行数据；

重复执行上述步骤，直到全部数据符合规则。

所述数据向搜索引擎同步包括：

其中，所述规则由数据生成者和使用者共同制定，用于规定每行数据遵循的规则，例如每行包含几列，每列是数字还是文本等。

所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。

实施例三

本实施例提供了一种用于超大文本数据同步的Hadoop分布式文件系统集群，

所述视图表中还指定ElasticSearch的服务器节点地址、端口及对应的索引、文档，以及hive中的主键字段映射到ElasticSearch中_id。

采用本发明的技术方案，能够有效的规范超大文本数据，避免因数据不规范问题导致的同步中断；利用hive，可以将导入到hadoop中的文本，作为数据库表来处理，充分发挥hive的分布式特长，同时利用hive中的视图中，还可以方便的将数据直接同步到elasticsearch中，有效的提高了使用效率，简化了文本数据同步的操作方式。

本领域技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种超大文本数据同步到搜索引擎的方法，其特征在于，包括：

步骤1：将待同步的超大文本数据进行规范化；

步骤3：所述Hadoop分布式文件系统集群将所述多个碎片文件存储至hive的外链表，创建hive与ElasticSearch的数据对应的视图表，指定待同步ElasticSearch的服务器节点，将外链表中的数据同步至视图表，实现超大文本数据向ElasticSearch的同步；

所述步骤3包括：

2.如权利要求1所述的一种超大文本数据同步到搜索引擎的方法，其特征在于，所述步骤1包括：

步骤104：重复执行上述步骤，直到全部数据符合规则；

3.如权利要求2所述的一种超大文本数据同步到搜索引擎的方法，其特征在于，所述规则由数据生成者和使用者共同制定，用于规定每行数据遵循的规则。

4.如权利要求1所述的一种超大文本数据同步到搜索引擎的方法，其特征在于，所述扩展驱动程序用于使hive支持使用ElasticSearch作为外联表的存储方式。

5.一种超大文本数据同步到搜索引擎的系统，其特征在于，包括ElasticSearch服务器集群、计算机设备和Hadoop分布式文件系统集群；

所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储；创建hive的外链表的表结构，以所述超大文本数据中的分隔符作为数据表中字段的分隔符，文本的一行记录对应到hive表中的一条记录；hive的外链表的地址指向到hadoop的碎片分区；方便快速查找碎片文件；使用hive加载扩展驱动程序，创建一张hive与ElasticSearch的数据对应的视图表，在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档，指定hive中的主键字段映射到ElasticSearch中_id；将外链表中的数据同步到所述视图表中，实现超大文本数据向搜索引擎的同步。

6.如权利要求5所述的一种超大文本数据同步到搜索引擎的系统，其特征在于，所述将待同步超大文本数据进行规范化包括：

接收用户对临时文件的编辑处理，得到符合规则的行数据；

重复执行上述步骤，直到全部数据符合规则。

7.如权利要求5所述的一种超大文本数据同步到搜索引擎的系统，其特征在于，所述数据向搜索引擎同步包括：

8.一种用于超大文本数据同步的Hadoop分布式文件系统集群，其特征在于，

所述Hadoop分布式文件系统集群为每个碎片文件指定一个分区存储；创建hive的外链表的表结构，以所述超大文本数据中的分隔符作为数据表中字段的分隔符，文本的一行记录对应到hive表中的一条记录；hive的外链表的地址指向到hadoop的碎片分区；使用hive加载扩展驱动程序，创建一张hive与ElasticSearch的数据对应的视图表，在此视图表中指定ElasticSearch的服务器节点地址、端口及对应的索引、文档，指定hive中的主键字段映射到ElasticSearch中_id；将外链表中的数据同步到所述视图表中，实现超大文本数据向搜索引擎的同步。

9.如权利要求8所述的Hadoop分布式文件系统集群，所述视图表中还指定ElasticSearch的服务器节点地址、端口及对应的索引、文档，以及hive中的主键字段映射到ElasticSearch中_id。