CN112395292A

CN112395292A - 一种数据特征提取、匹配方法及装置

Info

Publication number: CN112395292A
Application number: CN202011335129.XA
Authority: CN
Inventors: 吕凯辉
Original assignee: Tenth Research Institute Of Telecommunications Technology Co ltd
Current assignee: Tenth Research Institute Of Telecommunications Technology Co ltd
Priority date: 2020-11-25
Filing date: 2020-11-25
Publication date: 2021-02-23
Anticipated expiration: 2040-11-25
Also published as: CN112395292B

Abstract

本发明公开了一种数据特征提取、匹配方法及装置，涉及通信技术领域。该方法包括：利用图形化界面配置，将结构化数据写入原始数据库表中；利用大平台ETL能力对结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载目标库表；从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要；基于ID‑Mapping将目标库表中的规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。

Description

一种数据特征提取、匹配方法及装置

技术领域

本发明涉及通信技术领域，更具体的涉及一种数据特征提取、匹配方法及装置。

背景技术

随着信息技术的飞速发展，海量数据成为最具价值的财富，而海量数据绝大多数为非结构化，如何从这些非结构化数据中快速、准确提取出有价值的信息，并将这些有价值的信息与结构化数据串联起来，形成一个完整数据视图，成为各行各业关注的热点。

例如在某些特殊领域，通过多种途径可以获取到个体的多种属性数据，如自然属性(性别、年龄、星座等)、社会属性(职业、出生地、电话号码等)、行为属性(活动轨迹、邮件内容等)，这些属性分布于各种格式的结构化和非结构化数据中，如何将这些属性进行提取和关联，对全面分析个体具有重要意义。

目前对海量数据主要根据数据来源进行匹配，同一来源数据通过某个强标识进行关联，不同来源数据分别存储在不同的业务系统中，分析这些数据时一般都是结构化数据和非结构化数据分开进行查询，结构化数据按照字段进行检索，相应的检索必须到对应的业务模块下进行，非结构化数据一般根据业务存储在相应文件目录中，通过文件名进行查询。

由于海量数据数据量巨大、类型多样，通过多种途径获取的数据存储格式和数据种类繁多，并且绝大多数为非结构化和半结构化，而一些关键的信息往往存在于非结构化数据中。因此现有数据处理和查询的方式会存在以下几个缺点：1)现有技术对结构化数据采用分开存储和查询的方式，造成了不同来源的数据没有进行关联匹配；2)因为没有对非结构化数据进行特征提取，会造成重要信息丢失，如文件内容、文件中的图片等，在查询分析时无法通过简单操作全面直观展示查询结果；3)只支持字段精确查询，对于结构化数据和从非结构数据中提取出的某些摘要、内容信息等无法进行全文检索。

发明内容

本发明实施例提供一种数据特征提取、匹配方法及装置，对非结构化数据中关键信息进行提取，避免重要信息丢失；对多种来源数据进行匹配关联，从而消除数据孤岛，对数据进行最大限度整合。

本发明实施例提供一种数据特征提取、匹配方法，包括：

利用图形化界面配置，将结构化数据写入原始数据库表中，其中，所述原始数据库表位于大数据平台hive目录下；

利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载至大数据平台hive目录下的目标库表；

从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要，其中，一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名；

基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。

优选地，所述基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，具体包括：

对具有相同来源的所述规范数据通过标识进行关联；

对具有不同来源的所述规范数据和所述非结构数据，基于人工规则和机器学习的方式，确定所述规范数据和所述非结构数据的ID，根据ID将所述规范数据和所述非结构数据进行关联；

将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联，将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联；

将匹配关联的所述规范数据与图片库包括的图片进行关联，通过ID和图片名称之间的关联关系进行匹配。

优选地，所述结构化数据包括实时数据和离线数据；

所述将结构化数据写入原始数据库表中，具体包括：

利用图形化界面配置kafka数据源，将所述实时数据基于F link接入至大数据平台，并存储至位于大数据平台hive目录下的所述原始数据库表中；

利用图形化界面配置离线数据库链接，基于data X将离线数据库链接对应的数据库接入至大数据平台，存储至位于大数据平台hive目录下的所述原始数据库表中。

优选地，所述对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库，具体包括：

根据非结构化数据中非结构文件的文件名、非结构文件中包括的图片的数量、系统当前时间，对从非结构文件中提取的所述图片进行命名；

将从非结构化数据中提取的图片存储在一个目录下，并形成图片库。

优选地，所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储，每个zip中存在一个xml文件对数据字段进行描述；

所述将具有关联关系的匹配结果打包为zip文件之后，还包括：

将所述zip文件接入至HDFS，将HDFS上的zip文件加工至ES和HBASE，其中，ES存储HBASE的ROWKEY信息，HBASE存储结构化数据详情和非结构化数据内容。

本发明实施例还提供了一种数据特征提取、匹配装置，包括：

写入单元，用于利用图形化界面配置，将结构化数据写入原始数据库表中，其中，所述原始数据库表位于大数据平台hive目录下；

第一得到单元，用于利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载至大数据平台hive目录下的目标库表；

第二得到单元，用于从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要，其中，一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名；

关联单元，用于基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。

优选地，所述关联单元具体用于：

对具有相同来源的所述规范数据通过标识进行关联；

优选地，所述结构化数据包括实时数据和离线数据；

所述写入单元具体用于：

优选地，所述第二得到单元具体用于：

所述关联单元还用于：

本发明实施例提供一种数据特征提取、匹配方法及装置，该方法包括：利用图形化界面配置，将结构化数据写入原始数据库表中，其中，所述原始数据库表位于大数据平台hive目录下；利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载至大数据平台hive目录下的目标库表；从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要，其中，一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名；基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。该方法将多种数据源接入到大数据平台，利用大数据平台的ETL能力，完成结构化数据的清洗、标准化、关联；针对非结构化数据采用特征匹配方法提取文件内容、摘要、图片等信息，基于ID-Mapping技术，将多种不同来源的结构化数据和非结构化数据中提取的文件内容、摘要、图片等进行关联打包；该方法非结构化数据中关键信息进行提取，避免重要信息丢失；基于ID-Mapping技术对多种来源数据进行匹配关联，从而消除数据孤岛，对数据进行最大限度整合；利用大数据技术，快速准确进行数据清洗、处理，解决了现有技术数据处理和查询存在的缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据特征提取、匹配方法流程示意图；

图2为本发明实施例提供的一种数据特征提取、匹配装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示例性的示出了本发明实施例提供的一种数据特征提取、匹配方法流程示意图。如图1所示，该方法主要包括以下步骤：

步骤101，利用图形化界面配置，将结构化数据写入原始数据库表中，其中，所述原始数据库表位于大数据平台hive目录下；

步骤102，利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载至大数据平台hive目录下的目标库表；

步骤103，从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要，其中，一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名；

步骤104，基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。

本发明实施例提供的数据包括有结合化数据和非结构化数据，在步骤101和步骤102中主要介绍的是结构化数据，而步骤103介绍的是非结构化数据。

在步骤101中，结构化数据的写入分为实时数据的写入和离线数据的写入。其中，实时数据接入主要基于kafka、F link等大数据技术实现，离线数据接入主要基于data X技术实现，离线接入支持关系型数据库(oracle、mysql、sqlServer)、hive等多种数据源。

实时数据接入时：

利用图形化界面配置kafka数据源(topic、IP等)，通过JAVA程序检测topic是否存在，从而确定kafka是否连接成功。

在大数据平台hive的目录下中创建原始数据库表，将实时数据基于F link接入至大数据平台，F link从配置的topic中实时读取实时数据，将读取的实时数据写入至大数据平台hive的目录下的原始数据库表内。

离线数据接入时：

利用图形化界面配置离线数据库链接，其中，数据库链接可以包括数据库实例名、IP、端口、表名等。在本发明实施例中，不同类型数据库选择对应的配置模板。

在大数据平台hive中创建原始数据库表，基于data X离线数据库链接对应的数据库接入至大数据平台，存储至大数据平台hive目录下的原始数据库表内。

本发明实施例中，结构化数据处理是基于大数据平台的ETL(英文为：Extract-Transform-Load)能力，将原始数据库表内存储的结构化数据进行了清洗、标准化、关联等。

在步骤102中，在大数据平台hive的目录下创建目标库表，基于行业标准，对原始数据库表内的结构化数据利用大平台ETL能力进行清洗、去重、编码转换等操作，确保数据格式符合规范要求，得到规范数据。

将规范数据添加到目标库表中。在本发明实施例中，步骤101步骤102中对结构化数据进行处理之后，主要是要用于后续的关联。

在步骤103中，针对非结构化数据特征提取主要是从pdf、word等非结构化文件中提取文件内容、摘要、图片。在本发明实施例中，为了避免名字重复，对提取出的图片采用原始文件名加序号加时间戳的方式进行命名。

具体地，通过JAVA多线程程序，读取不同业务存储目录下的pdf、word等非结构化文件，根据特征匹配方法，提取文件内容、摘要、图片。

结合原始非结构化数据包括的非结构化文件的文件名、非结构化文件中图片数量、系统当前时间，对提取出的图片进行命名，通过上述命名方式，可以避免相同的两个图片具有相同的图片名称。进一步地，将从非结构化数据中提取出的图片统一存储在一个目录，形成图片库，后续根据图片名与结构化数据进行关联匹配。

进一步地，在大数据平台hive的目录下创建第一库表，该第一库表中包括有非结构文件的文件名、文件内容、摘要，将非结构数据中的非结构化文件的文件名、文件内容和摘要存储至第一库表。后续根据文件名与结构化数据进行关联匹配。

完成结构化数据和非结构化数据的处理之后，则可以对结构化数据和非结构化数据进行关联。

在步骤104中，基于ID-Mapping将目标库表中的规范数据与第一库表和图片库中的的非结构化数据进行关联，具体包括以下几种关联方式：

1.基于强标识做Mapping，首先将具有相同来源结构化数据中的规范数据通过某一强标识进行关联，关联规则一般参考原始数据库描述，在描述不清晰情况下通过数据理解进行关联。

需要说明的是，在本发明实施例中，强标识可以是手机号，也可以是身份证号，在实际应用中，对强标识的具体情形不做限定。

2.基于用户行为做Mapping，对于具有不同来源的规范数据和非结构化数据，由于多种ID会存在一对多、多对多的关系，或者无法找到某个强标识进行关联，因此需要通过基于人工规则和机器学习的方式，从多个行为维度来确定ID，将多种来源数据串联起来。

具体地，机器学习的过程是给每一个ID，以及两个ID，如账号和邮箱之间的直接对应关系都有一个预设的置信度。而所有的ID根据两两关联构成了一张图，那么每个ID的置信度会根据这张网的结构传播给其他相关联的ID，同时也从其他ID那边接收置信度，而直接对应关系的置信度不变。当算法迭代收敛时，高置信度的ID就是可信的。同一个子图内的ID就标识了同一个用户。

3.将规范数据与非结构化数据中的文件内容、摘要进行关联，将匹配关联后的规范数据与非结构化数据中提取的文件内容、摘要通过结构化数据唯一ID和第一库表中各个记录的文件名字段进行关联。

4.将规范数据与图片库内存储的图片进行关联，将上述与非结构化数据中文件内容、摘要进行关联的规范数据与图片库中的图片进行关联，通过规范数据具有唯一ID和图片的文件名之间的关联关系进行匹配。

完成规范数据与非结构化数据的关联之后，则可以将关联结果打包成zip文件，在本发明实施例中，zip文件中结构化数据用bcp格式存储，提取出的图片用png格式存储，每个zip中存在一个xml文件对数据字段进行描述。

需要说明的是，在本发明实施例中，结构化数据和非结构化数据进行关联之后，还提供了好了数据加工方法，具体包括：

1.将zip文件接入至HDFS，首先通过JAVA多线程程序，将zip文件转成bson格式，接入至kafka，然后通过大数据SparkStreaming，读取kafka中的数据写入HDFS。

2.将HDFS上zip文件所包括的结构化数据加载到HIVE，加载完成后，将HIVE上的结构化数据转换成hfile存储格式，加工至HBASE，HBASE存储结构化数据详情，其中，结构化数据的ROWKEY设计采用唯一ID加时间戳的方式。

3.将HDFS上zip文件所包括的非结构化数据提取的图片加工至HBASE，HDFS上的图片以Base64编码的二进制字节流存储，通过大数据Spark程序，将图片加工至HBASE，图片数据的ROWKEY设计采用文件名、文件MD5加时间戳的方式。

4、将HDFS上zip文件所包括的结构化数据加工至ES，ES只存储结构化数据对应HBASE的索引(ROWKEY)，索引生成规则与HBASE创建索引方式保持一致；ES全文检索配置，对ES中结构化数据需全文检索字段设置KeyWord属性，为了减小ES存储压力，不存储结构化数据详情。

需要说明的是，在本发明实施例中，ES存储HBASE的ROWKEY信息，HBASE存储结构化数据详情和非结构化数据内容。

进一步地，完成对海量数据加工之后，则上述数据若进行查询时，则可以通过输入关键词进行全文检索或者特定标识进行精确查询，通过查询，展示某个个体完整信息。

具体的，检索过程可以包括：

步骤6.1、输入关键词或特定标识，发起查询。

步骤6.2、查询服务首先查询ES，ES返回查询结果数据的ROWKEY，查询服务通过ROWKEY查询HBASE，获取记录详情和图片。

步骤6.3、应用结果页面对查询到的结构化数据、文件内容、摘要、图片进行全面展示。

综上所述，本发明实施例提供一种数据特征提取、匹配方法及装置，该方法包括：利用图形化界面配置，将结构化数据写入原始数据库表中，其中，所述原始数据库表位于大数据平台hive目录下；利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载至大数据平台hive目录下的目标库表；从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要，其中，一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名；基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。该方法将多种数据源接入到大数据平台，利用大数据平台的ETL能力，完成结构化数据的清洗、标准化、关联；针对非结构化数据采用特征匹配方法提取文件内容、摘要、图片等信息，基于ID-Mapping技术，将多种不同来源的结构化数据和非结构化数据中提取的文件内容、摘要、图片等进行关联打包；该方法非结构化数据中关键信息进行提取，避免重要信息丢失；基于ID-Mapping技术对多种来源数据进行匹配关联，从而消除数据孤岛，对数据进行最大限度整合；利用大数据技术，快速准确进行数据清洗、处理，解决了现有技术数据处理和查询存在的缺陷。

基于同一发明构思，本发明实施例提供了一种数据特征提取、匹配装置，由于该装置解决技术问题的原理与一种数据特征提取、匹配方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

图2为本发明实施例提供的一种数据特征提取、匹配装置结构示意图，如图2所示，该装置主要包括，写入单元201，第一得到单元202，第二得到单元203和关联单元204。

写入单元201，用于利用图形化界面配置，将结构化数据写入原始数据库表中，其中，所述原始数据库表位于大数据平台hive目录下；

第一得到单元202，用于利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作，得到规范数据，将规范数据加载至大数据平台hive目录下的目标库表；

第二得到单元203，用于从非结构化数据中提取包括文件内容、摘要、图片的非结构数据，对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库；将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中，所述第一库表包括非结构文件的文件名、文件内容和摘要，其中，一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名；

关联单元204，用于基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，将具有关联关系的匹配结果打包为zip文件。

优选地，所述关联单元204具体用于：

对具有相同来源的所述规范数据通过标识进行关联；

优选地，所述结构化数据包括实时数据和离线数据；

所述写入单元201具体用于：

优选地，所述第二得到单元203具体用于：

所述关联单元204还用于：

应当理解，以上一种数据特征提取、匹配装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分，实际应用中，可以进行上述单元的叠加或拆分。并且该实施例提供的一种数据特征提取、匹配装置所实现的功能与上述实施例提供的一种数据特征提取、匹配方法一一对应，对于该装置所实现的更为详细的处理流程，在上述方法实施例一中已做详细描述，此处不再详细描述。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据特征提取、匹配方法，其特征在于，包括：

2.如权利要求1所述的数据特征提取、匹配方法，其特征在于，所述基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联，具体包括：

对具有相同来源的所述规范数据通过标识进行关联；

3.如权利要求1所述数据特征提取、匹配方法，其特征在于，所述结构化数据包括实时数据和离线数据；

所述将结构化数据写入原始数据库表中，具体包括：

4.如权利要求1所述数据特征提取、匹配方法，其特征在于，所述对提取的图片采用原始文件名加序号加时间戳的方式命名，形成图片库，具体包括：

5.如权利要求1所述数据特征提取、匹配方法，其特征在于，所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储，每个zip中存在一个xml文件对数据字段进行描述；

6.一种数据特征提取、匹配装置，其特征在于，包括：

7.如权利要求1所述的数据特征提取、匹配装置，其特征在于，所述关联单元具体用于：

对具有相同来源的所述规范数据通过标识进行关联；

8.如权利要求1所述数据特征提取、匹配装置，其特征在于，所述结构化数据包括实时数据和离线数据；

所述写入单元具体用于：

9.如权利要求1所述数据特征提取、匹配装置，其特征在于，所述第二得到单元具体用于：

10.如权利要求1所述数据特征提取、匹配装置，其特征在于，所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储，每个zip中存在一个xml文件对数据字段进行描述；

所述关联单元还用于：