CN112395292B - 一种数据特征提取、匹配方法及装置 - Google Patents
一种数据特征提取、匹配方法及装置 Download PDFInfo
- Publication number
- CN112395292B CN112395292B CN202011335129.XA CN202011335129A CN112395292B CN 112395292 B CN112395292 B CN 112395292B CN 202011335129 A CN202011335129 A CN 202011335129A CN 112395292 B CN112395292 B CN 112395292B
- Authority
- CN
- China
- Prior art keywords
- data
- file
- unstructured
- pictures
- abstract
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000000605 extraction Methods 0.000 title claims abstract description 24
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 238000004806 packaging method and process Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 14
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 abstract description 15
- 238000004891 communication Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 10
- 239000000284 extract Substances 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000004075 alteration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000024780 Urticaria Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种数据特征提取、匹配方法及装置,涉及通信技术领域。该方法包括:利用图形化界面配置,将结构化数据写入原始数据库表中;利用大平台ETL能力对结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要;基于ID‑Mapping将目标库表中的规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。
Description
技术领域
本发明涉及通信技术领域,更具体的涉及一种数据特征提取、匹配方法及装置。
背景技术
随着信息技术的飞速发展,海量数据成为最具价值的财富,而海量数据绝大多数为非结构化,如何从这些非结构化数据中快速、准确提取出有价值的信息,并将这些有价值的信息与结构化数据串联起来,形成一个完整数据视图,成为各行各业关注的热点。
例如在某些特殊领域,通过多种途径可以获取到个体的多种属性数据,如自然属性(性别、年龄、星座等)、社会属性(职业、出生地、电话号码等)、行为属性(活动轨迹、邮件内容等),这些属性分布于各种格式的结构化和非结构化数据中,如何将这些属性进行提取和关联,对全面分析个体具有重要意义。
目前对海量数据主要根据数据来源进行匹配,同一来源数据通过某个强标识进行关联,不同来源数据分别存储在不同的业务系统中,分析这些数据时一般都是结构化数据和非结构化数据分开进行查询,结构化数据按照字段进行检索,相应的检索必须到对应的业务模块下进行,非结构化数据一般根据业务存储在相应文件目录中,通过文件名进行查询。
由于海量数据数据量巨大、类型多样,通过多种途径获取的数据存储格式和数据种类繁多,并且绝大多数为非结构化和半结构化,而一些关键的信息往往存在于非结构化数据中。因此现有数据处理和查询的方式会存在以下几个缺点:1)现有技术对结构化数据采用分开存储和查询的方式,造成了不同来源的数据没有进行关联匹配;2)因为没有对非结构化数据进行特征提取,会造成重要信息丢失,如文件内容、文件中的图片等,在查询分析时无法通过简单操作全面直观展示查询结果;3)只支持字段精确查询,对于结构化数据和从非结构数据中提取出的某些摘要、内容信息等无法进行全文检索。
发明内容
本发明实施例提供一种数据特征提取、匹配方法及装置,对非结构化数据中关键信息进行提取,避免重要信息丢失;对多种来源数据进行匹配关联,从而消除数据孤岛,对数据进行最大限度整合。
本发明实施例提供一种数据特征提取、匹配方法,包括:
利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;
利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;
从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;
基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。
优选地,所述基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联,具体包括:
对具有相同来源的所述规范数据通过标识进行关联;
对具有不同来源的所述规范数据和所述非结构数据,基于人工规则和机器学习的方式,确定所述规范数据和所述非结构数据的ID,根据ID将所述规范数据和所述非结构数据进行关联;
将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联,将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联;
将匹配关联的所述规范数据与图片库包括的图片进行关联,通过ID和图片名称之间的关联关系进行匹配。
优选地,所述结构化数据包括实时数据和离线数据;
所述将结构化数据写入原始数据库表中,具体包括:
利用图形化界面配置kafka数据源,将所述实时数据基于F link接入至大数据平台,并存储至位于大数据平台hive目录下的所述原始数据库表中;
利用图形化界面配置离线数据库链接,基于data X将离线数据库链接对应的数据库接入至大数据平台,存储至位于大数据平台hive目录下的所述原始数据库表中。
优选地,所述对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库,具体包括:
根据非结构化数据中非结构文件的文件名、非结构文件中包括的图片的数量、系统当前时间,对从非结构文件中提取的所述图片进行命名;
将从非结构化数据中提取的图片存储在一个目录下,并形成图片库。
优选地,所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储,每个zip中存在一个xml文件对数据字段进行描述;
所述将具有关联关系的匹配结果打包为zip文件之后,还包括:
将所述zip文件接入至HDFS,将HDFS上的zip文件加工至ES和HBASE,其中,ES存储HBASE的ROWKEY信息,HBASE存储结构化数据详情和非结构化数据内容。
本发明实施例还提供了一种数据特征提取、匹配装置,包括:
写入单元,用于利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;
第一得到单元,用于利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;
第二得到单元,用于从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;
关联单元,用于基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。
优选地,所述关联单元具体用于:
对具有相同来源的所述规范数据通过标识进行关联;
对具有不同来源的所述规范数据和所述非结构数据,基于人工规则和机器学习的方式,确定所述规范数据和所述非结构数据的ID,根据ID将所述规范数据和所述非结构数据进行关联;
将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联,将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联;
将匹配关联的所述规范数据与图片库包括的图片进行关联,通过ID和图片名称之间的关联关系进行匹配。
优选地,所述结构化数据包括实时数据和离线数据;
所述写入单元具体用于:
利用图形化界面配置kafka数据源,将所述实时数据基于F link接入至大数据平台,并存储至位于大数据平台hive目录下的所述原始数据库表中;
利用图形化界面配置离线数据库链接,基于data X将离线数据库链接对应的数据库接入至大数据平台,存储至位于大数据平台hive目录下的所述原始数据库表中。
优选地,所述第二得到单元具体用于:
根据非结构化数据中非结构文件的文件名、非结构文件中包括的图片的数量、系统当前时间,对从非结构文件中提取的所述图片进行命名;
将从非结构化数据中提取的图片存储在一个目录下,并形成图片库。
优选地,所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储,每个zip中存在一个xml文件对数据字段进行描述;
所述关联单元还用于:
将所述zip文件接入至HDFS,将HDFS上的zip文件加工至ES和HBASE,其中,ES存储HBASE的ROWKEY信息,HBASE存储结构化数据详情和非结构化数据内容。
本发明实施例提供一种数据特征提取、匹配方法及装置,该方法包括:利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。该方法将多种数据源接入到大数据平台,利用大数据平台的ETL能力,完成结构化数据的清洗、标准化、关联;针对非结构化数据采用特征匹配方法提取文件内容、摘要、图片等信息,基于ID-Mapping技术,将多种不同来源的结构化数据和非结构化数据中提取的文件内容、摘要、图片等进行关联打包;该方法非结构化数据中关键信息进行提取,避免重要信息丢失;基于ID-Mapping技术对多种来源数据进行匹配关联,从而消除数据孤岛,对数据进行最大限度整合;利用大数据技术,快速准确进行数据清洗、处理,解决了现有技术数据处理和查询存在的缺陷。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据特征提取、匹配方法流程示意图;
图2为本发明实施例提供的一种数据特征提取、匹配装置结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例提供的一种数据特征提取、匹配方法流程示意图。如图1所示,该方法主要包括以下步骤:
步骤101,利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;
步骤102,利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;
步骤103,从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;
步骤104,基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。
本发明实施例提供的数据包括有结合化数据和非结构化数据,在步骤101和步骤102中主要介绍的是结构化数据,而步骤103介绍的是非结构化数据。
在步骤101中,结构化数据的写入分为实时数据的写入和离线数据的写入。其中,实时数据接入主要基于kafka、F link等大数据技术实现,离线数据接入主要基于data X技术实现,离线接入支持关系型数据库(oracle、mysql、sqlServer)、hive等多种数据源。
实时数据接入时:
利用图形化界面配置kafka数据源(topic、IP等),通过JAVA程序检测topic是否存在,从而确定kafka是否连接成功。
在大数据平台hive的目录下中创建原始数据库表,将实时数据基于F link接入至大数据平台,F link从配置的topic中实时读取实时数据,将读取的实时数据写入至大数据平台hive的目录下的原始数据库表内。
离线数据接入时:
利用图形化界面配置离线数据库链接,其中,数据库链接可以包括数据库实例名、IP、端口、表名等。在本发明实施例中,不同类型数据库选择对应的配置模板。
在大数据平台hive中创建原始数据库表,基于data X离线数据库链接对应的数据库接入至大数据平台,存储至大数据平台hive目录下的原始数据库表内。
本发明实施例中,结构化数据处理是基于大数据平台的ETL(英文为:Extract-Transform-Load)能力,将原始数据库表内存储的结构化数据进行了清洗、标准化、关联等。
在步骤102中,在大数据平台hive的目录下创建目标库表,基于行业标准,对原始数据库表内的结构化数据利用大平台ETL能力进行清洗、去重、编码转换等操作,确保数据格式符合规范要求,得到规范数据。
将规范数据添加到目标库表中。在本发明实施例中,步骤101步骤102中对结构化数据进行处理之后,主要是要用于后续的关联。
在步骤103中,针对非结构化数据特征提取主要是从pdf、word等非结构化文件中提取文件内容、摘要、图片。在本发明实施例中,为了避免名字重复,对提取出的图片采用原始文件名加序号加时间戳的方式进行命名。
具体地,通过JAVA多线程程序,读取不同业务存储目录下的pdf、word等非结构化文件,根据特征匹配方法,提取文件内容、摘要、图片。
结合原始非结构化数据包括的非结构化文件的文件名、非结构化文件中图片数量、系统当前时间,对提取出的图片进行命名,通过上述命名方式,可以避免相同的两个图片具有相同的图片名称。进一步地,将从非结构化数据中提取出的图片统一存储在一个目录,形成图片库,后续根据图片名与结构化数据进行关联匹配。
进一步地,在大数据平台hive的目录下创建第一库表,该第一库表中包括有非结构文件的文件名、文件内容、摘要,将非结构数据中的非结构化文件的文件名、文件内容和摘要存储至第一库表。后续根据文件名与结构化数据进行关联匹配。
完成结构化数据和非结构化数据的处理之后,则可以对结构化数据和非结构化数据进行关联。
在步骤104中,基于ID-Mapping将目标库表中的规范数据与第一库表和图片库中的的非结构化数据进行关联,具体包括以下几种关联方式:
1.基于强标识做Mapping,首先将具有相同来源结构化数据中的规范数据通过某一强标识进行关联,关联规则一般参考原始数据库描述,在描述不清晰情况下通过数据理解进行关联。
需要说明的是,在本发明实施例中,强标识可以是手机号,也可以是身份证号,在实际应用中,对强标识的具体情形不做限定。
2.基于用户行为做Mapping,对于具有不同来源的规范数据和非结构化数据,由于多种ID会存在一对多、多对多的关系,或者无法找到某个强标识进行关联,因此需要通过基于人工规则和机器学习的方式,从多个行为维度来确定ID,将多种来源数据串联起来。
具体地,机器学习的过程是给每一个ID,以及两个ID,如账号和邮箱之间的直接对应关系都有一个预设的置信度。而所有的ID根据两两关联构成了一张图,那么每个ID的置信度会根据这张网的结构传播给其他相关联的ID,同时也从其他ID那边接收置信度,而直接对应关系的置信度不变。当算法迭代收敛时,高置信度的ID就是可信的。同一个子图内的ID就标识了同一个用户。
3.将规范数据与非结构化数据中的文件内容、摘要进行关联,将匹配关联后的规范数据与非结构化数据中提取的文件内容、摘要通过结构化数据唯一ID和第一库表中各个记录的文件名字段进行关联。
4.将规范数据与图片库内存储的图片进行关联,将上述与非结构化数据中文件内容、摘要进行关联的规范数据与图片库中的图片进行关联,通过规范数据具有唯一ID和图片的文件名之间的关联关系进行匹配。
完成规范数据与非结构化数据的关联之后,则可以将关联结果打包成zip文件,在本发明实施例中,zip文件中结构化数据用bcp格式存储,提取出的图片用png格式存储,每个zip中存在一个xml文件对数据字段进行描述。
需要说明的是,在本发明实施例中,结构化数据和非结构化数据进行关联之后,还提供了好了数据加工方法,具体包括:
1.将zip文件接入至HDFS,首先通过JAVA多线程程序,将zip文件转成bson格式,接入至kafka,然后通过大数据SparkStreaming,读取kafka中的数据写入HDFS。
2.将HDFS上zip文件所包括的结构化数据加载到HIVE,加载完成后,将HIVE上的结构化数据转换成hfile存储格式,加工至HBASE,HBASE存储结构化数据详情,其中,结构化数据的ROWKEY设计采用唯一ID加时间戳的方式。
3.将HDFS上zip文件所包括的非结构化数据提取的图片加工至HBASE,HDFS上的图片以Base64编码的二进制字节流存储,通过大数据Spark程序,将图片加工至HBASE,图片数据的ROWKEY设计采用文件名、文件MD5加时间戳的方式。
4、将HDFS上zip文件所包括的结构化数据加工至ES,ES只存储结构化数据对应HBASE的索引(ROWKEY),索引生成规则与HBASE创建索引方式保持一致;ES全文检索配置,对ES中结构化数据需全文检索字段设置KeyWord属性,为了减小ES存储压力,不存储结构化数据详情。
需要说明的是,在本发明实施例中,ES存储HBASE的ROWKEY信息,HBASE存储结构化数据详情和非结构化数据内容。
进一步地,完成对海量数据加工之后,则上述数据若进行查询时,则可以通过输入关键词进行全文检索或者特定标识进行精确查询,通过查询,展示某个个体完整信息。
具体的,检索过程可以包括:
步骤6.1、输入关键词或特定标识,发起查询。
步骤6.2、查询服务首先查询ES,ES返回查询结果数据的ROWKEY,查询服务通过ROWKEY查询HBASE,获取记录详情和图片。
步骤6.3、应用结果页面对查询到的结构化数据、文件内容、摘要、图片进行全面展示。
综上所述,本发明实施例提供一种数据特征提取、匹配方法及装置,该方法包括:利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。该方法将多种数据源接入到大数据平台,利用大数据平台的ETL能力,完成结构化数据的清洗、标准化、关联;针对非结构化数据采用特征匹配方法提取文件内容、摘要、图片等信息,基于ID-Mapping技术,将多种不同来源的结构化数据和非结构化数据中提取的文件内容、摘要、图片等进行关联打包;该方法非结构化数据中关键信息进行提取,避免重要信息丢失;基于ID-Mapping技术对多种来源数据进行匹配关联,从而消除数据孤岛,对数据进行最大限度整合;利用大数据技术,快速准确进行数据清洗、处理,解决了现有技术数据处理和查询存在的缺陷。
基于同一发明构思,本发明实施例提供了一种数据特征提取、匹配装置,由于该装置解决技术问题的原理与一种数据特征提取、匹配方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
图2为本发明实施例提供的一种数据特征提取、匹配装置结构示意图,如图2所示,该装置主要包括,写入单元201,第一得到单元202,第二得到单元203和关联单元204。
写入单元201,用于利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;
第一得到单元202,用于利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;
第二得到单元203,用于从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;
关联单元204,用于基于ID-Mapping将目标库表中的所述规范数据与第一库表和图片库中的非结构化数据进行关联,将具有关联关系的匹配结果打包为zip文件。
优选地,所述关联单元204具体用于:
对具有相同来源的所述规范数据通过标识进行关联;
对具有不同来源的所述规范数据和所述非结构数据,基于人工规则和机器学习的方式,确定所述规范数据和所述非结构数据的ID,根据ID将所述规范数据和所述非结构数据进行关联;
将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联,将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联;
将匹配关联的所述规范数据与图片库包括的图片进行关联,通过ID和图片名称之间的关联关系进行匹配。
优选地,所述结构化数据包括实时数据和离线数据;
所述写入单元201具体用于:
利用图形化界面配置kafka数据源,将所述实时数据基于F link接入至大数据平台,并存储至位于大数据平台hive目录下的所述原始数据库表中;
利用图形化界面配置离线数据库链接,基于data X将离线数据库链接对应的数据库接入至大数据平台,存储至位于大数据平台hive目录下的所述原始数据库表中。
优选地,所述第二得到单元203具体用于:
根据非结构化数据中非结构文件的文件名、非结构文件中包括的图片的数量、系统当前时间,对从非结构文件中提取的所述图片进行命名;
将从非结构化数据中提取的图片存储在一个目录下,并形成图片库。
优选地,所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储,每个zip中存在一个xml文件对数据字段进行描述;
所述关联单元204还用于:
将所述zip文件接入至HDFS,将HDFS上的zip文件加工至ES和HBASE,其中,ES存储HBASE的ROWKEY信息,HBASE存储结构化数据详情和非结构化数据内容。
应当理解,以上一种数据特征提取、匹配装置包括的单元仅为根据该设备装置实现的功能进行的逻辑划分,实际应用中,可以进行上述单元的叠加或拆分。并且该实施例提供的一种数据特征提取、匹配装置所实现的功能与上述实施例提供的一种数据特征提取、匹配方法一一对应,对于该装置所实现的更为详细的处理流程,在上述方法实施例一中已做详细描述,此处不再详细描述。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种数据特征提取、匹配方法,其特征在于,包括:
利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;
利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;
从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;
对具有相同来源的所述规范数据通过标识进行关联;对具有不同来源的所述规范数据和所述非结构数据,基于人工规则和机器学习的方式,确定所述规范数据和所述非结构数据的ID,根据ID将所述规范数据和所述非结构数据进行关联;将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联,将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联;将匹配关联的所述规范数据与图片库包括的图片进行关联,通过ID和图片名称之间的关联关系进行匹配,将具有关联关系的匹配结果打包为zip文件。
2.如权利要求1所述数据特征提取、匹配方法,其特征在于,所述结构化数据包括实时数据和离线数据;
所述将结构化数据写入原始数据库表中,具体包括:
利用图形化界面配置kafka数据源,将所述实时数据基于F link接入至大数据平台,并存储至位于大数据平台hive目录下的所述原始数据库表中;
利用图形化界面配置离线数据库链接,基于data X将离线数据库链接对应的数据库接入至大数据平台,存储至位于大数据平台hive目录下的所述原始数据库表中。
3.如权利要求1所述数据特征提取、匹配方法,其特征在于,所述对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库,具体包括:
根据非结构化数据中非结构文件的文件名、非结构文件中包括的图片的数量、系统当前时间,对从非结构文件中提取的所述图片进行命名;
将从非结构化数据中提取的图片存储在一个目录下,并形成图片库。
4.如权利要求1所述数据特征提取、匹配方法,其特征在于,所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储,每个zip中存在一个xml文件对数据字段进行描述;
所述将具有关联关系的匹配结果打包为zip文件之后,还包括:
将所述zip文件接入至HDFS,将HDFS上的zip文件加工至ES和HBASE,其中,ES存储HBASE的ROWKEY信息,HBASE存储结构化数据详情和非结构化数据内容。
5.一种数据特征提取、匹配装置,其特征在于,包括:
写入单元,用于利用图形化界面配置,将结构化数据写入原始数据库表中,其中,所述原始数据库表位于大数据平台hive目录下;
第一得到单元,用于利用大平台ETL能力对所述原始数据库表中的所述结构化数据进行清洗、去重、编码转换操作,得到规范数据,将规范数据加载至大数据平台hive目录下的目标库表;
第二得到单元,用于从非结构化数据中提取包括文件内容、摘要、图片的非结构数据,对提取的图片采用原始文件名加序号加时间戳的方式命名,形成图片库;将非结构化数据中的非结构文件的文件名、文件内容、摘要加载至第一库表中,所述第一库表包括非结构文件的文件名、文件内容和摘要,其中,一个图片对应一个图片名称、一个摘要和一个非结构文件的文件名;
关联单元,用于对具有相同来源的所述规范数据通过标识进行关联;对具有不同来源的所述规范数据和所述非结构数据,基于人工规则和机器学习的方式,确定所述规范数据和所述非结构数据的ID,根据ID将所述规范数据和所述非结构数据进行关联;将所述规范数据和所述非结构数据包括的文件内容、摘要进行关联,将从匹配关联的所述规范数据和所述非结构数据中提取的文件内容、摘要与所述第一库表中包括的文件内容进行关联;将匹配关联的所述规范数据与图片库包括的图片进行关联,通过ID和图片名称之间的关联关系进行匹配,将具有关联关系的匹配结果打包为zip文件。
6.如权利要求5所述数据特征提取、匹配装置,其特征在于,所述结构化数据包括实时数据和离线数据;
所述写入单元具体用于:
利用图形化界面配置kafka数据源,将所述实时数据基于F link接入至大数据平台,并存储至位于大数据平台hive目录下的所述原始数据库表中;
利用图形化界面配置离线数据库链接,基于data X将离线数据库链接对应的数据库接入至大数据平台,存储至位于大数据平台hive目录下的所述原始数据库表中。
7.如权利要求5所述数据特征提取、匹配装置,其特征在于,所述第二得到单元具体用于:
根据非结构化数据中非结构文件的文件名、非结构文件中包括的图片的数量、系统当前时间,对从非结构文件中提取的所述图片进行命名;
将从非结构化数据中提取的图片存储在一个目录下,并形成图片库。
8.如权利要求5所述数据特征提取、匹配装置,其特征在于,所述zip文件中包括的结构化数据用bcp格式存储、图片用png格式存储,每个zip中存在一个xml文件对数据字段进行描述;
所述关联单元还用于:
将所述zip文件接入至HDFS,将HDFS上的zip文件加工至ES和HBASE,其中,ES存储HBASE的ROWKEY信息,HBASE存储结构化数据详情和非结构化数据内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011335129.XA CN112395292B (zh) | 2020-11-25 | 2020-11-25 | 一种数据特征提取、匹配方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011335129.XA CN112395292B (zh) | 2020-11-25 | 2020-11-25 | 一种数据特征提取、匹配方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395292A CN112395292A (zh) | 2021-02-23 |
CN112395292B true CN112395292B (zh) | 2024-03-29 |
Family
ID=74606312
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011335129.XA Active CN112395292B (zh) | 2020-11-25 | 2020-11-25 | 一种数据特征提取、匹配方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395292B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113253685B (zh) * | 2021-05-31 | 2021-09-24 | 航天中认软件测评科技(北京)有限责任公司 | 一种工业数据采集方法、装置、设备及介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116643A (zh) * | 2013-02-25 | 2013-05-22 | 江苏物联网研究发展中心 | 基于Hadoop的智慧医疗数据管理方法 |
CN103631909A (zh) * | 2013-11-26 | 2014-03-12 | 烽火通信科技股份有限公司 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
CN105808712A (zh) * | 2016-03-07 | 2016-07-27 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN108228101A (zh) * | 2017-12-28 | 2018-06-29 | 北京盛和大地数据科技有限公司 | 一种管理数据的方法和系统 |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
CN110674360A (zh) * | 2019-09-27 | 2020-01-10 | 厦门美亚亿安信息科技有限公司 | 一种用于数据关联图谱的构建和数据的溯源方法和系统 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
CN111611418A (zh) * | 2019-02-25 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 数据存储方法及数据查询方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100161616A1 (en) * | 2008-12-16 | 2010-06-24 | Carol Mitchell | Systems and methods for coupling structured content with unstructured content |
US10303704B2 (en) * | 2016-02-23 | 2019-05-28 | Oracle International Corporation | Processing a data set that is not organized according to a schema being used for organizing data |
US10691885B2 (en) * | 2016-03-30 | 2020-06-23 | Evernote Corporation | Extracting structured data from handwritten and audio notes |
JP7046592B2 (ja) * | 2017-12-21 | 2022-04-04 | 株式会社日立製作所 | 検索支援システム、検索支援方法、及び検索支援プログラム |
US11030264B2 (en) * | 2018-12-30 | 2021-06-08 | Superfy Technologies Ltd. | Systems and methods for matching a query |
-
2020
- 2020-11-25 CN CN202011335129.XA patent/CN112395292B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103116643A (zh) * | 2013-02-25 | 2013-05-22 | 江苏物联网研究发展中心 | 基于Hadoop的智慧医疗数据管理方法 |
CN103631909A (zh) * | 2013-11-26 | 2014-03-12 | 烽火通信科技股份有限公司 | 对大规模结构化和非结构化数据联合处理的系统及方法 |
CN105808712A (zh) * | 2016-03-07 | 2016-07-27 | 陈宽 | 将文本类医疗报告转换为结构化数据的智能系统及方法 |
CN106611046A (zh) * | 2016-12-16 | 2017-05-03 | 武汉中地数码科技有限公司 | 基于大数据技术的空间数据存储处理中间件框架 |
CN108228101A (zh) * | 2017-12-28 | 2018-06-29 | 北京盛和大地数据科技有限公司 | 一种管理数据的方法和系统 |
CN109344298A (zh) * | 2018-10-31 | 2019-02-15 | 南方电网科学研究院有限责任公司 | 一种将非结构化数据转化为结构化数据的方法及装置 |
CN111611418A (zh) * | 2019-02-25 | 2020-09-01 | 阿里巴巴集团控股有限公司 | 数据存储方法及数据查询方法 |
CN110674360A (zh) * | 2019-09-27 | 2020-01-10 | 厦门美亚亿安信息科技有限公司 | 一种用于数据关联图谱的构建和数据的溯源方法和系统 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
Automated domain-specific healthcare knowledge graph curation framework: Subarachnoid hemorrhage as phenotype;Khalid Mahmood Malik 等;《Expert Systems with Applications》;1-15 * |
知识图谱在电网全业务统一数据中心的应用;王渊 等;《计算机工程与应用》;104-109 * |
高速铁路联调联试数据管理技术研究与应用;杨东盛 等;《中国铁路》;69-76 * |
Also Published As
Publication number | Publication date |
---|---|
CN112395292A (zh) | 2021-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210342404A1 (en) | System and method for indexing electronic discovery data | |
CN109446344B (zh) | 一种基于大数据的智能分析报告自动生成系统 | |
US20190236102A1 (en) | System and method for differential document analysis and storage | |
CN109213756B (zh) | 数据存储、检索方法、装置、服务器和存储介质 | |
US7487174B2 (en) | Method for storing text annotations with associated type information in a structured data store | |
US9223817B2 (en) | Virtual repository management | |
CN111259006A (zh) | 一种通用的分布式异构数据一体化物理汇聚、组织、发布与服务方法及系统 | |
CN112000773B (zh) | 基于搜索引擎技术的数据关联关系挖掘方法及应用 | |
US8880463B2 (en) | Standardized framework for reporting archived legacy system data | |
CN111274294B (zh) | 一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统 | |
US20140195532A1 (en) | Collecting digital assets to form a searchable repository | |
CN110019542B (zh) | 企业关系的生成、生成组织成员数据库及识别同名成员 | |
CN112269816B (zh) | 一种政务预约事项相关性检索方法 | |
CN114356967A (zh) | 一种专业情报搜集分析应用平台 | |
CN110737729A (zh) | 基于知识图谱理念和技术的工程图谱数据信息管理方法 | |
CN115422155A (zh) | 一种数据湖元数据模型的建模方法 | |
CN112395292B (zh) | 一种数据特征提取、匹配方法及装置 | |
CN111221967A (zh) | 一种基于区块链架构的语言数据分类存储系统 | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN102339284B (zh) | 数据库索引的建立方法及其电脑系统 | |
CN111680072A (zh) | 基于社交信息数据的划分系统及方法 | |
US7873659B2 (en) | Database management system, database management method and database management program | |
CN110704421A (zh) | 数据处理方法、装置、设备和计算机可读存储介质 | |
CN112015725B (zh) | 一种数据管理方法和装置 | |
CN118013094A (zh) | 一种非结构化指标评估数据的处理方法、系统及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |