CN108470040B - 一种非结构化数据的入库方法及装置 - Google Patents

一种非结构化数据的入库方法及装置 Download PDF

Info

Publication number
CN108470040B
CN108470040B CN201810139690.7A CN201810139690A CN108470040B CN 108470040 B CN108470040 B CN 108470040B CN 201810139690 A CN201810139690 A CN 201810139690A CN 108470040 B CN108470040 B CN 108470040B
Authority
CN
China
Prior art keywords
data
file
storage
full name
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810139690.7A
Other languages
English (en)
Other versions
CN108470040A (zh
Inventor
肖高杰
王景春
胡瑛
王玉华
徐锋
客伟利
范兴燕
程小岛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Petrochina Co Ltd
Original Assignee
Petrochina Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Petrochina Co Ltd filed Critical Petrochina Co Ltd
Priority to CN201810139690.7A priority Critical patent/CN108470040B/zh
Publication of CN108470040A publication Critical patent/CN108470040A/zh
Application granted granted Critical
Publication of CN108470040B publication Critical patent/CN108470040B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种非结构化数据的入库方法及装置。所述方法包括:构建待入库数据的索引信息表,索引信息表中包括:节点全名和分类节点,节点全名包括分类节点对应的存储位置;获取待入库数据的文件全名信息,构建待入库数据的文件全名信息表;根据文件全名信息表和索引信息表,将待入库数据进行归类和规范命名,获得待入库数据的归类节点和规范文件名;根据归类节点和分类节点,获得待入库数据对应的节点全名;根据节点全名和规范文件名,获得待入库数据的入库文件全名,根据入库文件全名、文件全名信息将待入库数据存入对应的位置处。利用本申请中各实施例,可以提高非结构化数据的入库质量和效率。

Description

一种非结构化数据的入库方法及装置
技术领域
本申请属于数据处理技术领域,尤其涉及一种非结构化数据的入库方法及装置。
背景技术
大数据通常可以包括结构化数据和非结构化数据,随着网络技术的发展,非结构化数据越来越多,对于非结构化数据的存储和管理是一项重要的工作。为了更好保留及共享具有价值的不同类型文件,越来越多的企业采用云存储技术来实现这些非结构化数据的存储。
相对于结构化数据的存储和管理,非结构化数据则显得较随意,故其存储入库方式也较为形式多样,非结构化数据的存储基本可以分为2类:一类是根据入库管理要求,直接把文件或文件夹复制到指定的存放位置,如有需要,再对文件或文件夹做重命名,并在管理员的备案上做好登记,这属于纯手工入库方式;另一类是根据系统提供的文件传输工具,把文件复制到指定位置,软件自动记下文件上传与存放位置的记录日志,这属于手工为主,软件为辅的入库方式。但是,随着资料积累,非结构化数据越来越多,存在着不同或相同阶段的同一文件或同名文件夹存放在多个不同文件夹下的情况。现有技术中,直接将文件或文件夹入库的方式,会导致入库后的数据杂乱的问题凸显,影响了非结构化数据的入库质量。同时,手动方式的文件重命名或文件复制,易存在张冠李戴、错误难以及时发现、查找源头困难等问题,也会导致非结构化数据的入库质量降低,同时影响数据入库的效率。
因此,业内亟需一种能够进一步提高非结构化数据的入库质量的实施方案。
发明内容
本申请目的在于提供一种非结构化数据的入库方法及装置,提高了非结构化数据的入库质量和入库效率。
一方面本申请提供了一种非结构化数据的入库方法,包括:
构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点;
根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处。
进一步地,所述方法的另一个实施例中,所述方法还包括:
构建所述待入库数据的文件全名信息表后,获取所述待入库数据的基本信息;
将所述基本信息加入所述文件全名信息表中,对所述文件全名信息表进行第一次扩充;
对第一次扩充后的文件全名信息表进行第一去重处理,所述第一去重处理包括:
将所述入库前文件名相同、所述基本信息相同、所述文件全名信息不同的待入库数据对应的文件全名信息和基本信息作为第一重复文件信息,保留任意一个第一重复文件信息,将未被保留的第一重复文件信息从所述基本属性信息表中删除;
相应的,所述根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点,包括:
根据第一去重处理后的文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点。
进一步地,所述方法的另一个实施例中,所述将未被保留的第一重复文件信息从所述基本属性信息表中删除,包括:
将所述未被保留的第一重复文件信息从所述基本属性信息表中删除并存储到重复文件信息表中。
进一步地,所述方法的另一个实施例中,所述方法还包括::
获取所述待入库数据的标识信息,将所述标识信息加入所述文件全名信息表中,对所述文件全名信息表进行第二次扩充;
根据所述标识信息、所述文件全名信息,确定所述待入库数据的单元名、规范名关键词;
根据所述单元名、规范名关键词、所述基本信息,按照预先构建的规范命名规则,将所述待入库数据进行规范命名,构建所述待入库数据的规范文件名。
进一步地,所述方法的另一个实施例中,所述方法还包括:
获得所述待入库数据的规范文件名后,对第二次扩充后的文件全名信息表进行第二去重处理,所述第二去重处理包括:
将所述规范文件名、所述基本信息、所述标识信息均相同的待入库数据对应的文件全名信息、基本信息、标识信息作为第二重复文件信息,保留任意一个第二重复文件信息,将未被保留的第二重复文件信息从所述文件全名信息表中删除。
进一步地,所述方法的另一个实施例中,所述将未被保留的第二重复文件信息从所述信息综合表中删除,包括:
将所述未被保留的第二重复文件信息从所述信息综合表中删除并存储到重复文件信息表中。
进一步地,所述方法的另一个实施例中,所述根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处,包括:
根据所述待入库数据对应的节点全名、第二次去重处理后的文件全名信息表中的规范文件名,获得所述待入库数据的入库文件全名;
根据所述入库文件全名、所述文件全名信息将所述待入库数据存入对应的位置处。
进一步地,所述方法的另一个实施例中,所述方法还包括:
将所述待入库数据存入对应的位置处后,将所述规范文件名作为所述待入库数据的入库后文件名。
另一方面,本申请提供了一种非结构化数据的入库装置,包括:
索引信息构建模块,用于构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
文件全名信息构建模块,用于获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
规范命名模块,用于根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点;
数据归类模块,用于根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
数据入库模块,用于根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处。
再一方面,本申请还提供了一种非结构化数据的入库装置,包括处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点;
根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处。
又一方面,本申请还提供了一种非结构化数据的入库装置,包括:处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现上述非结构化数据的入库方法。
本申请提供的非结构化数据的入库方法及装置,在非结构化数据入库前,通过预先构建的索引信息表,将待入库数据入库后对应的存储位置进行合理的规划。并通过对待入库数据进行信息的整理,获取待入库数据的入库前存储位置、入库前文件名。根据获得的待入库数据的信息以及索引信息表,将待入库数据存储到指定的位置,方便待入库数据的规范管理。通过非结构化数据在入库前统一的信息整理,规范有序的将待入库数据存储到指定的位置,减少了非结构化数据入库出错率,提高了非结构化数据的入库质量。此外,本申请实施例采用数据表Excel自带的VBA环境和众多的字符串处理、文件处理等方面的函数,通过VBA语言编程,可以实现非结构化数据的自动化整理、自动化入库、批量入库处理等,减少了手动入库操作的出错率,提高了非结构化数据的入库效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请提供的非结构化数据的入库方法一个实施例的方法流程示意图;
图2是本申请又一实施例中非结构化数据的入库方法的流程示意图;
图3是本申请实施例中入库前待入库数据的树状图;
图4是本申请实施例中入库后待入库数据的树状图;
图5是本申请提供的非结构化数据的入库装置一个实施例的模块结构示意图;
图6是本申请提供的一种非结构化数据的入库系统实施例的模块结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便用数据库二维逻辑表来表现的数据可以称为非结构化数据。非结构化数据可以包括所有格式的办公文档、文本、图片、标准通用标记语言下的子集XML、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据不方便使用数据库二维逻辑表来表现,对非结构化数据的存储相对来说需要区别于结构化数据的存储。本申请实施例中的非结构化数据入库可以表示将非结构化数据进行存储,例如:可以将非结构化数据存储到磁盘、网络、数据库等。
本申请实施例在非结构化数据入库前基于Excel表格功能众多的函数、自带的VBA语言用编辑结构化数据表完成非结构化数据将非结构化数据在入库前进行了合理性整理与检查,再按照整理后的非结构化数据的信息,将非结构化数据进行入库存储。减少了因数据太多,未整理即入库导致的非结构化数据入库混乱,造成数据的重复、遗漏等问题,提高了非结构化数据的入库质量,同时,整个入库过程基于Excel表格功能众多的函数、自带的VBA(Visual Basic for Applications,是Visual Basic的一种宏语言,属于办公软件(如:office)里面的编程功能)语言自动完成,减少手动操作,提高了非结构化数据的入库效率。
具体地,图1是本申请提供的非结构化数据的入库方法一个实施例的方法流程示意图,本申请提供的非结构化数据的入库方法包括:
S1、构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置。
本申请一个实施例,可以采用采用编制分类节点和与该分类节点对应的节点位置的2列数据作为索引项,即通过构建分类节点和分类节点对应的位置来构建索引信息表。分类节点是数据文件的基本属性值,可以根据行业所涉及的业务流程与业务内容来确定。分类节点会因行业或管理需要的不同而各异,可以根据行业或管理需要,构建分类节点的目录树,通过遍历目录技术,获取各末级目录名获得分类节点。在确定分类节点(即专业分类)后,根据管理需要,先给每个分类节点指定磁盘(或网络位置),用于存放数据文件。分类节点对应的节点位置,可以根据管理需要而定,不同的管理方式,其存放位置可能不一样:如有从属关系的树状存放,也有一级方式的平行存放。
表1是本申请一个实施例中索引信息表的部分内容,如表1所示,分类节点对应的位置可以表示为节点全名,节点全名也可以表示待入库数据入库后的存储位置,通过分类节点对应的节点全名,确定待入库数据入库后的存储位置。
表1索引信息表(部分)
节点全名 分类节点
\\192.168.97.128\zxl\侏罗纪方案\1.项目信息\ 1.项目信息
\\192.168.97.128\zxl\侏罗纪方案\1.1项目背景\ 1.1项目背景
\\192.168.97.128\zxl\侏罗纪方案\1.1.1区域背景\ 1.1.1区域背景
\\192.168.97.128\zxl\侏罗纪方案\1.1.2项目概况\ 1.1.2项目概况
\\192.168.97.128\zxl\侏罗纪方案\1.1.3HSSE\ 1.1.3HSSE
\\192.168.97.128\zxl\侏罗纪方案\1.1.4第三方资料等\ 1.1.4第三方资料等
\\192.168.97.128\zxl\侏罗纪方案\1.2商务资料\ 1.2商务资料
\\192.168.97.128\zxl\侏罗纪方案\1.2.1合同与协议\ 1.2.1合同与协议
\\192.168.97.128\zxl\侏罗纪方案\1.2.2招投标文件\ 1.2.2招投标文件
\\192.168.97.128\zxl\侏罗纪方案\1.2.3法律文件\ 1.2.3法律文件
\\192.168.97.128\zxl\侏罗纪方案\1.2.4谈判文件\ 1.2.4谈判文件
\\192.168.97.128\zxl\侏罗纪方案\2.基础资料\ 2.基础资料
\\192.168.97.128\zxl\侏罗纪方案\2.1盆地及区块石油地质\ 2.1盆地及区块石油地质
\\192.168.97.128\zxl\侏罗纪方案\2.1.1区域地质\ 2.1.1区域地质
\\192.168.97.128\zxl\侏罗纪方案\2.1.2构造与沉积\ 2.1.2构造与沉积
\\192.168.97.128\zxl\侏罗纪方案\2.1.2.1盆地构造\ 2.1.2.1盆地构造
S2、获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名。
可以使用VBA遍历文件夹及其内含有的各级子文件夹中所有文件的技术,取得待入库数据对应的文件全名清单,文件全名清单中可以包括待入库数据的入库前存储位置,以及待入库数据入库前对应的入库前文件名。可以将获得的待入库数据的入库前文件名、入库前存储位置作为待入库数据的文件全名信息,把待入库数据的文件全名信息存放在数据表如Excel表中。形成非结构化数据入库前,用于采集所需信息、按入库要求做规范整理、和数据唯一性检查的文件全名信息表。表2是本申请一个实施例中文件全名信息表的部分内容,如表2所示,在表2中的文件全名信息中,可以看出待入库数据入库前对应的入库前存储位置以及入库前文件名。
具体使用时,可以通过Excel字符串处理函数,将待入库数据的文件全名信息中的入库前文件名与文件所在文件夹全名(可以表示为待入库数据的入库前存储位置)分离出来,分2列存放在文件全名信息表对应的行上。具体可以通过VBA编程语言,通过写代码,解析文件全名信息的字符串,找到文件全名信息中最后一个"\"的位置,根据该位置,把文件全名信息一分为二,前后两部分分别是文件所在文件夹全名(也可以称为待入库数据的入库前存储位置)和入库前文件名。如表2中,“E:\2_Meeting material\3ExplorationDepartment Meeting\LC构造图\BGP分中心\LC_Isopach_Donga.cgm”,“E:\2_Meetingmaterial\3Exploration Department Meeting\LC构造图\BGP分中心\”可以表示文件夹全名即待入库数据的入库前存储位置,“LC_Isopach_Donga.cgm”可以表示待入库数据的“入库前文件名”。
表2文件全名信息表(部分)
Figure BDA0001577258870000071
S3、根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点。
可以根据文件全名信息表中待入库数据的文件全名信息,以及索引表中的分类节点,将待入库数据进行归类,获得待入库数据对应的分类节点,作为该待入库数据的归类节点。
具体可以通过将待入库数据的文件全名信息和索引信息表中分类节点进行对比,或者将待入库数据的文件全名信息和构建索引信息表时使用的目录树进行对比,判断待入库数据属于哪一个分类节点,将待入库数据属于的分类节点作为该待入库数据的归类节点。例如:可以基于各专业有着特定的词,把那些专业特定的词抽出来,分别找到与其对应的分类节点,形成一个整理过程中的索引表,通过解析文件全名信息的字符串,初次找到该待入库数据所属的分类节点后,可以再人工检查和核对。
对于待入库数据的归类节点的判断,可以根据文件全名信息来判断,当文件全名信息无法判断出其归类节点时,可以根据文中内容来判断。例如:非图形与非音视频类的文件,如办公文档、文本、各类报表、pdf等类型文件,可以通过编写VBA代码,解析文件全名信息对应的文件中的内容,尽可能获取到需要采集的信息,如具体内容,关键词等,根据获得的信息判断待入库数据对应的归类节点。
S4、根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名。
可以将待入库数据对应的归类节点添加到文件全名信息表中,可以将文件全名信息表中待入库数据对应的归类节点和索引信息表中的分类节点进行关联,获得待入库数据对应的节点全名,即获得待入库数据入库后的存储位置。例如:通过关联文件全名信息表中的归类节点项和索引信息表中的分类节点项,若文件全名信息表中待入库数据的归类节点与索引信息表中某个分类节点相同,则可以将该分类节点对应的节点全名作为该待入库数据对应的节点全名,节点全名中包含的存储位置可以作为该待入库数据入库后的存储位置。
S5、根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处。
获得待入库数据的节点全名和文件全名信息后,可以根据待入库数据对应的节点全名获得待入库数据入库后对应的存储位置,根据待入库数据的文件全名信息可以获得待入库数据的入库前存储位置以及入库前文件名等信息。通过VBA编程语言,将需要入库的数据从入库前存储位置中复制移动到入库后需要存储的位置,完成待入库数据的入库操作,实现待入库数据的批量入库。
本申请实施例提供的非结构化数据的入库方法,在非结构化数据入库前,通过预先构建的索引信息表,将待入库数据入库后对应的存储位置进行合理的规划。并通过对待入库数据进行信息的整理,获取待入库数据的入库前存储位置、入库前文件名。根据获得的待入库数据的信息以及索引信息表,将待入库数据存储到指定的位置。通过非结构化数据在入库前统一的信息整理,规范有序的将待入库数据存储到指定的位置,减少了非结构化数据入库出错率,提高了非结构化数据的入库质量。此外,本申请实施例采用数据表Excel自带的VBA环境和众多的字符串处理、文件处理等方面的函数,通过VBA语言编程,可以实现非结构化数据的自动化整理、自动化入库、批量入库处理等,减少了手动入库操作的出错率,提高了非结构化数据的入库效率。
在上述实施例的基础上,本申请一个实施例中,所述方法还可以包括:
构建所述待入库数据的文件全名信息表后,获取所述待入库数据的基本信息;
将所述基本信息加入所述文件全名信息表中,对所述文件全名信息表进行第一次扩充;
对第一次扩充后的文件全名信息表进行第一去重处理,所述第一去重处理包括:
将所述入库前文件名相同、所述基本信息相同、所述文件全名信息不同的待入库数据对应的文件全名信息和基本信息作为第一重复文件信息,保留任意一个第一重复文件信息,将未被保留的第一重复文件信息从所述基本属性信息表中删除;
相应的,所述根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点,包括:
根据第一去重处理后的文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点。
具体地,可以通过VBA语言编程获取待入库数据的基本信息,待入库数据的基本信息可以包括:待入库数据的文件大小、创建时间、最后修改时间、作者等。可以在文件全名信息表添加相应的列,将获得的待入库数据的基本信息填入对应的位置,扩充文件全名信息表。根据待入库数据的文件全名信息,基本信息,对扩充后的文件全名信息表中的信息进行第一去重处理。第一去重处理主要是将位于不同文件夹下,但是属于同一文件的信息从文件全名信息表中剔除,避免同一数据重复入库。具体可以根据文件全名信息获得待入库数据的入库前文件名,将入库前文件名、基本信息相同,但文件全名信息不同(即入库前存储位置不同)的待入库数据对应的文件全名信息以及基本信息作为第一重复文件信息。第一重复文件信息只保留一个在文件全名表中,将其他第一重复文件信息从文件全名信息表中删除。
再根据进行第一去重处理后的文件全名信息表和索引信息表,将待入库数据进行归类,获得待入库数据对应的归类节点,具体归类的方法可以参考上述实施例,此处不再赘述。
在本申请一个实施例中,在对文件全名信息表进行去第一去重处理时,获得的从文件全名信息表中剔除的第一重复文件信息可以保存在重复文件信息表中,以便后续检查、补漏等质检时使用。
例如:在扩充文件全名信息表后,对扩充后的文件全名信息表进行第一去重时,可以在文件全名信息表中新增一列,用于标识重复文件,分别以入库前文件名、待入库数据的文件的大小、创建时间、文件夹全名(即文件全名信息)作为主次关键字,进行排序,以提高文件是否重复的判断速度。判断排序后的入库前文件名、文件的大小、创建时间是否都相同,且文件全名信息不同,如果是,则将这些待入库数据对应的文件全名信息以及基本信息作为第一重复文件信息。将第一重复文件信息标上标识符,可以将最后一个第一重复文件信息上标为保留标识符,其他第一重复文件信息上标为剔除标识符。根据不同标识符,筛选出第一重复文件信息,第一重复文件信息只留一个在文件全名信息表中,其它的移到第一重复文件信息表中。可以将标有保留标识符的第一重复文件信息保留在文件全名信息表中,将标有剔除标识符的第一重复文件信息从文件全名信息表中删除。
在筛选出重复文件后,还可以通过人工进一步确认是否为重复文件,可以将有标识符的都选出来,人工判断确实是重复的,标识符保留,不是重复的,把其标识符去掉。再把标有剔除标识符的都选出来,即为需要去掉的重复文件,而标有保留标识符的就是保留下来的文件。以提高第一去重处理的准确性,进一步提高非结构化数据的入库质量。
本申请实施例提供的非结构化数据的入库方法,通过获取待入库数据的基本信息,对文件全名信息表进行扩充,并根据扩充后的文件全名信息表中的基本信息、文件全名信息对文件全名信息表进行第一去重处理。将位于不同文件夹即位于不同位置但属于同一文件的信息从文件全名信息表中剔除,避免同一数据重复入库导致的数据入库后管理不便,减少了数据冗余、节省了数据库的空间。同时,还可以将重复的文件信息存储在重复文件信息表中,以便在后续的检查,补漏等。
在上述实施例的基础上,在本申请一个实施例中,所述方法还可以包括:
获取所述待入库数据的标识信息,将所述标识信息加入所述文件全名信息表中,对所述文件全名信息表进行第二次扩充;
根据所述标识信息、所述文件全名信息,确定所述待入库数据的单元名、规范名关键词;
根据所述单元名、规范名关键词、所述基本信息,按照预先构建的规范命名规则,将所述待入库数据进行规范命名,构建所述待入库数据的规范文件名。
具体地,可以通过VBA编程语言,获取待入库数据的标识信息,标识信息可以包括:待入库数据的完成单位、作者、石油勘探开发业务中的井号、属于哪个阶段业务的资料、是原始资料还是成果资料等行业所特有且具醒目标识的信息。可以将经过第一次去重处理后的文件全名信息表添加相应的列,将获取到的待入库数据的标识信息加入文件全名信息表中对应的位置处,对文件全名信息表进行第二次扩充。根据第二次扩充后的文件全名信息表中的标识信息、文件全名信息,根据企业信息管理的入库规范,确定待入库数据对应的单元名、规范名关键词。单元名可以包括待入库数据对应的地理位置信息。
例如:《EPIMS系统非结构化数据命名规范》中的"3文档报告类"中,要求文档报告类文件命名方式为:
命名结构:目标名_专业分类_资料名称_发布日期.格式扩展名,示例:NB730_钻井_工程设计报告_19960409.DOC,示例解释:NB730井的钻井工程设计报告,1996年4月9日发布,MS Word格式。可以根据上述《EPIMS系统非结构化数据命名规范》确定非结构化数据的入库规范,例如:若规定数据整理入库采用如下三段式命名规则,即命名结构:单元名_资料内容简短描述_资料产生日期.格式扩展名。规范名关键词可以表示上述三段式命名中的资料内容简短描述,其意用于表明文件承载资料内容的最简短的描述,如:
若待入库数据的文件全名信息为“E:\2_Meeting material\3ExplorationDepartment Meeting\LC构造图\BGP分中心\LC_Isopach_Donga.cgm”,根据其文件全名信息可以知道,该图件是乍得湖盆地Donga层顶面构造图,可以采集出其规范名的关键词为“构造图-Donga”。文件全名信息中的“构造图”表明是该待入库数据属于成果图件,根据索引信息表中的分类节点,可以确定成果图件应该放在“2.2.1.2.1成果图件”节点下,因此,该待入库数据的归类节点为“2.2.1.2.1成果图件”。文件全名信息中的“LC”可以表示乍得湖,因此根据文件全名信息可以获得该待入库数据对应的单元是乍得湖,因此,该待入库数据的单元名可以表示为“乍得湖”。获得待入库数据的单元名、规范名关键词后,根据待入库数据的基本信息,获得文件的创建时间,可以按照企业信息管理的入库规范要求等,对待入库数据进行规范命名,利用预先构建的规范命名规则,对待入库数据进行规范命名,确定待入库数据的规范文件名。规范命名规则可以根据信息管理的需要进行设置,例如:可以以单元名明确唯一、资料名称描述简短明了、日期8位数字为基本原则,采用上述三段式命名规则,即命名结构:单元名_资料内容简短描述_资料产生日期.格式扩展名。其中单元名有多个时,可以用加号“+”连接、资料名称描述中有多个描述项的可以用减号“-”加以区分,当待入库数据无日期项时,可以使用:单元名_资料内容简短描述.格式扩展名的二段式。具体的规范命名规则可以根据实际需要进行调整,本申请实施例不作具体限定。
规范命名可以表示将待入库数据按照统一的规范命名规则进行命名,可以规定命名后的规范文件名的格式、需要包含的内容等,方便工作人员根据获得的规范文件名对待入库数据进行统计和管理等。
在对待入库数据进行规范命名后,可以将待入库数据对应的规范文件名添加到文件全名信息表中,方便工作人员随时核查管理待入库数据的信息,表3是本申请一个实施例中添加归类节点和规范文件名后的文件全名信息表的部分内容。
表3添加归类节点和规范文件名后的文件全名信息表(部分)
Figure BDA0001577258870000111
本申请实施例提供的非结构化数据的入库方法,通过获取待入库数据的标识信息、基本信息等,获取待入库数据的规范名关键词,再根据规范命名规则,对待入库数据进行统一的规范命名。使得待入库数据在入库前信息统一,方便检查和管理,减少数据遗漏、错误等问题的出现,方便后续的入库操作,提高了非结构化数据的入库质量。
在上述实施例的基础上,本申请一个实施例中,所述方法还可以包括:
获得所述待入库数据的规范文件名后,对第二次扩充后的文件全名信息表进行第二去重处理,所述第二去重处理包括:
将所述规范文件名、所述基本信息、所述标识信息均相同的待入库数据对应的文件全名信息、基本信息、标识信息作为第二重复文件信息,保留任意一个第二重复文件信息,将未被保留的第二重复文件信息从所述文件全名信息表中删除。
具体地,在将待入库数据进行规范命名,确定各个待入库数据对应的规范文件名后,可以根据待入库数据的规范文件名、基本信息、标识信息等,对第二次扩充后的文件全名信息表中的信息进行第二去重处理。第二去重处理主要针是对同个文件,存为不同文件名(位置可能相同也可能不同)而形成的文件重复的去重处理。
具体可以将规范文件名、基本信息以及标识信息均相同的待入库数据对应的文件全名信息、基本信息以及标识信息作为第二重复文件信息。第二重复文件信息只保留一个在文件全名表中,将其他第二重复文件信息从文件全名信息表中删除。
在本申请一个实施例中,在对文件全名信息表进行去第二去重处理时,获得的从文件全名信息表中剔除的第二重复文件信息可以保存在重复文件信息表中,以便后续检查、补漏等质检时使用。
例如:在获得待入库数据的标识信息、规范文件名,对文件全名信息表进行第二次扩充后,对第二次扩充后的文件全名信息表进行第二去重时,可以在文件全名信息表中新增一列,用于标识重复文件,以规范文件名、待入库数据的大小、创建时间、文件夹全名(即文件全名信息)作为主次关键字,进行排序,以提高文件是否重复的判断速度。判断排序后的规范文件名、待入库数据的大小、创建时间、文件夹全名是否都相同,如果是,则将这些待入库数据对应的文件全名信息、基本信息以及标识信息作为第二重复文件信息。将第二重复文件信息标上标识符,可以将最后一个第二重复文件信息上标为保留标识符,其他第二重复文件信息上标为剔除标识符。根据不同标识符,筛选出重复文件,重复文件只留一个在文件全名信息表中,其它的移到重复文件信息表中,可以将标有保留标识符的第二重复文件信息保留在文件全名信息表中,将标有剔除标识符的第二重复文件信息从文件全名信息表中删除。
在筛选出重复文件后,还可以通过人工进一步确认是否为重复文件,可以将有标识符的都选出来,人工判断确实是重复的,标识符留着,不是重复的,把其标识符去掉。再把标有剔除标识符的都选出来,即为需要去掉的重复文件,而标有保留标识符的就是保留下来的文件。以提高第二去重处理的准确性,进一步提高非结构化数据的入库质量。
在待入库数据的入库前对数据信息进行整理时,可以将获取到的待入库数据的各个阶段的信息如:文件的创建时间、完成时间、大小、作者、完成单位、单元名、规范文件名、规范关键词、入库前存储位置、入库前文件名、入库文件全名等,逐渐添加到文件全名信息表中,方便检查。
本申请实施例提供的非结构化数据的入库方法,在待入库数据入库前,对待入库数据进行统一整理,并在不同的阶段使用表格的形式将待入库数据的信息进行汇总,如可以使用编辑Excel单元格的方式。方便待入库数据的各阶段的自我检查、他人的抽查、领导的审核,把错误杜绝在数据入库前。整个数据整理过程可以集中在数据表中进行,并可以简化为编辑Excel单元格的方式完成。实现了数据入库前的价值性、唯一性检查和确认,保证了入库数据的质量,提高了数据入库效率,也为入库后的检查提供了简单便捷的方式与依据。
在上述实施例的基础上,本申请一个实施例中,所述根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处,包括:
根据所述待入库数据对应的节点全名、第二次去重处理后的文件全名信息表中的规范文件名,获得所述待入库数据的入库文件全名;
根据所述入库文件全名、所述文件全名信息将所述待入库数据存入对应的位置处。
具体地,根据待入库数据对应的节点全名、以及第二次去重处理后文件全名信息表中存储的规范文件名,可以将待入库数据的节点全名和规范文件名结合,确定待入库数据的入库文件全名。入库文件全名中可以包含入库数据入库后对应的存储位置以及入库时的规范文件名,便于后续工作人员的检查。可以将待入库数据对应的入库文件全名和文件全名信息放入同一个表中,构建出节点与规范命名对比表。表4是本申请一个实施例中节点与规范命名对比表,如表4所示,根据表4中的入库文件全名可以获得待入库数据入库后的存储位置。
获得待入库数据对应的入库文件全名后,可以根据文件全名信息,通过VBA编程语言,将需要入库的数据从入库前存储位置中复制移动到入库后需要存储的位置,完成待入库数据的入库操作,实现待入库数据的批量入库。
可以将待入库数据对应的节点全名、归类节点、入库前存储位置(即文件夹全名)、入库前文件名、规范文件名、入库文件全名等信息统一放置在同一个表中,便于在数据入库处理过程中、以及数据入库后的检查和管理。
本申请一个实施例中,将待入库数据存入对应的位置处后,可以将待入库数据对应的规范文件名作为该待入库数据的入库后文件名,使得待入库数据入库后的文件名规范化,便于信息的管理。在将待入库数据入库后,还可以将入库后的非结构化数据的信息进行记录,具体可以记录入库数据的资料名称、入库日期、对应的归类节点、入库前后的文件名称等,以便后续检查、查询。
表4节点与规范命名对比表(部分)
Figure BDA0001577258870000141
图2是本申请又一实施例中非结构化数据的入库方法的流程示意图,如图2所示,本申请一个示例中,非结构化数据的入库方法可以包括:
步骤一、本申请中的待入库数据可以包括企业业务产生的专业生产、管理、成果等数据。在本申请实施例中,采用编制分类节点名和与该节点名对应节点位置(即节点全名)的2列数据作为索引项,形成索引信息表。
步骤二、用VBA遍历文件夹及其内含有的各级子文件夹中所有文件的技术,取得可能需要入库的文件全名清单(即待入库数据对应的文件信息),并把这些文件全名信息存放在Excel数据表中,构建文件全名信息表。
步骤三、判断文件全名信息表中对应的待入库数据是否需要入库,若是,则执行步骤四,若否,则将不需要入库的数据进行备注,备注不需整理,不入库。
步骤四、通过Excel字符串处理函数,把文件全名信息表中待入库数据的文件名与文件所在文件夹全名分离出来,并获取待入库数据的基本信息,扩充文件全名信息表。对扩充后的文件全名信息表进行第一去重处理,即判断文件全名信息表中的信息是否唯一。
文件全名信息表进行第一去重处理后,根据需要采集各文件的标识信息,并根据这些信息,按企业信息管理的入库规范要求,给出待入库数据的规范名关键词,与判断该文件所属分类节点。将获取到的待入库数据的标识信息等添加到文件全名信息表,对文件全名信息表做第二次扩充,在文件全名信息表完成所需的各项信息的采集和确定性检查后,新加一列,构建各文件入库后的规范文件名。
在确定待入库数据的规范文件名以及归类节点后,对扩充后的文件全名信息表进行第二去重处理。通过依次判断扩充后的文件全名信息表中的各个待入库数据的文件信息是否规范、唯一、与索引信息表中的信息是否匹配。若判断结果为否,则可能是数据信息采集错误或者数据信息重复,继续判断数据信息是否重复,若判断数据信息重复,则将重复的文件信息进行备注,不进行入库,若判断数据信息不重复,则重新进行待入库数据的归类和规范命名。直至判断文件全名信息表中所有的待入库数据的文件信息均匹配、规范、唯一,则进行步骤五。
步骤五、在完成第二去重处理的文件全名信息表中,添加一新列,用分类节点和归类节点作为关联字段,根据索引信息表中的分类节点与节点位置的关系,构建文件入库后的节点文件全名即入库文件全名。可以再次检查确认文件入库后的节点与规范的文件名,在完成最后检查确认后,通过VBA程序处理完成文件移动和复制,把文件全名信息表中的信息对应的文件进行复制或移动到对应的位置,并作重命名处理。记录入库的文件的信息,以便后续检查。
图3是本申请实施例中入库前待入库数据的树状图,图4是本申请实施例中入库后待入库数据的树状图,图3-图4中的英文文字,仅仅表示文件的名称,没有特殊的含义。如图3所示,同口井不同业务的数据,存放在同个位置,随着井数的增多,目录个数也相应增加。即同一专业(业务)数据分散于不同位置,不方便专业软件的使用。如图4所示,同一业务数据,存放在同一位置,文件目录个数不会随着井数的增加而改变,方便于专业软件的使用以及统一管理。
如:用于地震解释的Landmark软件,支持批量加入井数据。当各井的这些数据分别位于不同位置时,在加入这些数据前,如果不把分别位于各自目录的每口井的数据(即图3所示的情况),存放到同个位置下,在导入这些数据时,需要逐个导入各数据文件。但当这些井数据文件都在同一位置时(图4所示的情况),通过用cat(Unix/Linux系统下)或copy(Windows系统下)命令,即可把多个同类文件合并为一个文件,以实现一次加入所有井的同类数据,大大减少了在使用专业软件时导入井数据所用的时间,提高工作效率。
本申请实施例提供的非结构化数据的入库方法,用Excel自带的VBA环境和众多的字符串处理、文件处理等方面的函数,通过编写相应的处理程序,把因文件数量大而可能省去入库前的合理性检查、入库工作枯燥乏味、无后续检查核对、错误难溯源的手动入库方式,转为Excel数据表单元格的输入修改等编辑工作,从而大大减少出错率和提高工作效率。将数据处理过程中获得的数据信息存放在数据表中,方便入库人员做好各阶段的自我检查、他人的抽查、领导的审核、和把错误杜绝在入库前等方面的工作,集中在该数据表中进行,并简化为编辑Excel单元格的方式来完成。实现了数据入库前的价值性、唯一性检查和确认,保证了入库数据的质量,也为入库后的检查提供了简单便捷的方式与依据,保证了非结构化数据的入库质量、入库效率。
基于上述所述的非结构化数据的入库方法,本说明书一个或多个实施例还提供一种非结构化数据的入库装置。所述的装置可以包括使用了本说明书实施例所述方法的系统(包括分布式系统)、软件(应用)、模块、组件、服务器、客户端等并结合必要的实施硬件的装置。基于同一创新构思,本说明书实施例提供的一个或多个实施例中的装置如下面的实施例所述。由于装置解决问题的实现方案与方法相似,因此本说明书实施例具体的装置的实施可以参见前述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
具体地,图5是本申请提供的非结构化数据的入库装置一个实施例的模块结构示意图,如图5所示,本申请中提供的非结构化数据的入库装置包括:索引信息构建模块51、文件全名信息构建模块52、规范命名模块53、数据归类模块54、数据入库模块55。
索引信息构建模块51,可以用于构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
文件全名信息构建模块52,可以用于获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
规范命名模块53,可以用于根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类和规范命名,获得所述待入库数据的归类节点和规范文件名;
数据归类模块54,可以用于根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
数据入库模块55,可以用于根据所述节点全名和所述规范文件名,获得所述待入库数据的入库文件全名,根据所述入库文件全名、所述文件全名信息将所述待入库数据存入对应的位置处。
本申请提供的非结构化数据的入库装置,在非结构化数据入库前,通过预先构建的索引信息表,将待入库数据入库后对应的存储位置进行合理的规划。并通过对待入库数据进行信息的整理,获取待入库数据的入库前存储位置、入库前文件名。根据获得的待入库数据的信息以及索引信息表,将待入库数据存储到指定的位置,并按一定命名规则对待入库数据进行统一的规范命名。通过非结构化数据在入库前统一的信息整理,规范有序的将待入库数据存储到指定的位置,减少了非结构化数据入库出错率,提高了非结构化数据的入库质量。此外,本申请实施例采用数据表Excel自带的VBA环境和众多的字符串处理、文件处理等方面的函数,通过VBA语言编程,可以实现非结构化数据的自动化整理、自动化入库、批量入库处理等,减少了手动入库操作的出错率,提高了非结构化数据的入库效率。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书提供的上述实施例所述的方法或装置可以通过计算机程序实现业务逻辑并记录在存储介质上,所述的存储介质可以计算机读取并执行,实现本说明书实施例所描述方案的效果。因此,本说明书还提供一种基于地震数据的地层品质因子的自动估算装置,包括处理器及存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类和规范命名,获得所述待入库数据的归类节点和规范文件名;
根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
根据所述节点全名和所述规范文件名,获得所述待入库数据的入库文件全名,根据所述入库文件全名、所述文件全名信息将所述待入库数据存入对应的位置处。
所述存储介质可以包括用于存储信息的物理装置,通常是将信息数字化后再以利用电、磁或者光学等方式的媒体加以存储。所述存储介质有可以包括:利用电能方式存储信息的装置如,各式存储器,如RAM、ROM等;利用磁能方式存储信息的装置如,硬盘、软盘、磁带、磁芯存储器、磁泡存储器、U盘;利用光学方式存储信息的装置如,CD或DVD。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。
需要说明的,上述所述的装置根据方法实施例的描述还可以包括其他的实施方式。具体的实现方式可以参照相关方法实施例的描述,在此不作一一赘述。
本说明书实施例提供的上述非结构化数据的入库方法或装置可以在计算机中由处理器执行相应的程序指令来实现,如使用Windows操作系统的c++语言在PC端实现、Linux系统实现,或其他例如使用android、iOS系统程序设计语言在智能终端实现,以及基于量子计算机的处理逻辑实现等。本说明书提供的一种非结构化数据的入库系统的另一个实施例中,图6是本申请提供的一种非结构化数据的入库系统实施例的模块结构示意图,如图6所示,本申请另一实施例提供的非结构化数据的入库系统可以包括处理器61以及用于存储处理器可执行指令的存储器62,
处理器61和存储器62通过总线63完成相互间的通信;
所述处理器61用于调用所述存储器62中的程序指令,以执行上述各非结构化数据的入库方法实施例所提供的方法,例如包括:构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类和规范命名,获得所述待入库数据的归类节点和规范文件名;根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;根据所述节点全名和所述规范文件名,获得所述待入库数据的入库文件全名,根据所述入库文件全名、所述文件全名信息将所述待入库数据存入对应的位置处。
需要说明的是说明书上述所述的装置根据相关方法实施例的描述还可以包括其他的实施方式,具体的实现方式可以参照方法实施例的描述,在此不作一一赘述。本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例并不局限于必须是符合行业通信标准、标准计算机数据处理和数据存储规则或本说明书一个或多个实施例所描述的情况。某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、存储、判断、处理方式等获取的实施例,仍然可以属于本说明书实施例的可选实施方案范围之内。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、车载人机交互设备、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
虽然本说明书一个或多个实施例提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书一个或多个时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储、石墨烯存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书一个或多个实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上所述仅为本说明书一个或多个实施例的实施例而已,并不用于限制本本说明书一个或多个实施例。对于本领域技术人员来说,本说明书一个或多个实施例可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在权利要求范围之内。

Claims (10)

1.一种非结构化数据的入库方法,其特征在于,包括:
构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点;
根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处;
所述方法还包括:
构建所述待入库数据的文件全名信息表后,获取所述待入库数据的基本信息;
将所述基本信息加入所述文件全名信息表中,对所述文件全名信息表进行第一次扩充;
对第一次扩充后的文件全名信息表进行第一去重处理,所述第一去重处理包括:
将所述入库前文件名相同、所述基本信息相同、所述文件全名信息不同的待入库数据对应的文件全名信息和基本信息作为第一重复文件信息,保留任意一个第一重复文件信息,将未被保留的第一重复文件信息从所述文件全名信息表中删除;
相应的,所述根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点,包括:
根据第一去重处理后的文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点。
2.如权利要求1所述的一种非结构化数据的入库方法,其特征在于,所述将未被保留的第一重复文件信息从所述文件全名信息表中删除,包括:
将所述未被保留的第一重复文件信息从所述文件全名信息表中删除并存储到重复文件信息表中。
3.如权利要求1所述的一种非结构化数据的入库方法,其特征在于,所述方法还包括:
获取所述待入库数据的标识信息,将所述标识信息加入所述文件全名信息表中,对所述文件全名信息表进行第二次扩充;
根据所述标识信息、所述文件全名信息,确定所述待入库数据的单元名、规范名关键词;
根据所述单元名、规范名关键词、所述基本信息,按照预先构建的规范命名规则,将所述待入库数据进行规范命名,构建所述待入库数据的规范文件名。
4.如权利要求3所述的一种非结构化数据的入库方法,其特征在于,所述方法还包括:
获得所述待入库数据的规范文件名后,对第二次扩充后的文件全名信息表进行第二去重处理,所述第二去重处理包括:
将所述规范文件名、所述基本信息、所述标识信息均相同的待入库数据对应的文件全名信息、基本信息、标识信息作为第二重复文件信息,保留任意一个第二重复文件信息,将未被保留的第二重复文件信息从所述文件全名信息表中删除。
5.如权利要求4所述的一种非结构化数据的入库方法,其特征在于,所述将未被保留的第二重复文件信息从所述文件全名信息表中删除,包括:
将所述未被保留的第二重复文件信息从所述文件全名信息表中删除并存储到重复文件信息表中。
6.如权利要求4所述的一种非结构化数据的入库方法,其特征在于,所述根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处,包括:
根据所述待入库数据对应的节点全名、第二次去重处理后的文件全名信息表中的规范文件名,获得所述待入库数据的入库文件全名;
根据所述入库文件全名、所述文件全名信息将所述待入库数据存入对应的位置处。
7.如权利要求3-6任一项所述的一种非结构化数据的入库方法,其特征在于,所述方法还包括:
将所述待入库数据存入对应的位置处后,将所述规范文件名作为所述待入库数据的入库后文件名。
8.一种非结构化数据的入库装置,其特征在于,包括:
索引信息构建模块,用于构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
文件全名信息构建模块,用于获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
规范命名模块,用于根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点;
数据归类模块,用于根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
数据入库模块,用于根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处;
所述装置还用于:
构建所述待入库数据的文件全名信息表后,获取所述待入库数据的基本信息;
将所述基本信息加入所述文件全名信息表中,对所述文件全名信息表进行第一次扩充;
对第一次扩充后的文件全名信息表进行第一去重处理,所述第一去重处理包括:
将所述入库前文件名相同、所述基本信息相同、所述文件全名信息不同的待入库数据对应的文件全名信息和基本信息作为第一重复文件信息,保留任意一个第一重复文件信息,将未被保留的第一重复文件信息从所述文件全名信息表中删除;
相应的,所述数据入库模块用于:
根据第一去重处理后的文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点。
9.一种非结构化数据的入库装置,其特征在于,包括处理器及用于存储处理器可执行指令的存储器,所述指令被所述处理器执行时实现包括以下步骤:
构建待入库数据的索引信息表,所述索引信息表中包括:节点全名和分类节点,所述节点全名包括所述分类节点对应的存储位置;
获取所述待入库数据的文件全名信息,构建所述待入库数据的文件全名信息表,所述文件全名信息包括:所述待入库数据的入库前存储位置、入库前文件名;
根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点;
根据所述归类节点和所述分类节点,获得所述待入库数据对应的节点全名;
根据所述待入库数据对应的节点全名、所述文件全名信息将所述待入库数据存入对应的位置处;
构建所述待入库数据的文件全名信息表后,获取所述待入库数据的基本信息;
将所述基本信息加入所述文件全名信息表中,对所述文件全名信息表进行第一次扩充;
对第一次扩充后的文件全名信息表进行第一去重处理,所述第一去重处理包括:
将所述入库前文件名相同、所述基本信息相同、所述文件全名信息不同的待入库数据对应的文件全名信息和基本信息作为第一重复文件信息,保留任意一个第一重复文件信息,将未被保留的第一重复文件信息从所述文件全名信息表中删除;
相应的,所述根据所述文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点,包括:
根据第一去重处理后的文件全名信息表和所述索引信息表,将所述待入库数据进行归类,获得所述待入库数据的归类节点。
10.一种非结构化数据的入库系统,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现如权利要求1至7中任意一项所述方法的步骤。
CN201810139690.7A 2018-02-11 2018-02-11 一种非结构化数据的入库方法及装置 Active CN108470040B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810139690.7A CN108470040B (zh) 2018-02-11 2018-02-11 一种非结构化数据的入库方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810139690.7A CN108470040B (zh) 2018-02-11 2018-02-11 一种非结构化数据的入库方法及装置

Publications (2)

Publication Number Publication Date
CN108470040A CN108470040A (zh) 2018-08-31
CN108470040B true CN108470040B (zh) 2021-03-09

Family

ID=63266463

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810139690.7A Active CN108470040B (zh) 2018-02-11 2018-02-11 一种非结构化数据的入库方法及装置

Country Status (1)

Country Link
CN (1) CN108470040B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657413B (zh) * 2019-01-23 2023-05-23 中国人民解放军国防科技大学 仿真组件模型入库方法、模型库、计算机设备和存储介质
CN110458471B (zh) * 2019-08-19 2022-05-20 绍兴数纺科技有限公司 标准化染料信息管理系统
CN112711604B (zh) * 2019-10-25 2023-10-31 中国石油天然气股份有限公司 物探训练数据集构建方法及装置
CN111228815B (zh) * 2020-01-17 2023-08-11 上海莉莉丝科技股份有限公司 处理游戏的配置表的方法、装置、存储介质和系统
CN111897911B (zh) * 2020-06-11 2021-08-31 中国科学院计算机网络信息中心 一种基于次级属性图的非结构化数据查询方法及系统
CN112231277A (zh) * 2020-10-27 2021-01-15 杭州冒险元素网络技术有限公司 一种简历批量归档方法
CN112835857B (zh) * 2021-02-07 2022-08-30 福建师范大学 一种工作群组的文件主名管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN105677826A (zh) * 2016-01-04 2016-06-15 博康智能网络科技股份有限公司 一种针对海量非结构化数据的资源管理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100939215B1 (ko) * 2007-12-17 2010-01-28 한국전자통신연구원 인덱스 데이터베이스 생성 장치 및 검색 장치
CN104102652B (zh) * 2013-04-08 2017-05-24 国家电网公司 一种非结构化数据存储系统及方法
CN103995855B (zh) * 2014-05-14 2017-03-08 华为技术有限公司 存储数据的方法和装置
CN105701096A (zh) * 2014-11-25 2016-06-22 腾讯科技(深圳)有限公司 索引生成方法、数据查询方法、装置及系统
CN106331075B (zh) * 2016-08-18 2020-01-17 华为技术有限公司 用于存储文件的方法、元数据服务器和管理器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102117320A (zh) * 2011-01-11 2011-07-06 百度在线网络技术(北京)有限公司 一种结构化数据搜索的方法和装置
CN105677826A (zh) * 2016-01-04 2016-06-15 博康智能网络科技股份有限公司 一种针对海量非结构化数据的资源管理方法

Also Published As

Publication number Publication date
CN108470040A (zh) 2018-08-31

Similar Documents

Publication Publication Date Title
CN108470040B (zh) 一种非结构化数据的入库方法及装置
US9646030B2 (en) Computer-readable medium storing program and version control method
Karnitis et al. Migration of relational database to document-oriented database: structure denormalization and data transformation
Eck et al. A semantic file system for integrated product data management
CN107657049B (zh) 一种基于数据仓库的数据处理方法
US9406018B2 (en) Systems and methods for semantic data integration
US7769719B2 (en) File system dump/restore by node numbering
US8364723B1 (en) Apparatus and method for realizing big data into a big object and non-transitory tangible machine-readable medium thereof
CN107016047A (zh) 文档查询、文档存储方法及装置
WO2018205852A1 (zh) 一种文件夹树形图自动创建方法和系统
Imasheva et al. The practice of moving to big data on the case of the nosql database, clickhouse
CN113392068A (zh) 数据处理方法、装置和系统
CN110737729A (zh) 基于知识图谱理念和技术的工程图谱数据信息管理方法
CN103473324A (zh) 基于非结构化数据存储的多维业务属性检索装置及方法
CN104899337A (zh) 一种文件索引的建立方法及系统
US20160004730A1 (en) Mining of policy data source description based on file, storage and application meta-data
CN110795520B (zh) 一种数字化地质资料包目录与文件关联关系自动识别方法
CN116756395A (zh) 一种用于城建档案的电子化归档方法及系统
CN105426676A (zh) 一种钻井数据处理方法和系统
US20020156788A1 (en) Method of constructing, editing, indexing, and matching up with information on the interner for a knowledge map
Ruldeviyani et al. Enhancing query performance of library information systems using NoSQL DBMS: Case study on library information systems of Universitas Indonesia
CN113779989A (zh) 一种业务需求文本检查方法及相关设备
CN113722278A (zh) 一种基于pdf文件的知识元抽取方法、设备及介质
CN107818126B (zh) 一种面向Mongo数据库的全文信息检索方法
US9256608B2 (en) Mapping user content to folders in a file system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant