CN113342976B - 一种自动采集处理数据的方法、装置、存储介质及设备 - Google Patents
一种自动采集处理数据的方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN113342976B CN113342976B CN202110674072.4A CN202110674072A CN113342976B CN 113342976 B CN113342976 B CN 113342976B CN 202110674072 A CN202110674072 A CN 202110674072A CN 113342976 B CN113342976 B CN 113342976B
- Authority
- CN
- China
- Prior art keywords
- data
- preset
- file
- matching
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种自动采集处理数据的方法,所述方法包括:导入电子表格源数据文件,通过采集所述源数据文件中行业或领域的名称及类别的关键词,并于第一预设数据库中进行数据匹配、相似值判定,确定所述源数据文件所属行业或领域分类;获取及匹配所述源数据文件中各工作表页签名称类别;获取所述页签中电子表格内行、列表头数据属性;获取所述电子表格内重要数据;所述电子表格内数据运算获得有价值计算结果。该方法模拟人工识别步骤,实现了电子表格自动采集处理数据、自动化识别、处理、计算表格数据功能,并将有效数据充分存储利用,提高了数据处理效率,可广泛应用在云、本地部署等多种设备上。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种自动采集处理数据的方法。
背景技术
随着信息技术的不断发展,各行业数据规模不断增大,电子表格作为信息数据的载体,贯穿工作的各个环节,记录系统管理员使用电子表格进行数据记录、处理、展示频率越来越多,使得电子表格文件数量增多、项目类别增多、数据量越来越大,不同的记录系统管理员对电子表格的操作有别造成数据格式不一。当用户需要查找有效数据或高价值数据时,需要处理大量电子表格文件。目前的处理方式让人员重复工作、工作效率低、数据记录准确度差且需要找到有效数据的路径复杂。因此,如何提高电子表格数据的处理效率一直是本领域技术人员所研究的课题。
现有的电子表格数据处理方法对于如何智能化识别特定专业领域、高效处理数量较多的电子表格文件、整理繁多的表格数据项目、快速读取计算呈现数据的电子表格处理数据方法仍是本领域较难解决的技术问题。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种自动采集处理数据的方法。
本发明是通过如下技术方案实现的:
一种自动采集处理数据的方法,其特征在于,所述方法包括:
获取及匹配源数据文件中行业或领域的名称及类别的步骤,在该步骤中,导入电子表格源数据文件,通过采集所述源数据文件中行业或领域的名称及类别的关键词,并于第一预设数据库中进行数据匹配或相似值判定,确定所述源数据文件所属行业或领域分类,其中,匹配判定逻辑优先于相似判定逻辑;
获取及匹配所述源数据文件中各工作表页签名称类别的步骤,在该步骤中,通过采集获取所述源数据文件中各工作表页签名称数据,并与第二预设数据库进行数据匹配或相似判定,确定所述各工作表页签的内容类别,其中,匹配判定逻辑优先于相似判定逻辑;
获取所述页签中电子表格内行、列表头数据属性的步骤,在该步骤中,采集所述页签中电子表格内的行、列表头数据,并与第三预设数据库进行数据匹配或相似判定,确定所述行、列表头数据的数据属性,其中,匹配判定逻辑优先于相似判定逻辑;
获取所述电子表格内重要数据的步骤,在该步骤中,通过分别采集所述行、列表头的数据属性并组合成关键词组名称,采集所述行、列的交汇单元格中数据作为重要数据;
所述电子表格内数据运算获得有价值计算结果的步骤,在该步骤中,通过从预设公式数据库中匹配获得与所属行业或领域对应的计算公式,计算公式中的各项函数为所述重要数据中的一部分,通过所述公式和函数计算,从而获得有价值的计算结果。
优选地,所述第一预设数据库、所述第二预设数据库、所述第三预设数据库、所述预设公式数据库均预存采用穷举法得到的预设数据库;所述预设数据库预存的数据包括各行业或领域名称常见或近似词、常见或近似表格名称、常见或近似页签名称、常用计算公式、常见业务名称及近似名称、关键或常见数据名称;其中,所述第一预设数据库为各行业或领域名称数据库、所述第二预设数据库为各行业或领域常用工作表页签名称数据库、所述第三预设数据库为所述页签下电子表格内,行、列表头的数据属性名称数据库、所述预设公式数据库为各行业或领域常用的为得到重要数据而使用的计算公式数据库;所述预设数据库中的预设数据可人工调整或由系统按照规则自动调整。
优选地,所述数据属性包括数据的分类、数据是否为关键词、数据的重要性排序或该数据是否需要计算。
优选地,存储结构化目标数据的步骤,在该步骤中,将所述重要数据和所述计算结果存储到指定位置形成结构化目标数据。
优选地,呈现所述结构化目标数据的步骤,在该步骤中,被存储的所述结构化目标数据可按照预先设定但可调整的、数据结构化的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示器呈现,所述文本的内容包括但不限于文字、数字、图形。
优选地,所述获取及匹配源数据文件中行业或领域类别的步骤还包括:根据行业或领域类别建立预设路径,并判断操作人员是否按照所述预设路径进行所述源数据文件导入,如判断为是,则所述与第一预设数据库数据中的行业或领域数据值进行匹配的步骤失效,并根据所述预设路径属性确定所述源数据文件的所属行业或领域分类。
优选地,所述获取及匹配源数据文件中行业或领域类别的步骤还包括:所述源数据文件为EXCEL文件、内含EXCEL文件的文件夹或EXCEL文件压缩包,所述源数据文件中的行业或领域类别的关键词为文件名称或文件内的关键词,若所述文件名称匹配出两个或多个与所述第一预设数据库匹配的关键词,则同时归类到相应的所属领域分类;当所述文件名称匹配完成后,进行校核步骤。
优选地,还包括人工或自动调整预设数据库中数据的步骤:当所述电子表格中的关键词不能与所述预设数据库数据中数据相匹配,但在多次导入的所述源数据文件中高频出现的关键词,所述高频出现的关键词是指在不同IP地址导入且出现次数不少于10次的关键词,则向系统管理员提示所述关键词为高频词,以供系统管理员选择是否存增加储至所述预设数据库;当系统管理员设置为自动处理时,则按照识别顺序自动增加进入各级预设数据库。
优选地,所述方法还包括:操作记录与行为记录的步骤,在该步骤中,用于记录系统管理员的地址、时间、账号、导入记录、查阅记录、检索记录、数据图形记录,并形成对数据需求模型。
一种基于电子表格自动采集处理数据的装置,所述装置包括:
源数据文件获取及匹配模块,用于导入电子表格源数据文件,通过获取所述源数据文件中行业或领域类别的关键词,并与第一预设数据库数据中的行业或领域数据值进行匹配,确定所述源数据文件所属行业或领域分类;
页签名称类别获取与匹配模块,用于采集所述源数据文件中各工作表页签名称数据,并与第二预设数据库进行数据匹配、相似判定,确定所述各工作表页签的内容类别;
电子表格内数据属性获取模块,用于采集所述页签中电子表格内的全部数据,并与第三预设数据库进行数据匹配、相似判定,确定所述数据的数据属性;
数据运算模块,用于进一步对所述数据属性计算从而获得有效的重要数据,再从预设公式数据库中匹配获得与所属行业或领域对应的计算公式,所述计算公式中的各项函数通过所述重要数据匹配和标题位置定位调取所述电子表格内的数据并进行计算,从而获得计算结果;
结构化目标数据存储模块,用于将所述重要数据和所述计算结果存储到指定位置形成结构化目标数据,存储作为所述电子表格下一次数据处理的参照数据;
结构化目标数据呈现模块,用于被存储的所述结构化目标数据可按照预先设定的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示屏呈现。
优选地,所述源数据文件为EXCEL文件、内含EXCEL文件的文件夹或EXCEL文件压缩包。
优选地,所述预设公式数据库存储有与各行业或领域相匹配的计算公式和运算规则。
一种计算机刻度存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述基于电子表格自动采集处理数据方法的步骤。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现基于电子表格自动采集处理数据方法的步骤。
与现有技术相比,本发明实施例具有以下优点:
本发明通过对电子表格数据进行预先行业或领域分类,确定源数据文件所属行业或领域分类,并获取及匹配源数据文件中各工作表页签名称类别,获取表格内数据属性和重要数据,通过对电子表格内的数据进行运算获得有价值计算结果,该方法模拟人工识别步骤,实现了电子表格自动采集处理数据,自动化识别、处理、计算表格数据,将有效数据充分存储利用,提高了数据处理效率,可广泛应用在云、本地部署等多种设备上。
附图说明
图1是本发明实施例一一种自动采集处理数据的方法的整体流程示意图;
图2是本发明实施例一一种自动采集处理数据的方法的电子表格数据示意图;
图3是本发明实施例一一种自动采集处理数据的方法的电子表格数据与第三预设数据库相似性逻辑示意图;
图4是本发明实施例二一种自动采集处理数据的方法的整体流程示意图;
图5是本发明其中一个实施例基于电子表格自动采集处理数据的装置结构框图
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
如图1至图3所示,本发明提出一种自动采集处理数据的方法,所述方法包括:导入电子表格源数据文件,通过采集所述源数据文件中行业或领域的名称及类别的关键词,并于第一预设数据库中进行数据匹配、相似值判定,确定所述源数据文件所属行业或领域分类;所述源数据文件可为EXCEL文件、内含EXCEL文件的文件夹或EXCEL文件压缩包,非EXCEL文档导入时,提示“请转化为EXCEL”格式。根据行业或领域类别建立预设路径,并判断操作人员是否按照所述预设路径进行所述源数据文件导入,如判断为是,则所述与第一预设数据库数据中的行业或领域数据值进行匹配的步骤失效,并根据所述预设路径属性确定所述源数据文件的所属行业或领域分类,以便于更高效的处理,例如:建筑、餐饮、酒店等;如判断为否,通过获取所述源数据文件中行业或领域类别的关键词,所述源数据文件中的行业或领域类别的关键词为文件名称或文件内的关键词,若所述文件名称匹配出两个或多个与所述第一预设数据库匹配的关键词,则同时归类到相应的所属领域分类;当所述文件名称匹配完成后,还可对匹配结果进行校核步骤;若所述文件名称匹配出两个或多个与所述第一预设数据库匹配的关键词,则同时归类到相应的所属领域分类。例如:所述第一预设数据库中领域目录有“酒店”“住宅”的标准名称,当所述源数据文件导入时,搜索到所述源数据文件中出现“酒店”或“住宅”时,则所述源数据文件被归档到相应的目录下;若匹配出两个数量相同的的关键词,则同时归类到相应的所属领域分类,例如:当同时出现“酒店”和“住宅”时,则同时归档到相应的目录下。
获取与匹配所述源数据文件中各工作表页签名称类别,通过采集获取所述源数据文件中各工作表页签名称数据,并与第二预设数据库进行数据匹配或相似判定,确定所述各工作表页签的内容类别。其中相似判定的逻辑主要为包含逻辑,相似性应该用包含逻辑来阐述,例如:常用页签名称是“汇总表”,则包含“汇总”两个字的“造价汇总表”、“工程项目汇总表”等页签名称名均视为“汇总表”。工作表页签的作用是:以页签为目录,加快数据阅读和提取的速度,这一点,跟人阅读EXCEL表一致。
获取所述页签中电子表格内行、列表头数据属性,采集所述页签中电子表格内的行、列表头数据,并与第三预设数据库进行数据匹配或相似判定,确定所述行、列表头数据的数据属性。如图3所示,对所述获取所述页签中电子表格内数据属性的步骤采用的相似判定,这些关键词主要是涉及:表头行、表头列、物资名称、规格型号、单位等用词,通过分析整理电子表格中经常出现的专业名词以及计算机中内置的标准名词,采用穷举法的方式,提前在所述第三预设数据库识别内容,例如:“m3”、“m3”“m2”、“m2”等;再通过对所述关键词使用C++、Python、Go、Java、PHP等程序语言开发的自然语言处理(Natural LanguageProcessing,NLP)等技术进行相似性判定,自然语言处理相似判定算法采用自研、开源或腾讯云、阿里云、百度等第三方SDK文本进行相似判定、余弦相似度判定或SimHash算法等方法判定,使所述工作表数据为“可以归类化”的可识别数据。
关键词匹配算法参考:
关键词采用“包含”逻辑为第一算法。例如:工程量、工作量、消耗量均是一个意思,则包含“量”的词,均视为“工程量”。
关键词以“类似逻辑”为第二算法。例如:“工程总造价”是内置的关键词,“工程造价”、“项目总金额”、“投标总金额这些包含“总造价、工程金额“的文字均识别为”关键词的类似词“。
上述“关键词”在智能学习下自我补充,其计算规则为:频率统计。
余弦原理:余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0°,他们的方向更加一致,相应的相似度也越高。需要指出的是,在文本相似度判定中,因为文本特征向量定义的特殊性,其余弦值范围为[0,1],即向量夹角越趋向于90°,则两向量越不相似。
SimHash算法
i.SimHash为Google处理海量网页的采用的文本相似判定方法。该方法的主要目的是降维,即将高维的特征向量映射成f-bit的指纹,通过比较两篇文档指纹的汉明距离来表征文档重复或相似性。
ii.汉明距离:汉明距离应用于数据传输差错控制编码,它表示两个(相同长度)字对应位不同的数量。
获取所述电子表格内重要数据,通过分别采集所述行、列表头的数据属性并组合成关键词组名称,采集所述行、列的交汇单元格中数据作为重要数据;
进一步对所述电子表格内数据运算获得有价值计算结果,通过从预设公式数据库中匹配获得与所属行业或领域对应的计算公式,计算公式中的各项函数为所述重要数据中的一部分,通过所述公式和函数计算,从而获得有价值的计算结果;
例如:计算公式为:建筑面积单方造价=工程总造价/建筑面积。则在对应的所述源数据文件中搜索到关键词“工程总造价”,并按规则找到工程总造价的数据;搜索到关键词“建筑面积”,并按规则找到建筑面积的数据;按照内置的公式进行计算建筑面积单方造价。
通过所述重要数据和所述计算结果呈现到指定位置形成结构化目标数据,所述结构化目标数据可为名称,项目特征(做法)、价格等;存储作为所述电子表格下一次数据处理的参照数据;
所述结构化目标数据还可根据预先训练的模型或自主学习完善的模型进行提示或者补全、智能生成采购表、智能组价等,最后推送内容给系统管理员,所述推送内容可由管理员内置,视图界面由管理员设计,推送的内容由固定内容与变动内容组成,固定内容包括固定的文字、图案等,变动内容主要是数据、图形、内容的多少等。上述固定内容也可以由系统管理员调整。被存储的所述结构化目标数据可按照预先设定的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示屏呈现。
所述第一预设数据库、所述第二预设数据库、所述第三预设数据库、所述预设公式数据库均预存采用穷举法得到的预设数据库;所述预设数据库预存的数据包括各行业或领域名称常见或近似词、常见或近似表格名称、常见或近似页签名称、常用计算公式、常见业务名称及近似名称、关键或常见数据名称;其中,所述第一预设数据库为各行业或领域名称数据库、所述第二预设数据库为各行业或领域常用工作表页签名称数据库、所述第三预设数据库为所述页签下电子表格内,行、列表头的数据属性名称数据库、所述预设公式数据库为各行业或领域常用的为得到重要数据而使用的计算公式数据库;所述预设数据库中的预设数据可人工调整或由系统按照规则自动调整;所述数据属性包括数据的分类、数据是否为关键词、数据的重要性排序或该数据是否需要计算。
实施例二
基于同一发明构思,如图4所示,本实施例二在实施例一的基础增加了如下步骤:
所述标题位置包括标题行和标题列,通过分别采集所述标题行和所述标题列的关键词并组合成关键词组,当所述关键词组能与所述第三预设数据库数据相匹配时,则读取对应的所述标题行和所标题列的交汇单元格中数据作为关键词数据。
如图2所示,阅读“表头标题行”。注意:识别表头标题行的规则是“纯文字在同一行中出现超过五列,作为表头标题行”。阅读表头标题行以及表头标题行中的“关键词”,
阅读“表头标题列”以及表头标题列中的关键词。表头标题列的认定规则是:即文本“序号列”后或者表格最左侧每行文字比例超过80%的列。表头标题列的文字除事前设定的部分“关键词“外,其余文字无阅读规则。例如:表头标题列如图2所示,“物资名称”列。“钢筋工程”属于关键词,“钢筋ф12”不属于关键词。
阅读行、列的交叉格,阅读关键词对应的数据。
关键词对应的数据是由行、列的交叉格中的数据;如图单价320.6
是由表头标题列、表头标题行中的各一个关键词“加气砖”以及“不含税单价”对应的行和列的交汇格中的数据。
当内置的关键词包含行、列的两个关键词(例如:加气块单价)时,系统读取交叉格中的数据。
增加了存储结构化目标数据的步骤,将所述重要数据和所述计算结果存储到指定位置形成结构化目标数据,存储作为所述电子表格下一次数据处理的参照数据;
还增加了呈现所述结构化目标数据的步骤,被存储的所述结构化目标数据可按照预先设定但可调整的、数据结构化的的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示器呈现。
还增加了操作记录与行为记录步骤,用于记录系统管理员的地址、时间、账号、导入记录、查阅记录、检索记录,并形成对数据需求模型,所述操作记录可采用是“算术加权”等算法。
所述结构化目标数据可利用所述数据需求模型对数据进行结构化比对生成走势分析。
根据上述所述结构化数据,按照规定的算法进行计算,形成该用户对数据需求的模型,并进一步形成数据推送方案。例如:分析出该用户地点在上海,属于“水电安装”类,平时查询“管道”价格频度高。则在该用户登录时,在启动智能推送的情况下,向其推送“与上海临近、水电管道、近三个月的价格走势”等内容。
所述方法还包括:所述调用方法或调用计算方法的调整步骤,在该步骤中,所述调调用方法或调用计算方法可通过软件代码的修改予以调整。
当所述电子表格内在预设表格位置中关键词不能与所述预设数据库数据中数据相匹配,还包括人工或自动调整预设数据库中数据的步骤:但在多次导入的所述源数据文件中高频出现的关键词,所述高频出现的关键词是指在不同IP地址导入且出现次数不少于10次的关键词,则向系统管理员提示所述关键词为高频词,以供系统管理员选择是否存增加储至所述预设数据库;当系统管理员设置为自动处理时,则按照识别顺序自动增加进入各级预设数据库
本方法可采用的系统架构为一中心多客户端;一个中心服务器负责模型训练与向客户端收集、分发数据。
C/S结构:服务器负责数据的管理、分析,客户机负责完成与用户的交互、分析,每个客户端都是一个小服务器,可以负责数据分析、识别将有效数据处理完成可回传至服务器,再有服务器向其他客户端分发。
B/S结构:服务器负责数据的管理、分析,客户使用电脑浏览器进行交互。
在一个实施例中,如图5所示,提供了一种基于电子表格自动采集处理数据的装置S100,所述装置包括:源数据文件获取及匹配模块S101,用于导入电子表格源数据文件,通过获取所述源数据文件中行业或领域类别的关键词,并与第一预设数据库数据中的行业或领域数据值进行匹配,确定所述源数据文件所属行业或领域分类;页签名称类别获取与匹配模块S102,用于采集所述源数据文件中各工作表页签名称数据,并与第二预设数据库进行数据匹配、相似判定,确定所述各工作表页签的内容类别;电子表格内数据属性获取模块S103,用于采集所述页签中电子表格内的全部数据,并与第三预设数据库进行数据匹配、相似判定,确定所述数据的数据属性;数据运算模块S104,用于进一步对所述数据属性计算从而获得有效的重要数据,再从预设公式数据库中匹配获得与所属行业或领域对应的计算公式,所述计算公式中的各项函数通过所述重要数据匹配和标题位置定位调取所述电子表格内的数据并进行计算,从而获得计算结果;结构化目标数据存储模块S105,用于将所述重要数据和所述计算结果存储到指定位置形成结构化目标数据,存储作为所述电子表格下一次数据处理的参照数据;结构化目标数据呈现模块S106,用于被存储的所述结构化目标数据可按照预先设定的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示屏呈现。
上述实施例中,所述源数据文件可为EXCEL文件、内含EXCEL文件的文件夹或EXCEL文件压缩包。
上述各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端的存储器中,也可以以软件形式存储于终端的存储器中,以便于处理器调用执行以上各个模块对应的操作。该处理器可以为中央处理单元(CPU)、微处理器、单片机等。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获取及匹配源数据文件中行业或领域的名称及类别的步骤,在该步骤中,导入电子表格源数据文件,通过采集所述源数据文件中行业或领域的名称及类别的关键词,并于第一预设数据库中进行数据匹配、相似值判定,确定所述源数据文件所属行业或领域分类;
获取及匹配所述源数据文件中各工作表页签名称类别的步骤,在该步骤中,通过采集获取所述源数据文件中各工作表页签名称数据,并与第二预设数据库进行数据匹配、相似判定,确定所述各工作表页签的内容类别;
获取所述页签中电子表格内行、列表头数据属性的步骤,在该步骤中,采集所述页签中电子表格内的行、列表头数据,并与第三预设数据库进行数据匹配、相似判定,确定所述行、列表头数据的数据属性;
获取所述电子表格内重要数据的步骤,在该步骤中,通过分别采集所述行、列表头的数据属性并组合成关键词组名称,采集所述行、列的交汇单元格中数据作为重要数据;
所述电子表格内数据运算获得有价值计算结果的步骤,在该步骤中,通过从预设公式数据库中匹配获得与所属行业或领域对应的计算公式,计算公式中的各项函数为所述重要数据中的一部分,通过所述公式和函数计算,从而获得有价值的计算结果;
存储结构化目标数据的步骤,在该步骤中,将所述重要数据和所述计算结果存储到指定位置形成结构化目标数据,存储作为所述电子表格下一次数据处理的参照数据;
呈现所述结构化目标数据的步骤,在该步骤中,被存储的所述结构化目标数据可按照预先设定但可调整的、数据结构化的的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示器呈现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROMD等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本发明方法中的步骤可为系统内置的多种规定操作,由系统管理员选择触发。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (14)
1.一种自动采集处理数据的方法,其特征在于,所述方法包括:
获取及匹配源数据文件中行业或领域的名称及类别的步骤,在该步骤中,导入电子表格源数据文件,通过采集所述源数据文件中行业或领域的名称及类别的关键词,并于第一预设数据库中进行数据匹配或相似值判定,确定所述源数据文件所属行业或领域分类,其中,匹配判定逻辑优先于相似判定逻辑;
获取及匹配所述源数据文件中各工作表页签名称类别的步骤,在该步骤中,通过采集获取所述源数据文件中各工作表页签名称数据,并与第二预设数据库进行数据匹配或相似判定,确定所述各工作表页签的内容类别,其中,匹配判定逻辑优先于相似判定逻辑;
获取所述页签中电子表格内行、列表头数据属性的步骤,在该步骤中,采集所述页签中电子表格内的行、列表头数据,并与第三预设数据库进行数据匹配或相似判定,确定所述行、列表头数据的数据属性;其中,匹配判定逻辑优先于相似判定逻辑;
获取所述电子表格内重要数据的步骤,在该步骤中,通过分别采集所述行、列表头的数据属性并组合成关键词组名称,采集所述行、列的交汇单元格中数据作为重要数据;
所述电子表格内数据运算获得有价值计算结果的步骤,在该步骤中,通过从预设公式数据库中匹配获得与所属行业或领域对应的计算公式,计算公式中的各项函数为所述重要数据中的一部分,通过所述公式和函数计算,从而获得有价值的计算结果。
2.根据权利要求1所述的自动采集处理数据的方法,其特征在于,所述方法还包括:所述第一预设数据库、所述第二预设数据库、所述第三预设数据库、所述预设公式数据库均预存采用穷举法得到的预设数据库;所述预设数据库预存的数据包括各行业或领域名称常见或近似词、常见或近似表格名称、常见或近似页签名称、常用计算公式、常见业务名称及近似名称、关键或常见数据名称;其中,所述第一预设数据库为各行业或领域名称数据库、所述第二预设数据库为各行业或领域常用工作表页签名称数据库、所述第三预设数据库为所述页签下电子表格内,行、列表头的数据属性名称数据库、所述预设公式数据库为各行业或领域常用的为得到重要数据而使用的计算公式数据库;所述预设数据库中的预设数据可人工调整或由系统按照规则自动调整。
3.根据权利要求1所述的自动采集处理数据的方法,其特征在于:所述数据属性包括数据的分类、数据是否为关键词、数据的重要性排序或该数据是否需要计算。
4.根据权利要求1所述的自动采集处理数据的方法,其特征在于,所述方法还包括:存储结构化目标数据的步骤,在该步骤中,将所述重要数据和所述计算结果存储到指定位置形成结构化目标数据。
5.根据权利要求1所述的自动采集处理数据的方法,其特征在于,所述方法还包括:呈现结构化目标数据的步骤,在该步骤中,被存储的所述结构化目标数据可按照预先设定但可调整的、数据结构化的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示器呈现,所述文本的内容包括但不限于文字、数字、图形。
6.根据权利要求1-5任一项所述的自动采集处理数据的方法,其特征在于,所述获取及匹配源数据文件中行业或领域类别的步骤还包括:根据行业或领域类别建立预设路径,并判断操作人员是否按照所述预设路径进行所述源数据文件导入,如判断为是,则所述与第一预设数据库数据中的行业或领域数据值进行匹配的步骤失效,并根据所述预设路径属性确定所述源数据文件的所属行业或领域分类。
7.根据权利要求1所述的自动采集处理数据的方法,其特征在于,所述获取及匹配源数据文件中行业或领域类别的步骤还包括:所述源数据文件为EXCEL文件、内含EXCEL文件的文件夹或EXCEL文件压缩包,所述源数据文件中的行业或领域类别的关键词为文件名称或文件内的关键词,若所述文件名称匹配出两个或多个与所述第一预设数据库匹配的关键词,则同时归类到相应的所属领域分类;当所述文件名称匹配完成后,进行校核步骤。
8.根据权利要求1所述的自动采集处理数据的方法,其特征在于,还包括人工或自动调整预设数据库中数据的步骤:当所述电子表格中的关键词不能与所述预设数据库数据中数据相匹配,但在多次导入的所述源数据文件中高频出现的关键词,所述高频出现的关键词是指在不同IP地址导入且出现次数不少于10次的关键词,则向系统管理员提示所述关键词为高频词,以供系统管理员选择是否存增加储至所述预设数据库;当系统管理员设置为自动处理时,则按照识别顺序自动增加进入各级预设数据库。
9.根据权利要求1所述的自动采集处理数据的方法,其特征在于,所述方法还包括:操作记录与行为记录的步骤,在该步骤中,用于记录系统管理员的地址、时间、账号、导入记录、查阅记录、检索记录、数据图形记录,并形成对数据需求模型。
10.一种基于电子表格自动采集处理数据的装置,其特征在于,所述装置包括:
源数据文件获取及匹配模块,用于导入电子表格源数据文件,通过获取所述源数据文件中行业或领域类别的关键词,并与第一预设数据库数据中的行业或领域数据值进行匹配,确定所述源数据文件所属行业或领域分类;
页签名称类别获取与匹配模块,用于采集所述源数据文件中各工作表页签名称数据,并与第二预设数据库进行数据匹配、相似判定,确定所述各工作表页签的内容类别;
电子表格内数据属性获取模块,用于采集所述页签中电子表格内的全部数据,并与第三预设数据库进行数据匹配、相似判定,确定所述数据的数据属性;
数据运算模块,用于进一步对所述数据属性计算从而获得有效的重要数据,再从预设公式数据库中匹配获得与所属行业或领域对应的计算公式,所述计算公式中的各项函数通过所述重要数据匹配和标题位置定位调取所述电子表格内的数据并进行计算,从而获得计算结果;
结构化目标数据存储模块,用于将所述重要数据和所述计算结果存储到指定位置形成结构化目标数据,存储作为所述电子表格下一次数据处理的参照数据;
结构化目标数据呈现模块,用于被存储的所述结构化目标数据可按照预先设定的文本,在接到对应的调用指令时,按照预设的调用方法或调用计算方法,自动在显示屏呈现。
11.根据权利要求10所述的基于电子表格自动采集处理数据的装置,其特征在于:所述源数据文件为EXCEL文件、内含EXCEL文件的文件夹或EXCEL文件压缩包。
12.根据权利要求11所述的基于电子表格自动处理数据的装置,其特征在于:所述预设公式数据库存储有与各行业或领域相匹配的计算公式和运算规则。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该程序被处理器执行时实现权利要求1-9中任意一项所述自动采集处理数据的方法的步骤。
14.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现权利要求1-9中任意一项所述自动采集处理数据的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674072.4A CN113342976B (zh) | 2021-06-17 | 2021-06-17 | 一种自动采集处理数据的方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110674072.4A CN113342976B (zh) | 2021-06-17 | 2021-06-17 | 一种自动采集处理数据的方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113342976A CN113342976A (zh) | 2021-09-03 |
CN113342976B true CN113342976B (zh) | 2023-07-04 |
Family
ID=77476132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110674072.4A Active CN113342976B (zh) | 2021-06-17 | 2021-06-17 | 一种自动采集处理数据的方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113342976B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114358729A (zh) * | 2021-12-30 | 2022-04-15 | 新开普电子股份有限公司 | 一种公式推荐算法的实现方法及系统 |
CN114372177A (zh) * | 2022-03-22 | 2022-04-19 | 创意信息技术股份有限公司 | 一种Excel表格数据匹配方法 |
CN114510912B (zh) * | 2022-04-20 | 2022-07-08 | 佳瑛科技有限公司 | 基于分布式系统对电子表格进行分类的方法和系统及介质 |
CN115130440B (zh) * | 2022-08-23 | 2023-04-07 | 三一融资租赁有限公司 | 适用于设备融资的业务数据录入处理系统 |
CN116052404B (zh) * | 2023-02-14 | 2023-11-28 | 安徽康能电气有限公司 | 一种基于5g通信技术的电网数据交互系统 |
CN117648912B (zh) * | 2024-01-29 | 2024-05-03 | 中国电建集团西北勘测设计研究院有限公司 | 一种识别多格式电子表格源数据的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3716584A1 (en) * | 2019-03-29 | 2020-09-30 | Proofpoint, Inc. | Data enrichment systems and methods for abbreviated domain name classification |
WO2020258303A1 (zh) * | 2019-06-28 | 2020-12-30 | 西门子股份公司 | 语义模型实例化方法、系统和装置 |
CN112836045A (zh) * | 2020-12-25 | 2021-05-25 | 中科恒运股份有限公司 | 基于文本数据集的数据处理方法、装置及终端设备 |
-
2021
- 2021-06-17 CN CN202110674072.4A patent/CN113342976B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3716584A1 (en) * | 2019-03-29 | 2020-09-30 | Proofpoint, Inc. | Data enrichment systems and methods for abbreviated domain name classification |
WO2020258303A1 (zh) * | 2019-06-28 | 2020-12-30 | 西门子股份公司 | 语义模型实例化方法、系统和装置 |
CN112836045A (zh) * | 2020-12-25 | 2021-05-25 | 中科恒运股份有限公司 | 基于文本数据集的数据处理方法、装置及终端设备 |
Non-Patent Citations (1)
Title |
---|
自动结构化数据的电商网站主题爬虫研究;张倩;林安成;廖秀秀;;计算机系统应用(07);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113342976A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113342976B (zh) | 一种自动采集处理数据的方法、装置、存储介质及设备 | |
CN112035653B (zh) | 一种政策关键信息提取方法和装置、存储介质、电子设备 | |
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US10095780B2 (en) | Automatically mining patterns for rule based data standardization systems | |
US10140664B2 (en) | Resolving similar entities from a transaction database | |
CN103729351B (zh) | 查询词推荐方法及装置 | |
JP5536851B2 (ja) | 情報のシンボルによるリンクとインテリジェントな分類を行う方法及びシステム | |
US20110264651A1 (en) | Large scale entity-specific resource classification | |
US20080162455A1 (en) | Determination of document similarity | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
JP2008515061A (ja) | 概念的メタデータおよび文脈的メタデータの検索エンジンを用いたウェブ上におけるデータ要素の検索方法 | |
CN103154991A (zh) | 信用风险采集 | |
CN111125086B (zh) | 获取数据资源的方法、装置、存储介质及处理器 | |
CN110162754B (zh) | 一种岗位描述文档的生成方法及设备 | |
WO2018171295A1 (zh) | 一种给文章标注标签的方法、装置、终端及计算机可读存储介质 | |
Chou et al. | Integrating XBRL data with textual information in Chinese: A semantic web approach | |
CN115239214B (zh) | 企业的评估处理方法、装置及电子设备 | |
JP2018198046A (ja) | 金融イベント・データベースの生成のための装置および方法 | |
CN116109373A (zh) | 金融产品的推荐方法、装置、电子设备和介质 | |
US20180357227A1 (en) | System and method for analyzing popularity of one or more user defined topics among the big data | |
CN114253990A (zh) | 数据库查询方法、装置、计算机设备和存储介质 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
Liang et al. | Detecting novel business blogs | |
Lo et al. | An emperical study on application of big data analytics to automate service desk business process | |
CN111222032A (zh) | 舆情分析方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |