CN114896197A - 多格式文档统一入库方法、装置及系统 - Google Patents
多格式文档统一入库方法、装置及系统 Download PDFInfo
- Publication number
- CN114896197A CN114896197A CN202210408891.9A CN202210408891A CN114896197A CN 114896197 A CN114896197 A CN 114896197A CN 202210408891 A CN202210408891 A CN 202210408891A CN 114896197 A CN114896197 A CN 114896197A
- Authority
- CN
- China
- Prior art keywords
- document
- fields
- field
- preset template
- header
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请提出了多格式文档统一入库方法、装置及系统,可将excel文档、word文档或txt文档统一导入系统平台,系统平台根据不同的文档类型的导入信息将其导入到对应的预设模板内,利用数据规整算法对预设模板内的数据进行分析处理,提炼出可用的接口表以便后续进行数据分析处理。
Description
技术领域
本申请涉及数据处理领域,特别涉及一种多格式文档统一入库方法、装置 及系统。
背景技术
对于多部门协作的系统平台而言,经常需要汇总统计多部门的文档数据。 然而由于不同部门都有各自的文档模板,导致各个部门向系统平台导入的文档 数据可能是excel表格形式,也可能是Word文档,而若是让各部门人员按照系 统平台统一模板进行重新填写的话,这就会加大了数据输入人员的填报工作量, 导致各部门的配合力度不高,且在人工重新转移填报的过程中也容易出现数据 漏填多填或者错填的问题,导致导入的数据不精准,进而影响后续的数据分析。
发明内容
本申请实施例提供了一种多格式文档统一入库方法、装置及系统,根据不 同的文档类型将其导入到系统的预设模板内,利用数据规整算法对预设模板内 的数据进行分析处理,提炼出可用的接口表以便后续进行数据分析处理。
第一方面,本申请实施例提供了一种多格式文档统一入库方法,所述方法 包括:获取待导入文档,依据所述待导入文档的导入人员信息将所述待导入文 档导入对应的预设模板;
若所述待导入文档为excel文档,依据所述预设模板的行序列依次逐行识 别所述预设模板的字符类型,选取字段类型均为文字类型或空的行作为表头, 填充所述表头内的空白字段得到表头内容;依据所述预设模板的列序列依次逐 列识所述预设模板的字符类型,选取字段类型均为文字类型或者空的列作为指 标,填充所述指标内的空白字段得到指标结构;拼接所述表头内容组成表头结 构,拼接所述指标内容组成指标内容,所述表头结构和所述指标结构组成表字 段,依据所述表字段填充表内容,组合所述表字段和所述表内容组成接口表;
若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字段 作为表内容,识别所述数字字段前后的文字字段作为表字段,组合所述表字段 和所述表内容组成接口表。
第二方面,本申请实施例提供了一种多格式文档统一入库装置,包括:
文档导入模块,用于获取待导入文档,依据所述待导入文档的导入人员信 息将所述待导入文档导入对应的预设模板;
Excel接口表生成模块,用于若所述待导入文档为excel文档,依据所述预 设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均为文 字类型或空的行作为表头,填充所述表头内的空白字段得到表头内容;依据所 述预设模板的列序列依次逐列识所述预设模板的字符类型,选取字段类型均为 文字类型或者空的列作为指标,填充所述指标内的空白字段得到指标结构;拼 接所述表头内容组成表头结构,拼接所述指标内容组成指标内容,所述表头结 构和所述指标结构组成表字段,依据所述表字段填充表内容,组合所述表字段 和所述表内容组成接口表;
Word或txt接口表生成模块,用于若所述待导入文档为word文档或txt文 档,识别所述预设模板的数字字段作为表内容,识别所述数字字段前后的文字 字段作为表字段,组合所述表字段和所述表内容组成接口表。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,其 特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计 算机程序以执行所述的多格式文档统一入库方法。
第四方面,本申请实施例提供一种计算机程序产品,包括软件代码部分,当所 述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行所述的多 格式文档统一入库方法。
第五方面,本申请实施例提供一种可读存储介质,所述可读存储介质中存 储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码, 所述过程包括所述的多格式文档统一入库方法。
本发明的主要贡献和创新点如下:
1.减少数据导入人员的工作量且提高数据质量:取代了传统数据导入人员 需要重新填报规范模板的方式,数据导入人员只需要将原始的格式文档 一键导入系统平台,系统平台可自动对其进行入库操作,进而减少数据 导入人员的工作量。同时,避免了人工重新填报数据带来的数据误差和 数据偏差,确保了系统平台收集的数据的真实性和原始性。
2.减少系统平台的开发量:不需要针对多格式文档单独开发导入界面,开 发人员仅需开发单一的导入界面即可,通过导入人员的身份特征识别不 同格式的文档类型,减少了开发人员的开发量。
3.便捷运维:由于采用统一的导入模式,数据也入库到统一的预设模板中, 一般情况不会出现导入失败或者模板错误无法导入情况,减轻了运维负 担。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请 的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分, 本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限 定。在附图中:
图1是根据本申请实施例的多格式文档统一入库方法的流程图;
图2是根据本申请一种实施例的多格式文档统一入库方法的流程图;
图3是根据本申请实施例的多格式文档统一入库装置的结构框图;
图4是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描 述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。 以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例 相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本 说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序 来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本 说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实 施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在 其他实施例中也可能被合并为单个步骤进行描述。
实施例一
本申请旨在提出一种多格式文档统一入库方法,可将excel格式、word格 式或txt格式的文档统一入库处理,解决了大数据平台的多格式文档的数据导 入困难的问题。在传统的方法中,数据导入人员需要将不同格式的文档按照系 统平台的
具体的,本申请实施例提供了一种多格式文档统一入库方法,具体地,参 考图1,所述方法包括:
获取待导入文档,依据所述待导入文档的导入人员信息将所述待导入文档 导入对应的预设模板;
若所述待导入文档为excel文档,依据所述预设模板的行序列依次逐行识 别所述预设模板的字符类型,选取字段类型均为文字类型或空的行作为表头, 填充所述表头内的空白字段得到表头内容;依据所述预设模板的列序列依次逐 列识所述预设模板的字符类型,选取字段类型均为文字类型或者空的列作为指 标,填充所述指标内的空白字段得到指标内容;拼接所述表头内容组成表头结 构,拼接所述指标内容组成指标结构,所述表头结构和所述指标结构组成表字 段,依据所述表字段填充表内容,组合所述表字段和所述表内容组成接口表;
若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字段 作为表内容,识别所述数字字段前后的文字字段作为表字段,组合所述表字段 和所述表内容组成接口表。
在本方案中,不同数据格式的待导入文档通过统一导入界面导入系统平台 中,本方案通过导入人员的导入人员信息来确定待导入文档的文档类型,以将 所述待导入文档导入对应的预设模板内。
另外,值得一提的是,本方案的预设模板是个公共模板,能适配所有导入 文档的格式,所述预设模板的模板字段匹配待导入文档的文档字段,以使得待 导入文档可依据字段匹配来自动导入对应的预设模板内。预设模板内的字段长 度和字段数量根据导入文档中最长字段和最多字段设置。在本方案中先根据待 导入文档的文档类型制定对应的预设模板,再通过导入人员信息将所述导入文 档导入对应的预设模板内。
本方案提供的预设模板是一个字段名称和字段类型都统一设置的公共模板, 可便于后续读取预设模板内的字段。
不同导入人员信息对应不同待导入文档以及预设模板,故本方案可通过导 入人员信息选择对应的预设模板。
本方案的待导入文档的文档类型为:word文档类型、txt文档类型或者excel 文档类型。系统内预设对应Word文档类型和txt文档类型的预设模板,以及对 应excel文档类型的预设模板。其中对应word文档类型和txt文档类型的预设 模板的字段类型使用文本型,对应excel文档类型的预设模板的字段类型使用 长字符型。Word的通用模板把excel的通用模板的字段类型varchar2(字符型) 改clob(文本型)即可,如文本型(word和txt文档)的预设模板定义为 demographic_information_txt,字段设置为in_datetime,typevarchar2(10),cl1 clob,cl2clob,cl3clob,cl4clob,cl5clob,in_date为导入时 间,type为导入者的角色类型,cl1、cl2、...、cl49、cl50分别为存储文本 内容,若文本内容太大cl1存不下,则继续存储到cl2中,依次类推,直到所 有文本内容存储到预设模板中。
示例性的,若待导入文档为excel格式的人口信息表,如表一所示,预设 模板的表名可设置为demographic_information,字段设置为in_date time,var1 varchar2(500),var2 varchar2(500),var3 varchar2(500),……,var200 varchar2(500),预设模板如下表二。
表一 人口信息表
表二 对应人口信息表的预设模板
将待导入文档填充到预设模板后得到表三:
表三 填充后的预设模板
若所述待导入文档为excel文档,对应的预设模板内根据导入内容添加行 序列以及列序列,其中行序列表示预设模板的行所在的序列,列序列表示预设 模板的列所在的序列。
若所述待导入文档为word或txt文档,则对应的将excel的通用模板的字 段类型varchar2(字符型)改clob(文本型),如文本型(word和txt文档) 的预设模板定义为demographic_information_txt,字段设置为 in_datetime,type varchar2(10),cl1clob,cl2clob,cl3clob,cl4clob,cl5clob,in_date为导入时间,type为导入者 的角色类型,cl1、cl2、...、cl49、cl50分别为存储文本内容,若文本内容太 大cl1存不下,则继续存储到cl2中,依次类推,直到所有文本内容存储到预 设模板中。
另外,由于预设模板为公共的库表,其起到的作用是将各类不可用的数据 存储下来提供给程序使用;而若是需要对导入的待导入文档进行入库整合的话, 还需要将其转换为对外的接口表,接口表必须为二维表。也就是说,为了后续 使用待导入文档内的文档数据,需要再将预设模板规整为对外的接口表。
在“依据所述预设模板的行序列依次逐行识别所述预设模板的字符类型, 选取字段类型均为文字类型或者空的行作为表头”步骤中,所述预设模板的行 序列自所在行的位置自上而下依次增加。一旦识别到行的某字段类型为数字类 型,则停止表头识别。
示例性的,如表三所示,row n=1表示行序列为1,row n=2表示行序列为 2,按序号(row_n字段)顺序逐行识别,row_n=1,每一列均识别为文字,确定 作为表头;row_n=2也每一列同样识别为文字,确定作为表头;row_n=3第二列 后识别为数字,确定为数字内容,确定表头为第一、二行,即row_nin(1,2)。
在“填充所述表头内的空白字段得到表头内容”步骤中,针对所述表头的 每一行内字段类型为空的字段,将所述字段前一个非空字段的字段内容作为所 述字段的字段内容。在这里“非空字段”指的是“文字类型”。所述空白字段 为字段类型为空的字段。
当然,若所述字段之前未出现非空字段,换言之,所述字段之前的字段的 字段类型均为空时,则所述字段依旧为空。
示例性的,第一行(row_n=1)的var1、var2、var3都不为空,从var4开始 到var6都为空,按照规则填充前一个非空字段,所以var4、var5、var6的值都 为var3的“人口属性”内容。第二行(row_n=2)开始的var1、var2都为空,没 有前一个非空的字段可填充,所以继续为空,后续的var3、var4、var5、var6 都非空,填充完的表格如表四所示:
表四 填充空白字段后的预设模板
在“拼接所述表头内容组成表头结构”步骤中,将对应同一列的所述表头 内容进行拼接组成表头结构。
具体的,可利用SQL查询对表头结构进行查询,具体的SQL语句如下:
Select a.var1||(case when b.var1 is not null then‘_’end)||b.var1,
a.var2||(case when b.var2 is not null then‘_’end)||b.var2,
a.var3||(case when b.var3 is not null then‘_’end)||b.var3,
a.var4||(case when b.var4 is not null then‘_’end)||b.var4,
a.var5||(case when b.var5 is not null then‘_’end)||b.var5,
a.var6||(case when b.var6 is not null then‘_’end)||b.var6,
from(select var1、var2、var3、var4、var5、var6 from demographic_information where row_n=1)a,(select var1、var2、var3、 var4、var5、var6 fromdemographic_information where row_n=2)b where 1=1。
示例性的,图4的预设模板拼接后的表头结构为:人口类别、人口总数、 人口属性_农村、人口属性_农村占比、人口属性_城市、人口属性_城市占比。
在“依据所述表字段填充表内容”步骤中,依据所述表头结构填充所述表 内容,以及依据所述指标结构填充所述表内容。具体的,将所述预设模板内对 应所述表头结构的文档数据作为表内容。所述表内容作为接口数据内容。
具体的,依据所述表头结构将所述预设模板内的文档数据作为所述表内容。 由于所述表头结构是从所述表头内容拼接得到的,故可根据所述表头内容查找 所述预设模板内对应的表头内容的文档数据作为表内容。
另外,在“依据所述预设模板的列序列依次逐列识所述预设模板的字符类 型”中,所述预设模板的列序列自所在列的位置自左而右依次增加。一旦识别 到列的某字段类型为数字类型,则停止识别。
在“填充所述指标内的空白字段得到指标内容”步骤中,针对所述指标的 每一列内字段类型为空的字段,将所述字段所在行置于前置位置的非空字段的 字段内容作为所述字段的字段内容。在这里“非空字段”指的是“文字类型”。 所述空白字段为字段类型为空的字段。
在“拼接所述指标内容组成指标结构”步骤中,将对应同一行的所述指标 内容进行拼接组成指标结构。
“若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字 段作为表内容,识别所述数字字段前后的文字字段作为表字段,”步骤包括: 将所述预设模板转换为ascll码,通过ascll码判断数字字段的位置,识别所 述数字字段前后的文字字段作为表字段。
当然,在一些实施例中利用关键词库对文字字段进行识别,所述关键词库 内预设指标名称,比如人口数、GDP、耕地面积等。此时,利用关键词库将所述 文字字段和所述指标名称进行匹配,若匹配则将所述文字字段作为表字段,若 不匹配则发出任务,由维护人员判断指标名称或者重新输入指标名。另外,在 一些实施例中可将匹配成功的文字字段自动形成英文字段。
本方案的关键词库存储、维护指标的关键词。关键词库在初始化时,需要 通过调研获取大量的关键词,并在关键词管理页面进行录入,录入的主要信息 有:关键词大类;关键词小类;关键词编码;关键词名称;关键词单位;关键 词描述;是否启用。
值得一提的是,本方案通过关键词库识别并人为校对和填充的方式,可不 断丰富关键词库的此内容,提高关键词库的识别精确度。在一些实施例中,可 采用机器学习方法训练所述关键词库。
在“组合所述表字段和所述表内容组成接口表”步骤中,将表字段和对应 的所述表内容进行对应位置的设置,形成接口表。
本方案在获取可对外开放的接口表后,还可对接口表进行校验。校验接口 表内的字段是否全是字母、数字、特殊符号的组合,拼接字段是否有“_”分隔, 字段描述是否全是原始待导入文档的指标拼接。本方案采用的手段是将接口表 还原成原来的结构,跟所述原始待导入文档进行比对以稽核数据质量,若符合 数据质量要求则将其封装成接口或生产接口库表输出给其他系统数据数据治理 模块使用。
具体的,将所述接口表内的字段描述倒推还原得到还原表头,将所述还原 表头和待导入文档进行比对,若比对成功则表示接口表的生成过程未出现问题。
另外,在日常数据归集工作中,同一个文件都是周期性导入的,如人口信 息文件,一个城市的人口信息数据随时都在变化,从业务需求放,可能需要每 天都要导一次最新的人口信息文件,然而每天导入的人口总数不可能波动很大, 波动超出一定阈值,可能需要告警,提示文件导入人员和运维人员导入内容异 常,需要核查。所以每次导入的数据跟跟之前导入的同一指标平均值做比对, 如果指标值波动超过预设阈值,则发出告警信息,要求数据运维人员核查原因, 如果是导入文件问题,则要求导入人员核实,重新导入正确的数据。
实施例二
基于相同的构思,参考图3,本申请还提出了一种多格式文档统一入库装置, 包括:
文档导入模块301,用于获取待导入文档,依据所述待导入文档的导入人员 信息将所述待导入文档导入对应的预设模板;
Excel接口表生成模块302,用于若所述待导入文档为excel文档,依据所 述预设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均 为文字类型或空的行作为表头,填充所述表头内的空白字段得到表头内容;依 据所述预设模板的列序列依次逐列识所述预设模板的字符类型,选取字段类型 均为文字类型或者空的列作为指标,填充所述指标内的空白字段得到指标结构; 拼接所述表头内容组成表头结构,拼接所述指标内容组成指标内容,所述表头 结构和所述指标结构组成表字段,依据所述表字段填充表内容,组合所述表字 段和所述表内容组成接口表;
Word或txt接口表生成模块303,用于若所述待导入文档为word文档或txt 文档,识别所述预设模板的数字字段作为表内容,识别所述数字字段前后的文 字字段作为表字段,组合所述表字段和所述表内容组成接口表。
关于该实施例二中出现的技术特征同于实施例一的内容,在此不进行累赘 说明。
实施例三
本实施例还提供了一种电子装置,参考图4,包括存储器404和处理器402, 该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以 执行上述任一项多格式文档统一入库方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电 路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实 施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来 说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、 软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光 盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个 或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可 移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内 部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。 在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM) 和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下, 该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemory, 简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简 称为EPROM)、电可擦除PROM (ElectricallyErasableProgrammableRead-OnlyMemory,简称为EEPROM)、电 可改写ROM(ElectricallyAlterableRead-OnlyMemory,简称为EAROM)或闪存 (FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以 是静态随机存取存储器(StaticRandom-AccessMemory,简称为SRAM)或动态 随机存取存储器(DynamicRandomAccessMemory,简称为DRAM),其中,DRAM 可以是快速页模式动态随机存取存储器404 (FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数 据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMemory, 简称为EDODRAM)、同步动态随机存取内存 (SynchronousDynamicRandom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件, 以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现 上述实施例中的任意一种多格式文档统一入库方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408, 其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处 理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体 实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传 输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其 可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传 输设备406可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线 方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以 是各种格式的待导入文档等,输出的信息可以是接口表等。
可选地,在本实施例中,上述处理器402可以被设置为通过计算机程序执 行以下步骤:
S101、获取待导入文档,依据所述待导入文档的导入人员信息将所述待导 入文档导入对应的预设模板;
S102、若所述待导入文档为excel文档,依据所述预设模板的行序列依次 逐行识别所述预设模板的字符类型,选取字段类型均为文字类型或空的行作为 表头,填充所述表头内的空白字段得到表头内容;依据所述预设模板的列序列 依次逐列识所述预设模板的字符类型,选取字段类型均为文字类型或者空的列 作为指标,填充所述指标内的空白字段得到指标结构;拼接所述表头内容组成 表头结构,拼接所述指标内容组成指标内容,所述表头结构和所述指标结构组 成表字段,依据所述表字段填充表内容,组合所述表字段和所述表内容组成接 口表;
若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字段 作为表内容,识别所述数字字段前后的文字字段作为表字段,组合所述表字段 和所述表内容组成接口表。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方 式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实 现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、 微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽 管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表 示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、 技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或 其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数 据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件 的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序 产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任 务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的 一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个 软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任 何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻 辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数 据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组 合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行 描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记 载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但 并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通 技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进, 这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为 准。
Claims (14)
1.一种多格式文档统一入库方法,其特征在于,包括:
获取待导入文档,依据所述待导入文档的导入人员信息将所述待导入文档导入对应的预设模板;
若所述待导入文档为excel文档,依据所述预设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均为文字类型或空的行作为表头,填充所述表头内的空白字段得到表头内容;依据所述预设模板的列序列依次逐列识所述预设模板的字符类型,选取字段类型均为文字类型或者空的列作为指标,填充所述指标内的空白字段得到指标结构;拼接所述表头内容组成表头结构,拼接所述指标内容组成指标内容,所述表头结构和所述指标结构组成表字段,依据所述表字段填充表内容,组合所述表字段和所述表内容组成接口表;
若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字段作为表内容,识别所述数字字段前后的文字字段作为表字段,组合所述表字段和所述表内容组成接口表。
2.根据权利要求1所述的多格式文档统一入库方法,其特征在于,对应word文档类型和txt文档类型的预设模板的字段类型使用文本型,对应excel文档类型的预设模板的字段类型使用长字符型。
3.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“依据所述预设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均为文字类型或者空的行作为表头”步骤中,所述预设模板的行序列自所在行的位置自上而下依次增加,若识别到行的字段类型为数字类型,则停止识别。
4.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“填充所述表头内的空白字段得到表头内容”步骤中,针对所述表头的每一行内字段类型为空的字段,将所述字段前一个非空字段的字段内容作为所述字段的字段内容。
5.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“拼接所述表头内容组成表头结构”步骤中,将对应同一列的所述表头内容进行拼接组成表头结构。
6.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“依据所述预设模板的列序列依次逐列识所述预设模板的字符类型”中,所述预设模板的列序列自所在列的位置自左而右依次增加,一旦识别到列的某字段类型为数字类型,则停止识别。
7.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“填充所述指标内的空白字段得到指标内容”步骤中,针对所述指标的每一列内字段类型为空的字段,将所述字段所在行置于前置位置的非空字段的字段内容作为所述字段的字段内容。
8.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“拼接所述指标内容组成指标结构”步骤中,将对应同一行的所述指标内容进行拼接组成指标结构。
9.根据权利要求1所述的多格式文档统一入库方法,其特征在于,在“识别所述预设模板的数字字段作为表内容,识别所述数字字段前后的文字字段作为表字段”步骤包括:将所述预设模板转换为ascll码,通过ascll码判断数字字段的位置,识别所述数字字段前后的文字字段作为表字段。
10.根据权利要求9所述的多格式文档统一入库方法,其特征在于,利用关键词库对文字字段进行识别,所述关键词库内预设指标名称。
11.一种多格式文档统一入库装置,其特征在于,包括:
文档导入模块,用于获取待导入文档,依据所述待导入文档的导入人员信息将所述待导入文档导入对应的预设模板;
Excel接口表生成模块,用于若所述待导入文档为excel文档,依据所述预设模板的行序列依次逐行识别所述预设模板的字符类型,选取字段类型均为文字类型或空的行作为表头,填充所述表头内的空白字段得到表头内容;依据所述预设模板的列序列依次逐列识所述预设模板的字符类型,选取字段类型均为文字类型或者空的列作为指标,填充所述指标内的空白字段得到指标结构;拼接所述表头内容组成表头结构,拼接所述指标内容组成指标内容,所述表头结构和所述指标结构组成表字段,依据所述表字段填充表内容,组合所述表字段和所述表内容组成接口表;
Word或txt接口表生成模块,用于若所述待导入文档为word文档或txt文档,识别所述预设模板的数字字段作为表内容,识别所述数字字段前后的文字字段作为表字段,组合所述表字段和所述表内容组成接口表。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1到10任一所述的多格式文档统一入库方法。
13.一种计算机程序产品,其特征在于,包括软件代码部分,当所述计算机程序产品在计算机上被运行时,所述软件代码部分用于执行根据权利要求1-10任一项所述的多格式文档统一入库方法。
14.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至10任一项所述的多格式文档统一入库方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210408891.9A CN114896197A (zh) | 2022-04-19 | 2022-04-19 | 多格式文档统一入库方法、装置及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210408891.9A CN114896197A (zh) | 2022-04-19 | 2022-04-19 | 多格式文档统一入库方法、装置及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114896197A true CN114896197A (zh) | 2022-08-12 |
Family
ID=82718117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210408891.9A Pending CN114896197A (zh) | 2022-04-19 | 2022-04-19 | 多格式文档统一入库方法、装置及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114896197A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408231A (zh) * | 2023-12-14 | 2024-01-16 | 上海孤波科技有限公司 | 一种芯片测试结果的格式转换方法、装置及电子设备 |
CN117648289A (zh) * | 2024-01-22 | 2024-03-05 | 北京梦天门科技股份有限公司 | 一种县域医共体多类型数据的统一整合的方法 |
-
2022
- 2022-04-19 CN CN202210408891.9A patent/CN114896197A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117408231A (zh) * | 2023-12-14 | 2024-01-16 | 上海孤波科技有限公司 | 一种芯片测试结果的格式转换方法、装置及电子设备 |
CN117408231B (zh) * | 2023-12-14 | 2024-04-19 | 上海孤波科技有限公司 | 一种芯片测试结果的格式转换方法、装置及电子设备 |
CN117648289A (zh) * | 2024-01-22 | 2024-03-05 | 北京梦天门科技股份有限公司 | 一种县域医共体多类型数据的统一整合的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457302B (zh) | 一种结构化数据智能清洗方法 | |
CN114896197A (zh) | 多格式文档统一入库方法、装置及系统 | |
US8316292B1 (en) | Identifying multiple versions of documents | |
JP2010501096A (ja) | ラッパー生成およびテンプレート検出の協同最適化 | |
CN111782763A (zh) | 基于语音语义的信息检索方法、及其相关设备 | |
US20210319039A1 (en) | Extraction of a nested hierarchical structure from text data in an unstructured version of a document | |
CN109857736A (zh) | 医院异构系统的数据编码统一化方法及系统、设备、介质 | |
CN117150050B (zh) | 一种基于大语言模型的知识图谱构建方法及系统 | |
CN112286934A (zh) | 数据库表导入方法、装置、设备及介质 | |
CN115391439B (zh) | 文档数据导出方法、装置、电子设备和存储介质 | |
CN112131289A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN113836038A (zh) | 测试数据构造方法、装置、设备及存储介质 | |
CN113704575B (zh) | 解析XML与Java文件的SQL方法、装置、设备及存储介质 | |
US10956659B1 (en) | System for generating templates from webpages | |
CN112650529A (zh) | 可配置生成移动端app代码的系统及方法 | |
CN112328738A (zh) | 语音检索方法、终端设备及可读存储介质 | |
CN111858467A (zh) | 基于人工智能的文件数据处理方法、装置、设备和介质 | |
CN116719822A (zh) | 一种海量结构化数据的存储方法及系统 | |
CN104717082A (zh) | 业务模型的适配方法及系统 | |
CN115794861A (zh) | 基于特征摘要的离线数据查询复用方法及其应用 | |
US11550777B2 (en) | Determining metadata of a dataset | |
CN114416847A (zh) | 一种数据转换的方法、装置、服务器及存储介质 | |
CN104978379A (zh) | 一种应用程序资料站的搭建方法及装置 | |
CN113868138A (zh) | 测试数据的获取方法、系统、设备及存储介质 | |
CN109408704B (zh) | 基金数据关联方法、系统、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |