CN116910063A

CN116910063A - 一种字段处理方法及系统

Info

Publication number: CN116910063A
Application number: CN202310905217.6A
Authority: CN
Inventors: 乔永志; 王公杰
Original assignee: Shanghai Tend Information And Technologies Co ltd
Current assignee: Shanghai Tend Information And Technologies Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-20

Abstract

本申请涉及数据处理领域，尤其是涉及一种字段处理方法及系统，其根据预读取的文件识别第一字段信息；将所述第一字段信息与字段数据库中的第二字段信息碰撞，得到已存字段和新字段；生成所述新字段的特征码；将所述新字段存储至字段数据库中。本申请的技术方案可以自适应地识别并向字段数据库中添加新字段，极大扩展了字段数据库的应用范围。

Description

一种字段处理方法及系统

技术领域

本申请涉及数据处理领域，尤其是涉及一种字段处理方法及系统。

背景技术

数据处理，基本目的是从大量的、可能是杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。其中，字段是比记录更小的单位，字段集合组成记录，每个字段描述文献的某一特征，即数据项，并有唯一的供计算机识别的字段标识符。

目前，在数据库对新数据进行处理时，先提取新数据中的字段，再按照字段信息对应数据库内的分表，并在字段对应的表中新建表单信息，之后将新数据中的全部字段信息均填入表单信息中，最后在数据库运行新数据。

但是，当用户再次上传数据至数据库中时，数据库会重复上述动作存储动作，并将相同字段一并存储在数据库中；之后，若要在数据库中运行相同字段的文件，需要用户再次编辑上传，运行效率低。

发明内容

为了提升数据库的运行效率，本申请提供一种字段处理方法及系统。

第一方面，本申请提供一种字段处理方法，采用如下的技术方案：

一种字段处理方法，包括，

根据预读取的文件识别第一字段信息；

将所述第一字段信息与字段数据库中的第二字段信息碰撞，得到已存字段和新字段；

生成所述新字段的特征码，其中，特征码包括字段名和字段顺序；

将所述新字段存储至字段数据库中。

进一步地，将所述第一字段信息与第二字段信息进行碰撞，得到已存字段和新字段，包括：

根据预设碰撞规则；

当所述第一字段信息与所述第二字段信息相同时，得到所述已存字段，则对撞后的碰撞信息与所述已存字段信息关联；

当所述第一字段信息与所述第二字段信息不同时，根据字段生成规则生成所述新字段。

进一步地，所述新字段的特征码还包括所述新字段对应的字段类型以及字段所属块，其中，所述字段类型包括固定长度字段和整数型字段。

进一步地，所述新字段的字段名包括所述第一字段信息的中文字段拼音首字母或所述第一字段信息的中文字段拼音首字母和数字的组合。

进一步地，字段名生成规则，包括：

当所述第一中文字段信息的首字母字段名未存于所述字段数据库内时，根据所述第一中文字段信息首字母生成首字母字段名，作为所述第一中文字段信息的新字段名；

或，

当所述第一中文字段信息的首字母字段名已存于所述字段数据库内时，则在首字母后按序增加序号，作为所述第一中文字段信息的新字段名。

进一步地，字段类型生成规则，包括：

当所述第一字段信息与所述第二字段信息的字段名相同时，则所述第一字段信息的字段类型调用所述第二字段信息的字段类型；

或，

当所述第一字段信息与所述第二字段信息的字段名不同时，对所述第一字段信息进行识别，得到识别结果，根据所述第一字段信息的识别结果设置所述第一字段信息的字段类型。

进一步地，字段所属块以及字段顺序生成规则，包括：

将所述第一字段信息根据格式划分对应的字段所属块，采用对应的枚举表示所述字段所属块；

并对所述字段所属块内的字段按照排列生成字段顺序。

第二方面，本申请提供一种字段处理系统，采用如下的技术方案：

一种字段处理系统，包括字段信息采集模块、信息碰撞模块和信息生成模块，

信息采集模块基于预读取文件，接入字段数据库，识别并采集预读取文件内的字段信息，字段信息包括字段名、字段类型、字段所属块和字段顺序；

信息碰撞模块基于碰撞规则，将参与信息碰撞的字段信息根据碰撞规则进行对撞，获得已存字段和新字段；

信息生成模块，用于生成新字段对应的字段信息。

第三方面，本申请提供一种贸易信息处理方法，采用如下的技术方案：

一种贸易信息处理方法，用于抽取办公处理平台中的贸易信息并填充至可视化页面内，实现办公自动化；所述贸易信息处理方法实现如第一方面所述的一种字段处理方法。

第四方面，本申请提供一种计算机设备，采用如下的技术方案：

一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的一种字段处理方法。

第五方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行如第一方面中任一种字段处理方法的计算机程序。

综上所述，本申请具有的有益技术效果：应用于办公数据处理平台，例如excel、word和power point等办公数据处理平台，其中在对贸易信息excel表内的预读取文件数据进行处理时，预读取文件包括历史文件、历史编辑文件以及新增文件；

首先在预读取文件中识别需要进行处理的第一字段信息，然后将第一字段信息与字段数据库中的第二字段信息进行比对碰撞，其中，字段数据库用于存储运行在数据库内的字段信息，第一字段信息可以包括贸易信息excel表中的所有可读取的字段信息，例如产品名称、产品交易数据、产品规格、产品包装等，第二字段信息包括字段数据库中已存储的字段信息；

之后，根据比对碰撞的结果，得到已存字段和新字段，已存字段为字段数据库中已存储的字段信息，新字段是字段数据库中未存储的字段信息，并根据新字段生成对应的特征码，特征码一般包括字段名和字段顺序，最后将新字段存储至字段数据库中，从而在运行相同字段信息的文件时，不需要用户再次上传，可以自适应地识别并向字段数据库中添加新字段，极大扩展了字段数据库的应用范围。

附图说明

图1是本申请其中一实施例字段处理方法的流程图。

图2是本申请其中一实施例字段名生成规则的流程图。

图3是本申请其中一实施例字段类型生成规则的流程图。

图4是本申请其中一实施例字段所属块以及字段顺序生成规则的流程图。

图5是本申请其中一实施例字段处理系统的框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图1-5及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请实施例公开一种字段处理方法，

实施例一：

包括以下步骤，参照图1，

步骤S10：根据预读取的文件识别第一字段信息；

具体地，预读取文件包括历史文件、历史编辑文件以及新增文件；第一字段信息可以包括文件中字段的原始字段、中文字段名、英文字段名以及字段的查询条件等。

需要说明的是，应用于办公数据处理平台中，例如excel、word和power point等；当具体实施在贸易信息excel表中时，用户将贸易信息excel表导入数据库后，数据库可通过全文md5信息摘要算法对贸易信息excel表中的字段信息进行识别，从而获取到贸易信息excel表中第一字段信息，例如，原始字段名（即字段的原始字段）、中文字段名（即字段的中文字段名，如产品名称）、英文字段名（即字段的英文名，如中文产品名对应的英文）以及字段的查询条件等，在其他实施例中，字段信息的识别可采用其他识别方式。

步骤S20：将第一字段信息与字段数据库中的第二字段信息碰撞，得到已存字段和新字段；

具体地，字段数据库用于存储运行在数据库内的字段信息，即存储用户历史上传文件或新增文件的字段信息，第二字段信息包括字段数据库中已存储的字段信息，即是字段数据库中根据历史上传文件中获取的已存的字段信息；已存字段是指新增文件中字段数据库中已存储的字段，新字段是指新增文件中字段数据库中未存储的字段。

步骤S30：生成新字段的特征码，其中，特征码包括字段名和字段顺序；

具体地，特征码包括字段名和字段顺序，字段名可包括原始字段名、中文字段名和英文字段名，其中，具体运用到贸易信息excel表中，中文字段名可包括产品名称、产品千克净重，产品数量，产品数量单价以及产品重量单价；英文字段名可包括中文字段名对应的英文翻译或其他英文表述，例如，产品名称对应的英文字段名为product name，产品千克净重对应的英文字段名为weight(Kg)，产品数量对应的英文字段名为qty；字段顺序包括指字段信息在列表中的展示位置。

步骤S40：将新字段存储至字段数据库中。

具体地，在得到新增的新字段后，将新字段存储至字段数据库中，包括新字段以及新字段的特征码。

上述实施方式中，应用于办公数据处理平台，且具体实施在贸易信息excel表中，用户将贸易信息excel表导入数据库后，首先在预读取文件中通过全文md5信息摘要算法对贸易信息excel表中的字段信息进行识别，识别出的第一字段信息包括产品千克净重，产品数量，产品数量单价以及产品重量单价；

然后将第一字段信息与字段数据库中的第二字段信息进行比对碰撞，字段数据库中关于产品信息中包括的第二字段信息有，产品千克净重，产品数量和产品数量单价；根据比对碰撞的结果，得到已存字段和新字段，用户新上传中的贸易信息excel表中新增了产品信息中的重量单价，而字段数据库中已存的字段信息不包含产品信息中的重量单价字段信息；而此时，新增文件中关于产品信息的已存字段就包括产品千克净重，产品数量和产品数量单价，新字段包括产品数量单价；

进一步地，并根据新字段生成对应的特征码，最后将新字段存储至字段数据库中；从而在运行相同字段信息的文件时，不需要用户再次上传，可以自适应地识别并向字段数据库中添加新字段，极大扩展了字段数据库的应用范围。

作为步骤S20的一种实施方式，将第一字段信息与第二字段信息进行碰撞，得到已存字段和新字段，具体包括：

根据预设碰撞规则；

具体地，预设碰撞规则包括字段名、字段类型、字段所属块以及字段顺序。

当第一字段信息与第二字段信息相同时，得到已存字段，则对撞后的碰撞信息与已存字段信息关联；

具体地，当预读取文件中的第一字段信息与第二字段信息相同时，则该第一字段信息为字段数据库中已存储的字段信息，并将第一字段信息与数据库中相同的字段信息进行关联，无需再在字段数据库中新建字段信息，节省了字段数据库内的空间。

当第一字段信息与第二字段信息不同时，根据字段生成规则生成新字段。

具体地，当预读取文件中的第一字段信息与第二字段信息不同时，例如上述中的产品信息中的产品数量单价为第一字段信息与第二字段信息未必对碰撞到的字段信息，会在字段数据库中新建字段信息，并根据字段生成规则生成新字段（产品数量单价）。

需要说明的是，在将第一字段信息与第二字段信息进行比对碰撞时，根据预设碰撞规则，当第一字段信息与第二字段信息不同时，根据字段生成规则生成新字段，并存储至字段数据库中，便于下次比对碰撞时使用；当第一字段信息与第二字段信息相同时，得到已存字段，则对撞后的碰撞信息与已存字段信息关联，其中，已存字段为存储在字段数据库中的字段信息，无需再次在字段数据库中新建字段信息，在一定程度上增加了处理效率且节省了字段数据库内的空间。

作为新字段的一种实施方式，新字段的特征码还包括新字段对应的字段类型以及字段所属块，其中，字段类型包括固定长度字段和整数型字段。

具体地，新字段的特征码包括新字段对应的字段名、字段类型、字段所属块以及字段顺序，其中字段类型可包括固定长度字段（char）和整数类型字段（int），还可以包括文本（str）、日期（datetime）以及浮点型数据（float）等，其中，在办公数据处理平台中，文本（str）与可变长度字段（varchar）定义相同，字段所属块用于将各字段信息进行分类。

应当理解的是，根据新字段的识别结果，生成新字段的特征码，例如，字段名以及字段顺序，在此基础上，还会生成新字段的字段类型以及字段所属块，由于特征码的设置，与数据库内原有字段信息进行区分，便于办公数据平台直接识别且便于后续使用时直接调用。

作为新字段的字段名的一种实施方式，新字段的字段名包括第一字段信息的中文字段拼音首字母或第一字段信息的中文字段拼音首字母和数字的组合。

具体地，字段名用于表示字段，且字段数据库中采用字段信息的中文字段拼音首字母或字段信息的中文字段拼音首字母和数字的组合的方式进行字段名的命名；当字段数据库生成新字段的字段名时，也采用新字段信息的中文字段拼音首字母或新字段信息的中文字段拼音首字母和数字的组合的方式进行字段名的命名；以此对新字段进行命名，对各新字段进行区分，便于在后续使用时调用。

参照图2，作为步骤S30的一种实施方式，字段名生成规则，具体包括：

当第一中文字段信息的首字母字段名未存于字段数据库内时，根据第一中文字段信息首字母生成首字母字段名，作为第一中文字段信息的新字段名；

或，

当第一中文字段信息的首字母字段名已存于字段数据库内时，则在首字母后按序增加序号，作为第一中文字段信息的新字段名。

具体地，第一中文字段信息包括新字段中的中文字段，则提取第一中文字段信息中的中文字段的首字母，并将各中文字段对应的首字母按照中文字段的顺序排列；当该首字母排列未存储在字段数据库内时，则使用该首字母排列作为第一中文字段信息的字段名；由于中文字段的首字母组合具有重复性，当第一中文字段信息的首字母字段名已存于字段数据库内，则在首字母后按序增加序号，生成由首字母与序号组成作为第一中文字段信息的新字段名，通过首字母或首字母和序号的组合作为新字段名，具有可区分性以及差异性。

例如，产品重量单价的首字母排列为cpzldj，那么产品重量单价的字段名为cpzldj；当该首字母排列已存储在字段数据库内时，则在首字母后按照顺序增加序号，例如字段数据库中已存在字段名为cpzldj的字段信息，则产品重量单价的字段名为cpzldj1。

参照图3，作为步骤S30的一种实施方式，字段类型生成规则，具体包括：

当第一字段信息与第二字段信息的字段名相同时，则第一字段信息的字段类型调用第二字段信息的字段类型；

或，

当第一字段信息与第二字段信息的字段名不同时，对第一字段信息进行识别，得到识别结果，根据第一字段信息的识别结果设置第一字段信息的字段类型。

具体地，用户在将预读取文件上传至数据库后，并将从预读取文件中的第一字段信息与第二字段信息进行比对碰撞，当第一字段信息与第二字段信息的字段名相同，则第一字段信息的字段类型直接调用第二字段信息的字段类型；例如，用户上传修改后的贸易信息excel表，其中产品千克净重的字段名已存在于字段数据库中，且产品千克净重的字段类型为浮点型数据（float），修改后的贸易信息excel表内的产品千克净重的字段名与存储在字段数据库中的产品千克净重的字段名相同，那么产品千克净重的字段信息直接调用字段数据库中的产品千克净重的字段类型，设置为浮点型数据（float）。

进一步地，当第一字段信息与第二字段信息的字段名不同，则对第一字段信息进行识别，得到识别结果，识别结果根据第一字段信息内的字段数据的类型进行划分，从而根据识别的结过设置第一字段信息的字段类型，例如，用户上传修改后的贸易信息excel表，其中产品进口日期的的字段名未存在与字段数据库中，则字段数据库对产品进口日期的字段信息进行识别，并新建字段信息，将产品进口日期的基本信息填入字段信息中，并设置产品进口日期的字段类型为日期（datetime）。

参照图4，作为步骤S30的一种实施方式，字段所属块以及字段顺序生成规则，具体包括：

将第一字段信息根据格式划分对应的字段所属块，采用对应的枚举表示字段所属块；

具体地，格式划分是指根据字段信息所包含的数据内容进行划分，例如，产品名称是对贸易信息表中销售的产品的名字的统称，则字段数据库中的所有定义为产品名称的字段信息均属于产品名称这一字段所属块中，产品描述是对贸易信息表中各产品的描述的统称，则字段数据库中的所有定义为产品的描述的字段信息均属于产品名称这一字段所属块中；字段所属块是指字段数据库中的分类块，对于不同信息设置有不同的块；采用枚举值对字段所属块进行表示，且枚举元素本身定义为一个表示序号的数值。

并对字段所属块内的字段按照排列生成字段顺序。

具体地，排列即是字段信息在所属块内的自然排列顺序，字段顺序是指字段信息在字段数据中的可视化界面中的展示顺序，并依据枚举值的序号进行展示。

进一步地，在字段数据库中新建字段信息，并将新字段的基本信息填入后，并根据第一字段信息的格式划分字段所属块，并采用枚举对应表示所属块，之后对所属块内的字段信息按照从左至右的原则进行排序，且对应字段信息的排序生成展示序号；生成展示序号后，在用户查看字段数据库中的部分存储的字段信息时，字段信息按照展示序号进行排列。

实施例二：

一种字段处理方法，还包括以下实施方式：

用户将预存储文件上传至数据库内，字段数据库读取预存储文件中的字段信息，根据压缩算法将字段信息进行压缩，将字段信息中的无用信息删除（例如空格等），得到字段信息压缩包，其中压缩算法可采用多种开源框架中的任意一种压缩方式；之后通过编码工具对各字段信息附加唯一编码，唯一编码是指对各字段信息进行唯一标记，采用的编码工具可以适用Utf-16、Utf-32、Punycode、Base64、Quoted-printable以及MIME等多种格式编码解码，再将字段信息压缩包以及字段信息压缩包对应的唯一编码均存储至字段数据库中；之后，当用户需调用字段数据库中的字段信息时，用户根据唯一编码查找到字段信息压缩包，之后对字段信息压缩包进行解压，并将唯一编码从字段信息中剔除即解码，解码需与编码使用的格式编码相对应，得到字段信息，再根据解压算法对字段信息进行还原，其中，解压算法可采用多种开源框架中的任意一种解压方式，并与压缩算法相对应，最终得到需要使用的原始字段信息。

本申请实施例还公开一种字段处理系统。

参照图5，一种字段处理系统，采用如下的技术方案：

信息生成模块，用于生成新字段对应的字段信息。

上述实施方式中，在字段处理系统中，通过信息采集模块对预读取文件进行识别并采集预读取文件中的字段信息，通过信息采集模块接入字段数据库，在接入预读取文件时，获取预读取文件的包括字段名、字段类型、字段所属块和字段顺序在内的字段信息，之后，在信息碰撞模块中，将参与信息碰撞的字段信息根据碰撞规则进行对撞，获得已存字段和新字段，再通过信息生成模块生成新字段对应的字段信息，从而在字段处理系统内完成对不同字段信息的处理，以便于后续对于字段信息进行处理。

本申请实施例的一种字段处理系统能够实现上述一种字段处理方法的任一种方法，且一种字段处理系统中各个模块的具体工作过程可参考上述方法实施例中的对应过程。

在本申请所提供的几个实施例中，应该理解到，所提供的方法和系统，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的；例如，某个模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例还公开一种贸易信息处理方法，

抽取办公处理平台中的贸易信息并填充至可视化页面内，实现办公自动化；贸易信息处理方法实现如上述的一种字段处理方法。

上述实施方式中，在处理贸易信息时，用户上传贸易信息excel表至数据库中，通过对贸易信息excel表进行识别并抽取贸易信息excel表中的商家信息，产品信息，物流信息以及附加信息等贸易信息；并接入字段数据库，字段数据库获取贸易信息excel表的贸易信息的字段信息，贸易信息的字段信息包括贸易信息对应的字段名、贸易信息对应的字段类型、贸易信息对应的字段所属块和字段顺序等；

之后，将抽取的字段信息根据碰撞规则与字段数据库中的字段信息进行对撞，获得已存字段和新字段，再根据字段生成规则生成新字段对应的字段信息，并将新字段存储至数据库中；其中，数据库中存储关于从贸易信息excel表中的字段信息，并通过特征码对字段信息做出区分；

最后，将存储贸易信息excel表中的字段信息的字段数据库与数据库中的贸易信息页面表通过的唯一键进行关联，从而在最终形成的可视化贸易信息页面中，例如，根据字段所属块信息渲染不同的层级（如商品信息-进口商，商品信息-出口商等）；根据语言环境(中文或英文) 渲染不同语言环境下的对应数据源单字段显示名称；根据字段序号(字段在所属块中的序号)确定字段所在位置（前后顺序）；根据字段展示类型渲染字段的展示方式（一行一列或一行两列）；根据字段的数据值渲染字段展示值，根据字段类型（日期、文本、数值和超链接等）控制字段值的展示样式，以渲染出贸易信息页面，实现办公自动化。

本申请实施例还公开一种计算机设备。

计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述的一种字段处理方法。

本申请实施例还公开一种计算机可读存储介质。

计算机可读存储介质，存储有能够被处理器加载并执行如上述的一种字段处理方法中任一种方法的计算机程序。

其中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用；计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

需要说明的是，在上述实施例中，对各个实施例的描述各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，本说明书（包括摘要和附图）中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

Claims

1.一种字段处理方法，其特征在于：包括，

根据预读取的文件识别第一字段信息；

将所述新字段存储至字段数据库中。

2.根据权利要求1所述一种字段处理方法，其特征在于，将所述第一字段信息与所述第二字段信息进行碰撞，得到已存字段和新字段，包括：

根据预设碰撞规则；

3.根据权利要求1所述一种字段处理方法，其特征在于：所述新字段的特征码还包括所述新字段对应的字段类型以及字段所属块，其中，所述字段类型包括固定长度字段和整数型字段。

4.根据权利要求3所述一种字段处理方法，其特征在于：所述新字段的字段名包括所述第一字段信息的中文字段拼音首字母或所述第一字段信息的中文字段拼音首字母和数字的组合。

5.根据权利要求4所述一种字段处理方法，其特征在于，字段名生成规则，包括：

或，

6.根据权利要求3所述一种字段处理方法，其特征在于，字段类型生成规则，包括：

或，

7.根据权利要求6所述一种字段处理方法，其特征在于，字段所属块以及字段顺序生成规则，包括：

并对所述字段所属块内的字段按照排列生成字段顺序。

8.一种字段处理系统，其特征在于：包括字段信息采集模块、信息碰撞模块和信息生成模块，

信息生成模块，用于生成新字段对应的字段信息。

9.一种贸易信息处理方法，其特征在于：包括权利要求1-7中的任一所述的字段处理方法，抽取办公处理平台中的贸易信息，并填充至可视化页面内。

10.一种计算机设备，其特征在于：包括存储器、处理器以及储存在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行如权利1-7中任一所述的一种字段处理方法。