CN115859945A

CN115859945A - 基于表格表头的数据匹配方法、系统和可读存储介质

Info

Publication number: CN115859945A
Application number: CN202310173200.6A
Authority: CN
Inventors: �田�浩; 张旭; 张宇峰; 尹海文
Original assignee: Networks Technology Co ltd
Current assignee: Networks Technology Co ltd
Priority date: 2023-02-28
Filing date: 2023-02-28
Publication date: 2023-03-28
Anticipated expiration: 2043-02-28
Also published as: CN115859945B

Abstract

本发明公开的一种基于表格表头的数据匹配方法、系统和可读存储介质，其中方法包括：利用预设的表格识别装置识别目标表格；基于所述目标表格进行表格解析，并将解析结果进行保存；基于所述解析结果进行重新读取，识别对应的表格表头以显示到用户端；获取用户基于所述表格表头的填入数据以更新所述目标表格。本发明可以自动读取Excel表格的表头灵活根据表头匹配到需要关联的字段内容，用户在第一次选择表头匹配的顺序后，会自动记住表头匹配的内容，准确读取数据，大大提高了功能的灵活性和效率以及用户的体验值，同时也是满足大部分客户的个性化需要。

Description

基于表格表头的数据匹配方法、系统和可读存储介质

技术领域

本发明涉及数据处理技术领域，更具体的，涉及一种基于表格表头的数据匹配方法、系统和可读存储介质。

背景技术

在传统的软件系统使用中，不同系统之间的数据往往是无法互通的，这就需要用户将其中一个系统的数据导出来做成表格，然后再将表格数据导入到另外一个系统。现有的技术就是提供一套固定的表格导入模板，用户只要将数据根据表格模板格式写入数据再导入到系统，这就要求用户需要保证写入的格式跟模板一模一样才能顺利导入到另外一个系统中。

针对于现有的技术方案，用户要想顺利的将数据导入到系统中，就必须根据提供的模板一一核对，保证写入的数据跟模板中提供的字段顺序是保持一致的。这样的处理方式存在比较大的出错几率，以及增加了用户的时间和人工成本，对于用户来说这种体验也是比较差。在客户对于系统操作的舒适性、灵活性、个性化等要求越来越高，现有的技术方案已经无法满足。

发明内容

本发明的目的是提供一种基于表格表头的数据匹配方法、系统和可读存储介质，可以自动读取Excel表格的表头灵活根据表头匹配到需要关联的字段内容，大大提高了功能的灵活性和效率以及用户的体验值，同时也是满足大部分客户的个性化需要。

本发明第一方面提供了一种基于表格表头的数据匹配方法，包括以下步骤：

利用预设的表格识别装置识别目标表格；

基于所述目标表格进行表格解析，并将解析结果进行保存；

基于所述解析结果进行重新读取，识别对应的表格表头以显示到用户端；

获取用户基于所述表格表头的填入数据以更新所述目标表格。

本方案中，所述利用预设的表格识别装置识别目标表格，具体包括：

所述用户使用表格导入数据时，利用第三方jar包进行表格数据的读取，其中，所述表格识别装置至少包括所述第三方jar包；

将所述表格数据中的第一行每列作为表头行列以供解析时作为表头数据，第二行每一列及后续行列作为数据行列以供解析时作为有效数据；

将所述表格数据中的行列进行分隔后得到所述目标表格。

本方案中，所述基于所述目标表格进行表格解析，并将解析结果进行保存，具体包括：

将所述目标表格中的第一行的表头中每一列数据作为一个key；

将第二行及后续行中每一列所述表头下的数据作为一个value；

利用key和value对所述目标表格中的数据进行定义解析，从而得到所述解析结果。

本方案中，所述方法还包括：

判断所述目标表格中是否超出一个sheet，其中，

若不超出一个sheet，则对所述目标表格进行解析并直接将解析结果保存；

若超出一个sheet，则对所述目标表格进行解析保存所有sheet对应的解析结果，并等待获取用户的指定sheet重新读取。

本方案中，所述基于所述解析结果进行重新读取，识别对应的表格表头以显示到用户端，具体包括：

获取用户选择的所述指定sheet；

基于所述解析结果结合所述指定sheet进行重新读取；

将封装好的所述解析结果中的key值响应到所述用户端进行显示，其中，显示到用户端时key值的排序与所述目标表格中第一行每一列数据的排序一致。

本方案中，所述获取用户基于所述表格表头的填入数据以更新所述目标表格，具体包括：

获取用户在所述key值下方表格中对应的所述填入数据；

筛选所述填入数据中的目标字段，其中，去除表格为空的字段，将表格不为空的定义为所述目标字段；

将所述目标字段中的数据映射到所述解析结果中对应key下方的value中，从而更新所述目标表格。

本发明第二方面还提供一种基于表格表头的数据匹配系统，包括存储器和处理器，所述存储器中包括基于表格表头的数据匹配方法程序，所述基于表格表头的数据匹配方法程序被所述处理器执行时实现如下步骤：

利用预设的表格识别装置识别目标表格；

基于所述目标表格进行表格解析，并将解析结果进行保存；

将所述表格数据中的行列进行分隔后得到所述目标表格。

本方案中，所述方法还包括：

判断所述目标表格中是否超出一个sheet，其中，

获取用户选择的所述指定sheet；

基于所述解析结果结合所述指定sheet进行重新读取；

获取用户在所述key值下方表格中对应的所述填入数据；

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括机器的一种基于表格表头的数据匹配方法程序，所述基于表格表头的数据匹配方法程序被处理器执行时，实现如上述任一项所述的一种基于表格表头的数据匹配方法的步骤。

本发明公开的一种基于表格表头的数据匹配方法、系统和可读存储介质，可以自动读取Excel表格的表头灵活根据表头匹配到需要关联的字段内容，用户在第一次选择表头匹配的顺序后，会自动记住表头匹配的内容，准确读取数据，大大提高了功能的灵活性和效率以及用户的体验值，同时也是满足大部分客户的个性化需要。

附图说明

图1示出了本发明一种基于表格表头的数据匹配方法的流程图；

图2示出了本发明一种基于表格表头的数据匹配系统的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本申请一种基于表格表头的数据匹配方法的流程图。

如图1所示，本申请公开了一种基于表格表头的数据匹配方法，包括以下步骤：

S102，利用预设的表格识别装置识别目标表格；

S104，基于所述目标表格进行表格解析，并将解析结果进行保存；

S106，基于所述解析结果进行重新读取，识别对应的表格表头以显示到用户端；

S108，获取用户基于所述表格表头的填入数据以更新所述目标表格。

需要说明的是，于本实施例中，用户在第一次使用Excel导入数据时，利用所述表格识别装置识别对应的Excel从而得到目标表格，具体可以借助第三方jar包对Excel数据进行读取，在获取到所述目标表格后，需要对表格进行数据解析，并将解析结果进行保存，可以保存在本地，也可以保存在云端，后续用户再次进行填写时，不需要再根据不同的模板一一核对，从而保证写入的数据跟模板中提供的字段顺序是保持一致的，只需要基于解析结果进行重新读取，识别对应的Excel表格的表头从而显示给用户端，例如通过web端进行显示，直接自动化抽取不同的表头供给用户进行填写数据，而后可以获取用户基于所述表格表头的填入数据更新所述目标表格，其中，每个所述目标表格都会被保存，但是对应的表头不会被更改。

根据本发明实施例，所述利用预设的表格识别装置识别目标表格，具体包括：

将所述表格数据中的行列进行分隔后得到所述目标表格。

需要说明的是，于本实施例中，采用第三方jar包作为所述表格识别装置，利用第三方jar包对表格数据进行读取，得到的目标表格中，第一行每列数据作为表头数据，从第二行开始，后续每行（包括第二行）的每一列作为待处理的数据，即有效数据，无论当前用户使用表格导入的数据中存在多少个sheet，都需要对每个表格数据进行读取，基于每一个sheet的行列进行读取以得到表头数据以及有效数据，其中，jar（Java ARchive）是将一系列文件合并到单个压缩文件里，就象Zip那样，然而，同Java中其他任何东西一样，jar文件是跨平台的，所以不必关心涉及具体平台的问题。

根据本发明实施例，所述基于所述目标表格进行表格解析，并将解析结果进行保存，具体包括：

需要说明的是，于本实施例中，上述实施例中说明了利用第三方jar包对Excel数据进行获取，得到了对应的目标表格，目标表格中有着明确的行分隔代表着不同的物理定义，在对所述目标表格进行解析时，将所述目标表格中的第一行的表头中每一列数据作为一个key，即表明第一行有多少列数据就代表着有多少个key，也就表明有多少个表头；将第二行及后续行中每一列所述表头下的数据作为一个value，每个表头的列下方的数据均是对应表头的填充数据，一个表头下方可能存在多个value，对应于不同的行数，例如，所述目标表格为“4

5”，则表明当前目标表格为四行五列表格，第一行为表头行，表头行有五列，代表当前目标表格有“5”个key值，第二行至第四行为数据行，共五列，代表有“20”个value值，每个key值下方有“4”个value值；利用key值和value值对所述目标表格中的数据进行定义解析，从而得到所述解析结果，相应地，所述解析结果也可以是表格形式。

根据本发明实施例，所述方法还包括：

判断所述目标表格中是否超出一个sheet，其中，

需要说明的是，于本实施例中，用户在后续填入数据时，会根据第一次填入的Excel数据后生成的解析结果进行用户端显示，若所述目标表格中不超过一个sheet，则表明无需对sheet进行选择，直接将所述目标表格解析后保存的解析结果进行用户端显示，若在对所述目标表格中的所有sheet中的数据解析后，从所述解析结果中匹配用户指定的sheet进行重新读取以进行用户端显示。

根据本发明实施例，所述基于所述解析结果进行重新读取，识别对应的表格表头以显示到用户端，具体包括：

获取用户选择的所述指定sheet；

基于所述解析结果结合所述指定sheet进行重新读取；

需要说明的是，于本实施例中，获取到用户选择的指定sheet，其中，对于所述目标表格中仅有一个sheet而言，所述指定sheet即为对应的所述目标表格，对于所述目标表格中存在至少两个sheet而言，所述指定sheet即为用户选择的所述目标表格中确定的一个sheet，从解析结果中提取对应的key以显示到用户端，在显示时，所述key值的排序，根据目标表格中对应的第一行中列数据的排序进行匹配，以使得排序一致，当然，在无序状态下，也可以不按照初始的排序进行，后期待用户填入数据后，进行表头的校准匹配即可，在显示时，展示的是标准字段名称，例如包括姓名、身份证号、代发账号、代发金额、归属地、手机号、商户自定义、商户订单号、回单备注等，用户在不同的表头下填写对应的数据即可。

根据本发明实施例，所述获取用户基于所述表格表头的填入数据以更新所述目标表格，具体包括：

获取用户在所述key值下方表格中对应的所述填入数据；

需要说明的是，于本实施例中，在更新目标表格时，对空的字段无需映射，只需要对不为空的目标字段进行映射，其中，在映射时，根据上述实施例中说明的排序情况进行顺序映射，例如，用户key值下方的表格中填入数据为“2

3”，其中，第二行第三列和第三行第二列是表格为空的字段，则在顺序映射时，目标表格中第三行第三列和第四行第二列的表格无需填充。

值得一提的是，所述方法还包括：

建立与预设的云存储服务器的通信连接；

在对所述目标表格进行解析时，将每次解析得到的所述解析结果上传至所述云存储服务器；

获取到用户指定sheet时，基于所述云存储服务器提取对应的目标表格。

需要说明的是，于本实施例中，通过建立与云端存储服务器的通信连接，可以将存储调用这一步骤应用到云端上，具体可以通过OSS进行，其中， OSS（Operation SupportSystems）系统即操作支持系统，是电信业务开展和运营时所必需的支撑平台，是一种将文件存储在云服务上的技术手段，利用云端存储可以存储更多量的解析结果，通过云端存储和本地存储，可以更好地保护数据准确。

值得一提的是，所述方法还包括：

识别不同的表格表头中待更新数据中的选项值；

基于所述填入数据与所述选项值进行比较；其中，

若所述填入数据与所述选项值均不同，则输出告警提醒；否则不予输出。

需要说明的是，于本实施例中，不同的表格表头有着不同的待更新数据，相应地，有的表格表头存在对应的选项值，例如性别、身份证号以及手机号等，存在固定的选项值，比如性别包括“男、女”，身份证号以及手机号有数字长短限制，比如国内手机号为“11”位数字等等，当对于这类表格表头的数据进行更新时，若出现所述填入数据与所述选项值均不同，则输出告警提醒，以在用户端提醒用户当前输入数据有误。

值得一提的是，所述方法还包括基于历史数据进行自纠错，具体包括：

识别各所述表格表头中的对应的数据纠错因子；

基于所述数据纠错因子对当前表格表头中的数据进行自纠错，其中，

基于当前表格表头中的历史数据进行替换从而完成自纠错。

需要说明的是，于本实施例中，不同的表格表头对应的数据中有些是可以进行自纠错的，例如身份证号或者手机号，比如“张三的身份证号后四位数字为0203”，但是张三在用户端填入的数据为“0201”，此时可以进行自纠错，将历史数据中身份证号替换当前的填入数据，由于替换存在风险，而重名的人大有存在，因此，需要根据手机号进行辨别，因为手机号、身份证号与姓名是一一对应的，其中一个出错之后，需要其他两个进行验证，才可进行自纠错，但是姓名一致是，手机号与身份证号存在均不相同的情况，因此，所述数据纠错因子存在于手机号对应的表格表头内以及身份证号对应的表格表头内，“张三”的填入数据与历史数据中“张三的身份证号或者手机号”存在出入时，需要进行替换，但是出现数字错误的数量不可大于“1”，即表明在对身份证号或者手机号进行自纠错时，如果填入数据中与历史数据中的数据差异数量大于“1”，则不进行纠错。

值得一提的是，所述方法还包括：

获取用户在key值无规律排列时各表格表头下方的填入数据；

建立所述填入数据与所述表格表头的数据关联以得到每个所述填入数据的关联关系；

基于所述关联关系匹配所述目标表格中的key值进行数据更新。

需要说明的是，于本实施例中，上述实施例中说明了用户在填入数据时，所述key值的排序，根据目标表格中对应的第一行中列数据的排序进行匹配使得排序一致，而本实施例中说明了key值在无规律排列时的情况，即并未对key的排序作任何特殊规定，此时，需要建立填入数据与所述表格表头的数据关联，得到每个填入数据与所述表格表头的关联关系，从而在更新所述目标表格时，可以基于关联关系进行一一匹配，而无需根据原始排序进行顺序填充。

图2示出了本发明一种基于表格表头的数据匹配系统的框图。

如图2所示，本发明公开了一种基于表格表头的数据匹配系统，包括存储器和处理器，所述存储器中包括基于表格表头的数据匹配方法程序，所述基于表格表头的数据匹配方法程序被所述处理器执行时实现如下步骤：

利用预设的表格识别装置识别目标表格；

基于所述目标表格进行表格解析，并将解析结果进行保存；

将所述表格数据中的行列进行分隔后得到所述目标表格。

根据本发明实施例，所述方法还包括：

判断所述目标表格中是否超出一个sheet，其中，

获取用户选择的所述指定sheet；

基于所述解析结果结合所述指定sheet进行重新读取；

获取用户在所述key值下方表格中对应的所述填入数据；

值得一提的是，所述方法还包括：

建立与预设的云存储服务器的通信连接；

值得一提的是，所述方法还包括：

识别不同的表格表头中待更新数据中的选项值；

基于所述填入数据与所述选项值进行比较；其中，

识别各所述表格表头中的对应的数据纠错因子；

基于当前表格表头中的历史数据进行替换从而完成自纠错。

值得一提的是，所述方法还包括：

获取用户在key值无规律排列时各表格表头下方的填入数据；

本发明第三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中包括一种基于表格表头的数据匹配方法程序，所述基于表格表头的数据匹配方法程序被处理器执行时，实现如上述任一项所述的一种基于表格表头的数据匹配方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于表格表头的数据匹配方法，其特征在于，包括以下步骤：

利用预设的表格识别装置识别目标表格；

基于所述目标表格进行表格解析，并将解析结果进行保存；

2.根据权利要求1所述的一种基于表格表头的数据匹配方法，其特征在于，所述利用预设的表格识别装置识别目标表格，具体包括：

将所述表格数据中的行列进行分隔后得到所述目标表格。

3.根据权利要求2所述的一种基于表格表头的数据匹配方法，其特征在于，所述基于所述目标表格进行表格解析，并将解析结果进行保存，具体包括：

4.根据权利要求3所述的一种基于表格表头的数据匹配方法，其特征在于，所述方法还包括：

判断所述目标表格中是否超出一个sheet，其中，

5.根据权利要求4所述的一种基于表格表头的数据匹配方法，其特征在于，所述基于所述解析结果进行重新读取，识别对应的表格表头以显示到用户端，具体包括：

获取用户选择的所述指定sheet；

基于所述解析结果结合所述指定sheet进行重新读取；

6.根据权利要求5所述的一种基于表格表头的数据匹配方法，其特征在于，所述获取用户基于所述表格表头的填入数据以更新所述目标表格，具体包括：

获取用户在所述key值下方表格中对应的所述填入数据；

7.一种基于表格表头的数据匹配系统，其特征在于，包括存储器和处理器，所述存储器中包括基于表格表头的数据匹配方法程序，所述基于表格表头的数据匹配方法程序被所述处理器执行时实现如下步骤：

利用预设的表格识别装置识别目标表格；

基于所述目标表格进行表格解析，并将解析结果进行保存；

8.根据权利要求7所述的一种基于表格表头的数据匹配系统，其特征在于，所述利用预设的表格识别装置识别目标表格，具体包括：

将所述表格数据中的行列进行分隔后得到所述目标表格。

9.根据权利要求8所述的一种基于表格表头的数据匹配系统，其特征在于，所述基于所述目标表格进行表格解析，并将解析结果进行保存，具体包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括一种基于表格表头的数据匹配方法程序，所述基于表格表头的数据匹配方法程序被处理器执行时，实现如权利要求1至6中任一项所述的一种基于表格表头的数据匹配方法的步骤。