CN114626360A - 数据处理方法、装置和电子设备 - Google Patents

数据处理方法、装置和电子设备 Download PDF

Info

Publication number
CN114626360A
CN114626360A CN202210317287.5A CN202210317287A CN114626360A CN 114626360 A CN114626360 A CN 114626360A CN 202210317287 A CN202210317287 A CN 202210317287A CN 114626360 A CN114626360 A CN 114626360A
Authority
CN
China
Prior art keywords
data
file
cells
data type
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210317287.5A
Other languages
English (en)
Inventor
包祖贻
李辰
章波
张月
曹俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210317287.5A priority Critical patent/CN114626360A/zh
Publication of CN114626360A publication Critical patent/CN114626360A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请提供一种数据处理方法、装置和电子设备,该数据处理方法包括:接收终端设备发送的待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容;解析待处理文件,得到第一数据对应的解析数据,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容;确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型;若是,则根据解析数据内容和第二数据类型,生成目标文件。本申请能够提高校正待处理文件的准确率。

Description

数据处理方法、装置和电子设备
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置和电子设备。
背景技术
在一些申请文件的审核场景中,申请机构向审核机构递交申请文件,审核机构对申请文件进行审核。其中,会存在申请机构对审核机构要求的文件内容和格式并不清楚的情况,从而导致申请文件的内容以及格式不符合审核机构的要求的问题。
目前,审核机构针对申请机构不规范的申请文件,需要大量的人工进行校正,其中,人工校正效率较低,且存在校正准确率低的问题。
发明内容
本申请的多个方面提供一种数据处理方法、装置和电子设备,以提高申请文件的校正准确率。
本申请实施例第一方面提供一种数据处理方法,应用于服务器,包括:接收终端设备发送的待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容;解析待处理文件,得到第一数据对应的解析数据,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容;确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型;若是,则根据解析数据内容和第二数据类型,生成目标文件,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。
本申请实施例第二方面提供一种数据处理方法,应用于终端设备,包括:向服务器发送待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容,服务器用于解析待处理文件,得到第一数据对应的解析数据,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,若是,则根据数据内容和第二数据类型,生成目标文件,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;接收服务器发送的目标文件,并显示目标文件,以供用户确认目标文件。
本申请实施例第三方面提供一种数据处理装置,应用于服务器,包括:
接收模块,用于接收终端设备发送的待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容;
解析模块,用于解析待处理文件,得到第一数据对应的解析数据,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容;
确定模块,用于确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型;
生成模块,用于若是,则根据解析数据内容和第二数据类型,生成目标文件,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;
发送模块,用于向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。
本申请实施例第四方面提供一种数据处理装置,应用于终端设备,包括:
发送模块,用于向服务器发送待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容,服务器用于解析待处理文件,得到第一数据对应的解析数据,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,若是,则根据数据内容和第二数据类型,生成目标文件,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;
处理模块,用于接收服务器发送的目标文件,并显示目标文件,以供用户确认目标文件。
本申请实施例第五方面提供一种电子设备,包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面或第二方面的数据处理方法。
本申请实施例第六方面提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,当计算机程序被处理器执行时,致使处理器实现第一方面或第二方面的数据处理方法。
本申请实施例应用于申请文件的审核场景中,提供的数据处理方法应用于服务器,包括:接收终端设备发送的待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容;解析待处理文件,得到第一数据对应的解析数据,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容;确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型;若是,则根据解析数据内容和第二数据类型,生成目标文件,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。本申请实施例通过在确定解析数据类型和标准文件的第二数据类型表示相同的数据类型时,根据解析数据内容和第二数据类型生成目标文件,进而能够实现高效的生成满足审核机构要求的申请文件。并且,采用自动化对待处理文件进行解析后生成目标文件,能够提高生成申请文件的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请示例性实施例提供的一种应用场景的示意图;
图2为本申请示例性实施例提供的一种数据处理方法的步骤流程图;
图3为本申请示例性实施例提供的另一种数据处理方法的步骤流程图;
图4为本申请示例性实施例提供的一种光学字符识别的示意图;
图5为本申请示例性实施例提供的一种数据处理方法的示意图;
图6为本申请示例性实施例提供的又一种数据处理方法的步骤流程图;
图7为本申请示例性实施例提供的一种数据处理装置的结构框图;
图8为本申请示例性实施例提供的另一种数据处理装置的结构框图;
图9为本申请示例性实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
针对现有申请文件的审核场景中,存在人工校正申请文件存在准确率低以及效率低的问题,本申请实施例提供的数据处理方法包括:接收终端设备发送的待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容;解析待处理文件,得到第一数据对应的解析数据,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容;确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型;若是,则根据解析数据内容和第二数据类型,生成目标文件,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。本申请实施例通过在确定解析数据类型和标准文件的任意一个第二数据类型表示相同的数据类型时,根据解析数据内容和第二数据类型生成目标文件,进而能够实现高效的生成满足审核机构要求的申请文件。并且,采用自动化对待处理文件进行解析后生成目标文件,能够提高生成申请文件的准确率。
在本实施例中,数据处理方法可以是借助云计算系统实现整体的数据处理方法。此外,执行数据处理方法的服务器可以为云服务器,以便借助于云上资源的优势运行各种神经网络模型;相对于云端,数据处理方法也可以应用于常规服务器或服务器阵列等服务端设备,在此不加以限定。
此外,本申请实施例提供的数据处理方法任何申请文件的审核场景中,例如,在进出口贸易中,报关单位(申请机构)需要将报关单位和进出口货物的相关信息制作成申请文件提交给海关(审核机构)进行审核。具体为,由于报关单位对海关要求的申请文件并不清楚,因此会导致报关单位提交的申请文件的内容和文件格式不符合海关的要求,海关需要对申请文件进行校正后得到符合要求的目标文件。其中,申请文件即为本申请的待处理文件。
示例性地,参照图1,待处理文件11为报关单位要或者已经提交给海关的申请文件,标准文件是海关要求的申请文件的格式。目标文件13是根据待处理文件11和标准文件13生成的符合海关要求的文件。在图1标准文件12中,海关只需要报关单位提交贸易国、运抵国和毛重即可,并不需要件数和净重。并且在待处理文件11中,第一数据类型“贸易国(地区)”、“运抵国(地区)”和“毛重(千克)”也不符合海关的要求。对应海关要求的第二数据类型为“贸易国”、“运抵国”和“毛重”。
进一步地,本申请实施例的数据处理方法是为生成一个满足审核机构要求的目标文件,该目标文件的格式和内容均需要满足审核机构的要求,且该目标文件的一些数据来自于申请机构提供的待处理文件,进而实现快速准确的生成目标文件。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图2为本申请示例性实施例提供的一种数据处理方法的步骤流程图。如图2所示该数据处理方法,应用于服务器,具体包括以下步骤:
S201,接收终端设备发送的待处理文件。
在本申请实施例中,若申请机构的原始申请文件为图像格式,则终端设备可以直接将原始申请文件作为待处理文件上传至服务器,若申请机构的原始申请文件为PDF、word或者Excel等格式,则终端设备也可以采用摄像头扫描技术对原始申请文件扫描后得到图像作为待处理文件上传至服务器。此外,对于原始申请文件为PDF、word或者Excel等格式时,也可以直接作为待处理文件上传至服务器。
参照图1,待处理文件11包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容。具体为,待处理文件11中的每个第一单元格中的所有数据为第一数据,每个第一数据包括:第一数据类型和第一数据内容。在一种可选实施例中,第一单元格中也可以没有数据,或者第一单元格中的第一数据可以只是第一数据类型或第一数据内容。
例如,在图1中,待处理文件11包括多个第一数据,分别为“贸易国(地区),A国”、“运抵国(地区),B国”、“件数、1894”、“毛重(千克)、24533.2”、“净重(千克)、22354.2”。其中,对于第一数据“贸易国(地区),A国”,第一数据类型为“贸易国(地区)”,第一数据内容为“A国”。对于第一数据“运抵国(地区),B国”,第一数据类型为“运抵国(地区)”,第一数据内容为“B国”。对于第一数据“件数、1894”,第一数据类型为“件数”,第一数据内容为“1894”。对于第一数据“毛重(千克)、24533.2”,第一数据类型为“毛重(千克)”,第一数据内容为“24533.2”。对于第一数据“净重(千克)、22354.2”,第一数据类型为“净重(千克)”,第一数据内容为“22354.2”。
在本申请实施例中,可以实现对不同格式的待处理文件进行自动化校正。
S202,解析待处理文件,得到第一数据对应的解析数据。
其中,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容。
示例性地,参照表1,对待处理文件11解析后得到的解析数据表1所示。
表1
解析数据类型 解析数据内容
解析数据1 贸易国(地区) A国
解析数据2 运抵国(地区) B国
解析数据3 件数 1894
解析数据4 毛重(千克) 24533.2
解析数据5 净重(千克) 22354.2
在本申请实施例中,解析待处理文件的解析目的是将待处理文件中每个第一单元格中的数据完整准确的解析出来,得到对应的解析数据。其中,解析数据可以和第一数据完全相同也可以是部分相同。
S203,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型。
其中,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型。参照图1,具体为,标准文件12中的每个第二单元格中的所有数据为第二数据,每个第二数据包括:第二数据类型。在一种可选实施例中,第二单元格中也可以包括第二数据类型和第二数据内容,其中第二数据内容是待替换内容,具体为被待处理文件中同样数据类型的第一数据内容替换。
此外,标准文件的文件格式也可以是图像、PDF、word或者Excel等。可以采用上述对待处理文件相同的解析方式,对标准文件进行解析得到对应第二数据的解析数据。
例如,在图1中,标准文件12包括多个第二数据,分部为“贸易国”、“运抵国”和“毛重”。其中,对应的第二数据类型也为“贸易国”、“运抵国”和“毛重”。一种可选实施例中,第二数据也可以包括第二数据内容,例如,第二数据为“贸易国C国”,则在生成目标文件时,可以将“C国”替换为“A国”。
进一步地,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,是指将每个解析数据类型和每个第二数据类型进行两两对比,确定表示相同数据类型的解析数据类型和第二数据类型。参照图1,其中,解析数据类型“贸易国(地区)”和第二数据类型“贸易国”表示相同的数据类型。解析数据类型“运抵国(地区)”和第二数据类型“运抵国”表示相同的数据类型。“毛重(千克)”和第二数据类型“毛重”表示相同的数据类型。
S204,若是,则根据解析数据内容和第二数据类型,生成目标文件。
其中,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同。
示例性地,参照图1,目标文件13包括多个第三单元格,第三单元格的布局与标准文件12的第二单元格的布局相同。且各个第二数据类型在第三单元格中的分布与第二数据类型在第二单元格的分布也相同。可以理解为,在确定解析数据类型和标准文件的任意一个第二数据类型表示相同的数据类型时,将解析数据类型对应的解析内容输入在标准文件中对应第二数据类型对应的第二单元格中。
一种可选实施例中,若待处理文件11对应的解析数据类型在标准文件12中没有对应的第二数据类型,则在生成目标文件13时,舍弃该解析数据类型以及该解析数据类型对应的解析数据内容。
S205,向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。
此外,终端设备可以是申请机构(如报关单位)或审核机构(如海关)对应的终端设备。即申请机构上传待处理文件后,得到服务器生成的目标文件,然后可以在申请机构确认该目标文件后提交给审核机构进行审核。若申请机构向审核机构提交的是待处理文件,则审核机构上传待处理文件至服务器,由服务器生成的目标文件,可以在审核机构确认后,将目标文件作为正式的申请文件。因此,用户可以是申请机构或者审核机构对应的工作人员。
在本申请实施例中,可以对任何格式的待处理文件进行解析,结合标准文件生成符合审核机构要求的目标文件。具体为,通过在确定解析数据类型和标准文件的任意一个第二数据类型表示相同的数据类型时,根据解析数据内容和第二数据类型生成目标文件,进而能够实现高效的生成满足审核机构要求的申请文件。并且,采用自动化对待处理文件进行解析后生成目标文件,能够提高生成申请文件的准确率。
在本申请实施例中,提供了另一种数据处理方法,如图3所示,该数据处理方法具体包括以下步骤:
S301,接收终端设备发送的待处理文件。
S302,采用光学字符识别技术,确定待处理文件的多个目标数据。
其中,待处理文件为图像格式,则采用光学字符识别技术(OCR,OpticalCharacter Recognition)对待处理文件进行识别。若待处理文件为PDF、word或者Excel格式,则终端设备可以采用摄像头采集待处理文件对应的图像,然后采用OCR技术进行识别。此外,对于直接上传至服务器的PDF、word或者Excel格式的待处理文件,也可以采用其他方式进行识别,得到多个目标数据,对此不加以限定。
其中,目标数据包括:识别文本和识别文本对应的位置信息,识别文本表示第一数据类型对应的识别结果,或识别文本表示第一数据内容对应的识别结果。
示例性地,参照图4,为对图1中待处理文件11的光学字符识别过程示意图。其中每个虚线框为作为识别文本的边界框。边界框中的文本为识别文件。边界框对角线顶点的坐标值(单位为像素)为识别文本对应的位置信息。在图4中,边界框41中的识别文本为“贸易国(地区)”,对应的位置信息为对角点D的坐标值和对角点F的坐标值。此外,在图4中,X表示横坐标,Y表示纵坐标。
参照表2,举例示出图4对应的识别出的多个目标数据。其中,表2中Y1表示边界框左上角顶点的纵坐标,X1表示边界框左上角顶点的横坐标。Y2表示边界框右下角顶点的纵坐标,X2表示边界框右下角顶点的横坐标。例如,表2中目标数据1的位置信息(85,100,100,140)中,“85”表示图4中边界框41的顶点D的纵坐标,第一个“100”表示图4中边界框41的顶点D的横坐标,第二个“100”表示图4中边界框41的顶点F的纵坐标,“140”表示图4中边界框41的顶点F的横坐标。
表2
识别文本 位置信息(Y1、X1、Y2、X2)
目标数据1 贸易国(地区) (85,100,100,140)
目标数据2 运抵国(地区) (85,270,95,310)
目标数据3 A国 (85,210,95,240)
目标数据4 B国 (85,350,95,380)
目标数据5 件数 (100,100,110,130)
目标数据6 毛重(千克) (100,250,110,300)
目标数据7 净重(千克) (100,320,110,370)
目标数据8 1894 (120,100,135,135)
目标数据9 24533.2 (120,240,135,285)
目标数据10 22354.2 (120,320,135,355)
在本申请实施例中,识别文本的位置信息还可以采用其他方式表示,在此不加以限定。其中,识别文本的位置信息表示识别文本在待处理文件的相对位置。
S303,将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果。
其中,第一匹配结果用于表示两个目标数据的识别文本是否为同一第一单元格中的解析数据类型和解析数据内容。
在本申请实施例中,第一匹配模型是预先训练好的,可以对输入的任意两个目标数据进行匹配处理,确定输入的两个目标数据的识别文本是否为同一第一单元格中对应的解析数据类型和解析数据内容。
示例性地,将表2中的目标数据1和目标数据2输入第一匹配模型,输出的匹配结果为0,表示识别文本“贸易国(地区)”和识别文本“运抵国(地区)”不是同一第一单元格对应的解析数据类型和解析数据内容。将表2中的目标数据1和目标数据3输入第一匹配模型,输出的匹配结果为1,表示识别文本“贸易国(地区)”和识别文本“A国”是同一第一单元格对应的解析数据类型和解析数据内容。
在本申请实施例中,将任意两个目标数据输入第一匹配模型进行匹配处理,能够得到任意两个目标数据的匹配结果。
具体为,将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果,包括:将目标数据输入第一匹配模型的编码器进行编码处理,得到目标数据对应的第一特征向量;将两个目标数据对应的第一特征向量输入第一匹配模型的匹配子模型进行匹配处理,得到第一匹配结果。
进一步地,将目标数据输入第一匹配模型的编码器进行编码处理,得到目标数据对应的第一特征向量,包括:采用编码器执行以下步骤:对目标数据的识别文本进行语义向量化处理,得到第一语义向量;对第一语义向量进行编码处理,得到编码向量;将识别文本对应的位置信息归一化至预设位置范围,得到目标位置信息;对目标位置信息进行词向量处理,得到第一词向量;拼接编码向量和第一词向量,得到目标数据对应的第一特征向量。
参照图5,两个目标数据为目标数据A和目标数据B,图5中只示出根据目标数据A得到第一特征向量A的处理过程,根据目标数据B得到第一特征向量B的处理过程与目标数据A的处理过程相同,在此不再赘述。具体为,目标数据A的识别文本经过语义向量化得到第一语义向量,器,语义向量化可以采用词嵌入(word embedding)的方式。其中,第一语义向量可以表示为E1=[e1,e2,…,en],ei(i取1至n,n为大于1的整数)表示识别文本中第i个文字对应的向量。进一步地,对第一语义向量E1进行编码处理,得到编码向量D1,编码处理可以采用单向的LSTM(Long-Short Term Memory,长短期记忆网络)进行编码。
此外,可以预先设置纵坐标的归一化的预设位置范围为1至y,横坐标的归一化的预设位置范围为1至x,其中,x和y可以根据经验值设定,例如,在表2中,纵坐标最小值为85,最大值为135,则最小值85归一化为1,最大值135归一化为20,按照比例对其他纵坐标值进行归一化处理至1至20之间。横坐标采用相同的方式进行归一化处理,在此不再赘述。需要补充的是纵坐标和横坐标的归一化处理彼此约束。可以理解是将待处理文件对应的图像等比例缩小。其中,目标位置信息是将识别文本对应的位置信息归一化后的结果,记为(y1 x1y2 x2)。进一步地,对目标位置信息(y1 x1 y2 x2)进行词向量处理,得到第一词向量D2=[f1,f2,f3,f4],其中,词向量处理也可以采用word embedding方式。得到的f1为y1对应的词向量,f2为x1对应的词向量,f3是y2对应的词向量,f4是x2对应的词向量。
最后,拼接编码向量D1和第一词向量D2,得到目标数据对应的第一特征向量A。
在本申请实施例中,对目标数据B进行上述相同的处理,得到第一特征向量B。则第一特征向量A(h1)和第一特征向量B(h2)输入匹配子模型,得到第一匹配结果P。其中,匹配子模型可以是CNN(Convolutional Neural Networks,卷积神经网络)、RNN(RecurrentNeural Network,循环神经网络)等神经网络模型。匹配子模型的模型参数W是预先训练好的,第一匹配结果P=h1·W·h2,其中,第一匹配结果P为一个0至1的值,可以预先设定第一阈值,如0.5,当P大于第一阈值,则确定第一匹配结果表示目标数据A的识别文本和目标数据B的识别文本为同一第一单元格对应的解析数据类型和解析数据内容。
一种可选实施例,若识别文本为数字,则对目标数据的识别文本进行语义向量化处理,得到第一语义向量,包括:将目标数据的识别文本归一化为预设文本;对预设文本进行语义向量化处理,得到第一语义向量。
例如,在表2中,目标数据8、目标数据9和目标数据10的识别文本均为数字,则可以将这些数字都归一化为预设文本,如“数字”。则在上述语义向量化处理时,可以是对预设文本“数字”进行语义向量化处理。
在本申请实施例中,采用第一匹配模型,能够准确的解析待处理文件中的各个数据类型和数据内容,并且将同一单元格的数据类型和数据内容进行组队,得到解析数据。
S304,根据第一匹配结果和目标数据,生成解析数据。
示例性地,若第一匹配结果表示目标数据A的识别文本和目标数据B的识别文本为同一第一单元格对应的解析数据类型和解析数据内容,则生成一组解析数据(目标数据A的识别文本、目标数据B的识别文本)。
在本申请实施例中,对于任意两个目标数据采用S303和S304的方式,则可以得到多组解析数据,例如,参照表1。
S305,将解析数据和第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果。
其中,第二匹配结果用于表示解析数据类型和第二数据类型是否表示相同的数据类型。
具体为,将解析数据和第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果,包括:对解析数据进行语义向量化处理,得到第二语义向量;将第二语义向量输入第二匹配模型的编码器进行编码处理,得到第二特征向量;对第二数据进行语义向量化处理,得到第三语义向量;将第三语义向量输入第二匹配模型的编码器进行编码处理,得到第三特征向量;将第二特征向量和第三特征向量输入第二匹配模型的运算层进行数据处理,得到解析数据类型和第二数据类型的相似度;若相似度大于相似度阈值,则确定解析数据类型和第二数据类型表示相同的数据类型。
其中,解析数据如表1,第二匹配模型是预先训练的。其中,得到第二特征向量h3,得到第三特征向量h4。第二匹配模型的运算层对第二特征向量h3和第三特征向量h4进行点乘计算。得到的相似度T=h3·h4。其中,相似度为0至1之间的数值。可以设置相似度阈值为0.6,则当相似度大于0.6时,确定解析数据类型和第二数据类型表示相同的数据类型。可以理解,第二匹配结果为相似度。
示例性地,参照表1和图1,解析数据1至解析数据4和第二数据“贸易国”、第二数据“运抵国”、第二数据“毛重”分别进行匹配处理,得到的第二匹配结果为,解析数据1和第二数据“贸易国”对应的解析数据类型和第二数据类型表示相同的数据类型。解析数据2和第二数据“运抵国”对应的解析数据类型和第二数据类型表示相同的数据类型。解析数据4和第二数据“毛重”对应的解析数据类型和第二数据类型表示相同的数据类型。
在本申请实施例中,采用预先训练好的第二匹配模型可以快速准确的匹配解析数据和第二数据,进而提高待处理文件的校正效率和校正准确率。
S306,若是,根据解析数据内容和第二数据类型,生成目标文件。
S307,向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。
在本申请实施例中,能够充分利用待处理文件中的文本以及文本的位置信息,采用第一匹配模型准确的解析出解析数据。第一匹配模型解析待处理文件,不受待处理文件中的文本的字段范围限制,具有很好的泛化性和鲁棒性。然后采用第二匹配模型对解析数据和标准文件的第二数据进行匹配,能够减少校正的人工投入,并且达到了较高的数据处理效率。
在本申请实施例中,参照图6,提供另一种数据处理方法,应用于终端设备,如图6所示,该数据处理方法具体包括以下步骤:
S601,向服务器发送待处理文件。
其中,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容,服务器用于解析待处理文件,得到第一数据对应的解析数据,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,若是,则根据数据内容和第二数据类型,生成目标文件,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同。
S602,接收服务器发送的目标文件,并显示目标文件,以供用户确认目标文件。
S601和S606的具体实现参照上述实施例,在此不再赘述。
在本申请实施例中,参照图7,除了提供数据处理方法之外,还提供一种数据处理装置70,应用于服务器,该数据处理装置70包括:
接收模块71,用于接收终端设备发送的待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容;
解析模块72,用于解析待处理文件,得到第一数据对应的解析数据,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容;
确定模块73,用于确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型;
生成模块74,用于若是,则根据解析数据内容和第二数据类型,生成目标文件,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;
发送模块,用于向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。
在一可选实施例中,解析模块67具体用于,采用光学字符识别技术,确定待处理文件的多个目标数据,目标数据包括:识别文本和识别文本对应的位置信息,识别文本表示第一数据类型对应的识别结果,或识别文本表示第一数据内容对应的识别结果;将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果,第一匹配结果用于表示两个目标数据的识别文本是否为同一第一单元格中的解析数据类型和解析数据内容;根据第一匹配结果和目标数据,生成解析数据。
在一可选实施例中,解析模块72在将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果时,具体用于:将目标数据输入第一匹配模型的编码器进行编码处理,得到目标数据对应的第一特征向量;将两个目标数据对应的第一特征向量输入第一匹配模型的匹配子模型进行匹配处理,得到第一匹配结果。
在一可选实施例中,解析模块72在将目标数据输入第一匹配模型的编码器进行编码处理,得到目标数据对应的第一特征向量时,具体用于:采用编码器执行以下步骤:对目标数据的识别文本进行语义向量化处理,得到第一语义向量;对第一语义向量进行编码处理,得到编码向量;将识别文本对应的位置信息归一化至预设位置范围,得到目标位置信息;对目标位置信息进行词向量处理,得到第一词向量;拼接编码向量和第一词向量,得到目标数据对应的第一特征向量。
在一可选实施例中,解析模块72在对目标数据的识别文本进行语义向量化处理,得到第一语义向量时,具体用于:将目标数据的识别文本归一化为预设文本;对预设文本进行语义向量化处理,得到第一语义向量。
在一可选实施例中,确定模块73具体用于:将解析数据和第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果,第二匹配结果用于表示解析数据类型和第二数据类型是否表示相同的数据类型。
在一可选实施例中,确定模块73在将解析数据和第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果时,具体用于:对解析数据进行语义向量化处理,得到第二语义向量;将第二语义向量输入第二匹配模型的编码器进行编码处理,得到第二特征向量;对第二数据进行语义向量化处理,得到第三语义向量;将第三语义向量输入第二匹配模型的编码器进行编码处理,得到第三特征向量;将第二特征向量和第三特征向量输入第二匹配模型的运算层进行数据处理,得到解析数据类型和第二数据类型的相似度;若相似度大于相似度阈值,则确定解析数据类型和第二数据类型表示相同的数据类型。
在本申请实施例中,参照图8,还提供另一种数据处理装置80,应用于终端设备,该数据处理装置80包括:
发送模块81,用于向服务器发送待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容,服务器用于解析待处理文件,得到第一数据对应的解析数据,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,若是,则根据数据内容和第二数据类型,生成目标文件,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;
处理模块82,用于接收服务器发送的目标文件,并显示目标文件,以供用户确认目标文件。
本申请实施例提供的数据处理装置,能够充分利用待处理文件中的文本以及文本的位置信息,采用第一匹配模型准确的解析出解析数据。第一匹配模型解析待处理文件,不受待处理文件中的文本的字段范围限制,具有很好的泛化性和鲁棒性。然后采用第二匹配模型对解析数据和标准文件的第二数据进行匹配,能够减少校正的人工投入,并且达到了较高的数据处理效率。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
图9为本申请示例性实施例提供的一种电子设备的结构示意图。该电子设备用于运行上述数据处理方法。如图9所示,该电子设备包括:存储器94和处理器95。
存储器94,用于存储计算机程序,并可被配置为存储其它各种数据以支持在电子设备上的操作。该存储器94可以是对象存储(Object Storage Service,OSS)。
存储器94可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器95,与存储器94耦合,用于执行存储器94中的计算机程序,以用于:接收终端设备发送的待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容;解析待处理文件,得到第一数据对应的解析数据,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容;确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型;若是,则根据解析数据内容和第二数据类型,生成目标文件,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;向终端设备发送目标文件,以使终端设备显示目标文件供用户确认。
进一步可选地,处理器95在解析待处理文件,得到第一数据对应的解析数据时,具体用于:采用光学字符识别技术,确定待处理文件的多个目标数据,目标数据包括:识别文本和识别文本对应的位置信息,识别文本表示第一数据类型对应的识别结果,或识别文本表示第一数据内容对应的识别结果;将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果,第一匹配结果用于表示两个目标数据的识别文本是否为同一第一单元格中的解析数据类型和解析数据内容;根据第一匹配结果和目标数据,生成解析数据。
进一步可选地,处理器95在将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果时,具体用于:将目标数据输入第一匹配模型的编码器进行编码处理,得到目标数据对应的第一特征向量;将两个目标数据对应的第一特征向量输入第一匹配模型的匹配子模型进行匹配处理,得到第一匹配结果。
进一步可选地,处理器95在将目标数据输入第一匹配模型的编码器进行编码处理,得到目标数据对应的第一特征向量时,具体用于:采用编码器执行以下步骤:对目标数据的识别文本进行语义向量化处理,得到第一语义向量;对第一语义向量进行编码处理,得到编码向量;将识别文本对应的位置信息归一化至预设位置范围,得到目标位置信息;对目标位置信息进行词向量处理,得到第一词向量;拼接编码向量和第一词向量,得到目标数据对应的第一特征向量。
在一可选实施例中,处理器95在对目标数据的识别文本进行语义向量化处理,得到第一语义向量时,具体用于:将目标数据的识别文本归一化为预设文本;对预设文本进行语义向量化处理,得到第一语义向量。
在一可选实施例中,处理器95在确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型时,具体用于,将解析数据和第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果,第二匹配结果用于表示解析数据类型和第二数据类型是否表示相同的数据类型。
在一可选实施例中,处理器95在将解析数据和第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果时,具体用于:对解析数据进行语义向量化处理,得到第二语义向量;将第二语义向量输入第二匹配模型的编码器进行编码处理,得到第二特征向量;对第二数据进行语义向量化处理,得到第三语义向量;将第三语义向量输入第二匹配模型的编码器进行编码处理,得到第三特征向量;将第二特征向量和第三特征向量输入第二匹配模型的运算层进行数据处理,得到解析数据类型和第二数据类型的相似度;若相似度大于相似度阈值,则确定解析数据类型和第二数据类型表示相同的数据类型。
在一可选实施例中,处理器95还用于向服务器发送待处理文件,待处理文件包括:多个第一单元格以及至少部分第一单元格中的第一数据,第一数据包括:第一数据类型和第一数据内容,服务器用于解析待处理文件,得到第一数据对应的解析数据,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,若是,则根据解析数据内容和第二数据类型,生成目标文件,解析数据包括:第一数据类型对应的解析数据类型和第一数据内容对应的解析数据内容,标准文件包括:多个第二单元格和至少部分第二单元格中的第二数据,第二数据包括:第二数据类型,目标文件包括:多个第三单元格和第三单元格中的第二数据类型和解析数据内容,第三单元格的布局与第二单元格的布局相同;接收服务器发送的目标文件,并显示目标文件,以供用户确认目标文件。
进一步地,如图9,该电子设备还包括:防火墙91、负载均衡器92、通信组件96、电源组件98等其它组件。图9中仅示意性给出部分组件,并不意味着电子设备只包括图9所示组件。
本申请实施例提供的电子设备,能够充分利用待处理文件中的文本以及文本的位置信息,采用第一匹配模型准确的解析出解析数据。第一匹配模型解析待处理文件,不受待处理文件中的文本的字段范围限制,具有很好的泛化性和鲁棒性。然后采用第二匹配模型对解析数据和标准文件的第二数据进行匹配,能够减少校正的人工投入,并且达到了较高的数据处理效率。
相应地,本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,当计算机程序/指令被处理器执行时,致使处理器实现图2或图3所示方法中的步骤。
相应地,本申请实施例还提供一种计算机程序产品,包括计算机程序/指令,当计算机程序/指令被处理器执行时,致使处理器实现图2或图3所示方法中的步骤。
上述图9的通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关文本。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述图9的电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现文本存储。文本可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的文本。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (12)

1.一种数据处理方法,其特征在于,应用于服务器,所述数据处理方法包括:
接收终端设备发送的待处理文件,所述待处理文件包括:多个第一单元格以及至少部分所述第一单元格中的第一数据,所述第一数据包括:第一数据类型和第一数据内容;
解析所述待处理文件,得到所述第一数据对应的解析数据,所述解析数据包括:所述第一数据类型对应的解析数据类型和所述第一数据内容对应的解析数据内容;
确定所述解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,所述标准文件包括:多个第二单元格和至少部分所述第二单元格中的第二数据,所述第二数据包括:所述第二数据类型;
若是,则根据所述解析数据内容和所述第二数据类型,生成目标文件,所述目标文件包括:多个第三单元格和所述第三单元格中的第二数据类型和所述解析数据内容,所述第三单元格的布局与所述第二单元格的布局相同;
向所述终端设备发送所述目标文件,以使所述终端设备显示所述目标文件供用户确认。
2.根据权利要求1所述的数据处理方法,其特征在于,所述待处理文件为图像格式,所述解析所述待处理文件,得到所述第一数据对应的解析数据,包括:
采用光学字符识别技术,确定所述待处理文件的多个目标数据,所述目标数据包括:识别文本和识别文本对应的位置信息,所述识别文本表示所述第一数据类型对应的识别结果,或所述识别文本表示所述第一数据内容对应的识别结果;
将两个目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果,所述第一匹配结果用于表示两个所述目标数据的识别文本是否为同一所述第一单元格中的解析数据类型和解析数据内容;
根据所述第一匹配结果和所述目标数据,生成所述解析数据。
3.根据权利要求2所述的数据处理方法,其特征在于,所述将两个所述目标数据输入第一匹配模型进行匹配处理,得到第一匹配结果,包括:
将所述目标数据输入所述第一匹配模型的编码器进行编码处理,得到所述目标数据对应的第一特征向量;
将所述两个目标数据对应的第一特征向量输入所述第一匹配模型的匹配子模型进行匹配处理,得到所述第一匹配结果。
4.根据权利要求3所述的数据处理方法,其特征在于,所述将所述目标数据输入所述第一匹配模型的编码器进行编码处理,得到所述目标数据对应的第一特征向量,包括:采用所述编码器执行以下步骤:
对所述目标数据的识别文本进行语义向量化处理,得到第一语义向量;
对所述第一语义向量进行编码处理,得到编码向量;
将所述识别文本对应的位置信息归一化至预设位置范围,得到目标位置信息;
对所述目标位置信息进行词向量处理,得到第一词向量;
拼接所述编码向量和所述第一词向量,得到所述目标数据对应的第一特征向量。
5.根据权利要求4所述的数据处理方法,其特征在于,若所述识别文本为数字,则所述对所述目标数据的识别文本进行语义向量化处理,得到第一语义向量,包括:
将所述目标数据的识别文本归一化为预设文本;
对所述预设文本进行语义向量化处理,得到所述第一语义向量。
6.根据权利要求1至5任一项所述的数据处理方法,其特征在于,所述确定所述解析数据类型和标准文件的第二数据类型是否表示相同的数据类型,包括:
将所述解析数据和所述第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果,所述第二匹配结果用于表示所述解析数据类型和所述第二数据类型是否表示相同的数据类型。
7.根据权利要求6所述的数据处理方法,其特征在于,所述将所述解析数据和所述第二数据输入第二匹配模型进行匹配处理,得到第二匹配结果,包括:
对所述解析数据进行语义向量化处理,得到第二语义向量;
将所述第二语义向量输入所述第二匹配模型的编码器进行编码处理,得到第二特征向量;
对所述第二数据进行语义向量化处理,得到第三语义向量;
将所述第三语义向量输入所述第二匹配模型的编码器进行编码处理,得到第三特征向量;
将所述第二特征向量和所述第三特征向量输入所述第二匹配模型的运算层进行数据处理,得到所述解析数据类型和所述第二数据类型的相似度;
若所述相似度大于相似度阈值,则确定所述解析数据类型和所述第二数据类型表示相同的数据类型。
8.一种数据处理方法,其特征在于,应用于终端设备,所述数据处理方法包括:
向服务器发送待处理文件,所述待处理文件包括:多个第一单元格以及至少部分所述第一单元格中的第一数据,所述第一数据包括:第一数据类型和第一数据内容,所述服务器用于解析所述待处理文件,得到所述第一数据对应的解析数据,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,若是,则根据解析数据内容和所述第二数据类型,生成目标文件,所述解析数据包括:所述第一数据类型对应的所述解析数据类型和所述第一数据内容对应的所述解析数据内容,所述标准文件包括:多个第二单元格和至少部分所述第二单元格中的第二数据,所述第二数据包括:所述第二数据类型,所述目标文件包括:多个第三单元格和所述第三单元格中的第二数据类型和所述解析数据内容,所述第三单元格的布局与所述第二单元格的布局相同;
接收所述服务器发送的所述目标文件,并显示所述目标文件,以供用户确认所述目标文件。
9.一种数据处理装置,其特征在于,应用于服务器,所述数据处理装置包括:
接收模块,用于接收终端设备发送的待处理文件,所述待处理文件包括:多个第一单元格以及至少部分所述第一单元格中的第一数据,所述第一数据包括:第一数据类型和第一数据内容;
解析模块,用于解析所述待处理文件,得到所述第一数据对应的解析数据,所述解析数据包括:所述第一数据类型对应的解析数据类型和所述第一数据内容对应的解析数据内容;
确定模块,用于确定所述解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,所述标准文件包括:多个第二单元格和至少部分所述第二单元格中的第二数据,所述第二数据包括:所述第二数据类型;
生成模块,用于若是,则根据所述解析数据内容和所述第二数据类型,生成目标文件,所述目标文件包括:多个第三单元格和所述第三单元格中的第二数据类型和所述解析数据内容,所述第三单元格的布局与所述第二单元格的布局相同;
发送模块,用于向所述终端设备发送所述目标文件,以使所述终端设备显示所述目标文件供用户确认。
10.一种数据处理装置,其特征在于,应用于终端设备,所述数据处理装置包括:
发送模块,用于向服务器发送待处理文件,所述待处理文件包括:多个第一单元格以及至少部分所述第一单元格中的第一数据,所述第一数据包括:第一数据类型和第一数据内容,所述服务器用于解析所述待处理文件,得到所述第一数据对应的解析数据,确定解析数据类型和标准文件的任意一个第二数据类型是否表示相同的数据类型,若是,则根据解析数据内容和所述第二数据类型,生成目标文件,所述解析数据包括:所述第一数据类型对应的所述解析数据类型和所述第一数据内容对应的所述解析数据内容,所述标准文件包括:多个第二单元格和至少部分所述第二单元格中的第二数据,所述第二数据包括:所述第二数据类型,所述目标文件包括:多个第三单元格和所述第三单元格中的第二数据类型和所述解析数据内容,所述第三单元格的布局与所述第二单元格的布局相同;
处理模块,用于接收所述服务器发送的所述目标文件,并显示所述目标文件,以供用户确认所述目标文件。
11.一种电子设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的数据处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,致使处理器实现如权利要求1至8中任一项所述的数据处理方法。
CN202210317287.5A 2022-03-28 2022-03-28 数据处理方法、装置和电子设备 Pending CN114626360A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210317287.5A CN114626360A (zh) 2022-03-28 2022-03-28 数据处理方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210317287.5A CN114626360A (zh) 2022-03-28 2022-03-28 数据处理方法、装置和电子设备

Publications (1)

Publication Number Publication Date
CN114626360A true CN114626360A (zh) 2022-06-14

Family

ID=81904626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210317287.5A Pending CN114626360A (zh) 2022-03-28 2022-03-28 数据处理方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114626360A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506398A (zh) * 2023-06-28 2023-07-28 天津中远海运散运数字科技有限公司 一种船舶邮件解析方法、装置、电子设备及存储介质
CN117236310A (zh) * 2023-10-26 2023-12-15 湖南中拓信息科技有限公司 基于ocr技术的账单识别方法、系统和可读存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116506398A (zh) * 2023-06-28 2023-07-28 天津中远海运散运数字科技有限公司 一种船舶邮件解析方法、装置、电子设备及存储介质
CN116506398B (zh) * 2023-06-28 2023-11-07 天津中远海运散运数字科技有限公司 一种船舶邮件解析方法、装置、电子设备及存储介质
CN117236310A (zh) * 2023-10-26 2023-12-15 湖南中拓信息科技有限公司 基于ocr技术的账单识别方法、系统和可读存储介质

Similar Documents

Publication Publication Date Title
EP3588279B1 (en) Automated extraction of rules embedded in software application code using machine learning
CN114626360A (zh) 数据处理方法、装置和电子设备
US20210365421A1 (en) Data analysis method, computer device and storage medium
US20210049711A1 (en) Method of automatically transmitting data information and device of automatically transmitting data information
CN102246165A (zh) 利用压缩梯度直方图来代表和标识特征描述符的方法和装置
CN108664471B (zh) 文字识别纠错方法、装置、设备及计算机可读存储介质
CN112215288B (zh) 目标企业的类别确定方法及装置、存储介质、电子装置
CN114170482A (zh) 模型训练方法、装置、设备及介质
CN113408668A (zh) 基于联邦学习系统的决策树构建方法、装置及电子设备
CN112035401A (zh) 模型数据处理方法、装置、电子设备及可读介质
CN112418813B (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN112508717A (zh) 一种影像信息的审核方法、装置、电子设备及存储介质
CN117435710A (zh) 政务服务问答方法、装置、终端设备以及存储介质
CN109857450B (zh) 一种校验服务编排方法及装置
US20220284176A1 (en) Systems and methods for conversion of documents to reusable content types
CN111324608A (zh) 模型复用方法、装置、设备及存储介质
US11232161B1 (en) Methods and apparatuses for electronically stamping document
CN116052195A (zh) 文档解析方法、装置、终端设备和计算机可读存储介质
CN116069842A (zh) 数据转储方法及装置
CN114863435A (zh) 文本提取方法及装置
CN112230911B (zh) 模型部署方法、装置、计算机设备和存储介质
CN113742302A (zh) 服务请求的处理方法及装置
CN114492324A (zh) 组件数据统计方法及装置
CN112182320B (zh) 聚类数据处理方法、装置、计算机设备及存储介质
CN113643082B (zh) 基于人工智能的发票处理方法、装置、计算机设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination