CN114170609A - 电子设备及其单据识别录入方法、介质 - Google Patents
电子设备及其单据识别录入方法、介质 Download PDFInfo
- Publication number
- CN114170609A CN114170609A CN202111492421.7A CN202111492421A CN114170609A CN 114170609 A CN114170609 A CN 114170609A CN 202111492421 A CN202111492421 A CN 202111492421A CN 114170609 A CN114170609 A CN 114170609A
- Authority
- CN
- China
- Prior art keywords
- field
- service
- synonymous
- document
- business
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及一种电子设备及其单据识别录入方法、介质。该方法包括:获取第一单据包括的至少一个第一业务字段;确定第一业务字段对应的基准字段,以及基准字段对应的至少一个同义字段,基准字段为第一业务字段的对应的业务领域中的统一名称;将第一业务字段与基准字段以及同义字段进行匹配,若第一业务字段匹配到基准字段或者同义字段中的至少一个,获取并保存第一业务字段对应的业务内容。通过本申请的方法,在识别不同货主开具的业务单据时,可以获得业务单据中每一种业务字段的统一用语,能够确定不同种类的业务单据中的标准统一的业务字段的名称,减少了业务员进行人工检验的工作量,提高了物流业务的效率和准确率。
Description
技术领域
本申请实施例涉及文字图像识别领域,尤其涉及一种电子设备及其单据识别录入方法、介质。
背景技术
在物流行业中,各类业务单据上的字段记录着货物信息。处理业务单据的工作人员(以下简称业务员)可以使用电子设备来识别并处理业务单据上的各个业务字段对应的信息。例如:对于货物的发货单,可以将发货单扫描成图像后,通过图像识别的方法,识别出诸如:“货物名称”、“货物号”、“货物数量”等业务字段,在获取业务字段对应的业务内容,诸如:货物名称为“钢材A”、货物数量为“100吨”等,最后将获取的业务字段的信息保存至物流数据系统。
但是,钢铁物流行业中存在各类的货主,如源头钢厂、中间贸易商、终端用钢单位,每家开具的同一类型的业务单据中在业务字段的名称上存在很大差异,在导致业务单据中会包含含义相同但名称不同的业务字段,比如,不同发货单上的“吨位”、“吨数”皆表示货物重量。从而导致电子设备不能识别出名称不同但含义相同的业务字段。针对上述情况,业务员往往会采用人工方式进行业务单据比对、校验和录入,造成业务效率低下,物流整体成本居高。
发明内容
本申请实施例提供一种电子设备及其单据识别录入方法、介质。
本申请的第一方面提供了一种单据识别录入方法,用于电子设备,包括:
获取第一单据包括的至少一个第一业务字段;
确定第一业务字段对应的基准字段,以及基准字段对应的至少一个同义字段,基准字段为第一业务字段的对应的业务领域中的统一名称;
将第一业务字段与基准字段以及同义字段进行匹配,若第一业务字段匹配到基准字段或者同义字段中的至少一个,获取并保存第一业务字段对应的业务内容。
即在本申请的实施例中,电子设备可以计算机,电子设备可以从第一单据对应的单据图像中识别出第一业务字段。单据图像可以是通过扫描仪或者手机对第一单据拍摄后获取的。这里的基准字段也就是统一名称,统一名称可以用于唯一标识第一业务字段标识的业务内容,如:“捆包号”可以表示货物编号。同义字段可以是与基准字段名称不同但是含义相同的业务字段名称,如:“材料号”“资源号”都可以表示货物编号。“材料号”“资源号”可以是基准字段“捆包号”的同义字段。第一业务字段与基准字段以及同义字段进行匹配可以是从基准字段以及同义字段中查找与第一业务字段相同的字段。
通过本申请的第一方面提供的方法,在识别不同货主开具的业务单据时,可以获得业务单据中每一种业务字段的统一用语,使得在完成对不同种类、不同格式、不同布局的业务单据的业务字段的识别后,能够确定标准统一的业务字段的名称。
在上述第一方面的一种可能的实现中,包括:若未匹配到,在第一业务字段与基准字段或者同义字段中的至少一个符合相似度阈值的情况下,将第一业务字段设置为同义字段。
即在本申请的实施例中,这里的相似度阈值可以是第一业务字段的文字特征与基准字段或者同义字段的文字特征之间的匹配度。如:使用自然语言处理算法比较第一业务字段的文字特征与基准字段或者同义字段的文字特征之间的匹配度。
在上述第一方面的一种可能的实现中,同义字段与基准字段的名称不同但含义相同。
在上述第一方面的一种可能的实现中,同义字段通过与第一单据属于同一业务领域中的第二单据包含的第二业务字段确定。
即在本申请的实施例中,这里的第二业务字段可以是与第一业务字段名称不同但含义相同的业务字段。
在上述第一方面的一种可能的实现中,若第一业务字段匹配到基准字段或者同义字段中的至少一个,获取并保存第一业务字段对应的业务内容,包括:
获取与第一单据相关联的第三单据;
确定第三单据中与第一业务字段名称相同或者名称不同含义相同的第三字段;
若第一业务字段对应的业务内容与第三字段的业务内容匹配,保存第一业务字段对应的业务内容;
若不匹配,提示第一业务字段对应的业务内容。
通过本申请的第一方面提供的方法,还可以对业务字段的业务内容进行一致性校验,减少了业务员进行人工检验的工作量,提高了物流业务的效率和准确率。
即在本申请的实施例中,这里的第三单据可以是与第一单据具有业务关联的单据,如:第一单据可以是返回单,第三单据可以是运输委托单,运输委托合同。
在上述第一方面的一种可能的实现中,第一业务字段与基准字段或者同义字段中的至少一个符合相似度阈值,包括:
根据第一业务字段对应的文字特征与基准字段或者同义字段中的至少一个对应的文字特征,利用至少一种文字相似度算法,确定第一业务字段与基准字段或者同义字段中的至少一个是否相同或者同义。
即在本申请的实施例中,文字相似度算法可以是余弦相似度算法。
在上述第一方面的一种可能的实现中,第一业务字段位于第一单据包含的表格的表头信息。
在上述第一方面的一种可能的实现中,包括:
对第一单据包含的表格进行分割,获得行分割结果或列分割结果;
从行分割结果或列分割结果中,提取第一行分割结果或第一列分割结果作为表头信息;
从表头信息中识别出所述至少一个第一业务字段。
即在本申请的实施例中,第一业务字段可以是第一单据中的表格中的业务字段,表头信息可以是表格的第一行或者第一列。
本申请的第二方面提供了一种可读介质,可读介质上存储有指令,该指令在电子设备上执行时使电子设备执行权利要求1至8中任一项的单据识别录入方法。
本申请的第三方面提供了一种电子设备,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,用于执行权利要求1至8中任一项的单据识别录入方法。
附图说明
图1根据本申请的实施例示出了一种单据识别录入系统的示意图;
图2根据本申请的实施例示出了一种电子设备的硬件结构示意图;
图3根据本申请的实施例示出了一种单据识别录入的流程示意图;
图4根据本申请的实施例示出了一种发货单的格式的示意图;
图5根据本申请的实施例示出了一种提示未通过完整性校验的单据的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了解决背景技术中提到的不同货主的同一类型业务单据中包含的业务字段不统一,而导致无法识别出名称不同但含义相同的业务字段的问题。本申请实施例提供了一种单据识别录入方法。电子设备通过执行该方法,对各类业务单据包含的业务字段设置目标业务字段库,目标业务字段库包括业务字段的名称的统一用语(基准字段)以及与统一用语对应的同义字段。使得当电子设备在从业务单据中识别出业务字段的名称后,利用业务字段的名称在目标业务字段库进行字段匹配,以确定业务字段的名称的统一用语,若匹配成功,则进一步从业务单据中获取该业务字段对应的业务内容;若匹配失败,则提示对匹配失败的业务字段的名称进行检验,以进一步确定业务字段的名称对应的统一用语,在明确了该业务字段的名称对应的统一用语后,可以将该业务字段的名称添加至目标业务字段库。
此外,电子设备通过执行该方法,还可以将业务单据中包含的业务内容与该业务单据相关联的业务数据进行比较。例如,将收货单中的确认人与收货单关联的委托单中的确认人进行比较,进而判断业务内容与关联的业务数据是否一致,如果一致,则将业务内容保存至数据库;如果不一致,则提示对业务内容进行检验,以进一步确定业务内容的准确性。
通过执行本申请实施例提供的单据识别录入方法,电子设备在识别不同货主开具的业务单据时,可以获得业务单据中每一种业务字段的统一用语,使得在完成对不同种类、不同格式、不同布局的业务单据的业务字段的识别后,能够确定标准统一的业务字段的名称,避免了无法识别名称不同但含义相同的业务字段,同时,还能够对业务字段的业务内容进行一致性校验,减少了业务员进行人工检验的工作量,提高了物流业务的效率和准确率。
图1示出了一种单据识别录入系统10的场景示例。具体地,如图1所示,扫描仪100可以与计算机200进行通信连接。业务员可以使用扫描仪100将单据101扫描后获得单据101的单据图像102,并将单据图像102发送给计算机200。计算机200可以从单据图像102中识别出单据101包含的各种业务字段以及业务字段对应的业务内容,例如,在计算机200识别出业务字段“产品号”后,计算机200可以根据在计算机200中设置的目标业务字段库,获取“产品号”对应的基准字段为“捆包号”,并将业务字段“产品号”对应的业务内容保存至存储“捆包号”的业务内容的数据库。在本申请的实施例涉及的业务领域中,“捆包号”可以表示货物编号。
图2示出了本申请实施例的一种电子设备200的硬件结构示意图。如图2所示,电子设备200包括处理器201、系统内存202、非易失性存储器203,网络接口204以及输入/输出设备205以及用于耦接处理器201、系统内存202、非易失性存储器203、网络接口204和输入/输出设备205的系统控制逻辑206。
处理器201用于执行本申请实施例涉及的单据识别录入方法的指令。处理器201还可以通过文字识别技术,从电子设备200获取的图像中识别出业务字段和业务字段对应的业务内容。
系统内存202和非易失性存储器203可以用于临时或永久地存储指令207,还可以用于临时或永久地存储根据从电子设备100获取的图像以及用于识别图像中的业务字段的文字识别模型。其中,指令207是用于实现本申请实施例涉及的单据识别录入方法。
网络接口204用于与其他设备进行通信,例如电子设备200可以通过网络接口204与电子设备100通信。
输入/输出设备205可以用于用户与电子设备200的交互。
可以理解,图2所示的电子设备200的结构只是一种示例,在另一些实施例中,电子设备200可以包括更多或更少的部件,也可以组合或拆分一些部件,本申请实施例不做限定。
可以理解,电子设备200还可以是膝上型计算机、智能电视、智能音箱、平板计算机、服务器、可穿戴设备、头戴式显示器、移动电子邮件设备、便携式游戏机、便携式音乐播放器、阅读器设备等,本申请实施例不做限定。
下面基于图2所示的计算机200的硬件结构,结合图3对本申请的计算机200执行的单据识别录入方法进行详细说明。
具体地,图3所示的单据识别录入方案可以通过计算机200的处理器110执行相关程序来实现。如图3所示的计算机200的单据识别录入方法包括如下所示的步骤。
S301:获取单据图像。
在本申请的一些实施例中,单据图像可以是用户使用如图1所示的扫描仪100将单据101(例如:发货单)进行扫描后,获取单据101的单据图像102。再将单据图像发送给与扫描仪100通信连接的计算机200。
在本申请的另一些实施例中,用户还可以通过智能手机拍摄单据101,得到单据101对应的单据图像;再通过智能手机与计算机200之间的通信连接,将单据图像发送给计算机200。
可以理解的是,单据图像的扫描方式可以有多种,不限于上述采用扫描仪和通过智能手机拍摄的两种方式,本申请对此不作限定。
S302:识别出单据图像中的业务字段和业务字段的业务内容。
在本申请的一些实施例中,计算机200接收到扫描仪100发送的单据图像后,计算机200需要对单据图像进行内容识别处理,以从单据图像中准确地识别并提取出单据101中的业务字段。
在本申请的一些实施例中,计算机200可以通过OCR(Optical CharacterRecognition,光学字符识别)识别技术对单据图像进行内容识别处理,得到相应的OCR识别结果;并根据OCR识别结果,提取出单据101中的业务字段。这里的OCR识别技术可以是一种通用的文字识别技术,可以用于识别图像中包含的文字、数字以及符号。
可以理解,单据101中可以包括单行格式的业务字段,也可以包括表格格式的业务字段。对于表格格式的业务字段,业务字段可以存在于表头信息中,其中,表头信息用于指示出表格内的行内容和/或列内容的业务种类。
在本申请的一些实施例中,以图4示出的发货单的单据图像为例来说,单行格式的业务字段可以是“发货单编号”,“销售公司”,“确认人”等。
在本申请的一些实施例中,继续参考图4,表格格式的业务字段中的表头信息可以是指表格中的第一行内容,即“序号”、“捆包号”、“件数”、“重量(吨)”、“备注”等。其中,“序号”表明表格中的行数;“捆包号”、“件数”、“重量”可以是业务字段的名称,“捆包号”表明运输货物的货物号,“件数”表示货物的数量,“重量”表示货物的重量。
在本申请的一些实施例中,对于单行格式的业务字段,通常在单据图像中,单行格式的业务字段都位于同一行,且业务字段与业务字段的业务内容之间往往用分隔符号(如:“:”)进行分割,计算机200可以直接从单据图像中识别出业务字段以及业务字段的业务内容。
在本申请的一些实施例中,对于表格格式的业务字段,如图4所示的发货单,计算机200可以先从发货单的单据图像中提取表头区域,这里的表头区域可以是发货单中“序号”、“捆包号”、“件数”、“重量(吨)”、“备注”等所在的行。计算机200获取单据图像中的表头区域的方法可以包括:计算机200可以从单据图像中的预定位置开始,从表格图像中提取预定宽度或长度的区域作为表头区域。在本申请的另一些实施例中,计算机200也可以将单据图像输入行列分割模型,得到按序排列的若干行分割结果以及按序排列的若干列分割结果。从若干行分割结果中,提取第一行分割结果作为表头区域;或者是从若干列分割结果中,提取第一列分割结果作为表头区域。
在计算机200识别出表头区域后,计算机200可以使用上述的OCR识别技术对表头区域进行文本识别,得到表头信息包含的文本内容,也就是业务字段的名称。可以理解,对于表格格式的业务字段,在表头区域后的若干行或者若干列中的文本内容就是业务字段的业务内容。
由于计算机200提取出的业务字段中可能包括不够准确的文本字段,也就是说,获取文本字段的名称不是该业务的标准用语,计算机200需要对获取的业务字段进行进一步的校正处理。
在本申请的一些实施例中,上述OCR识别技术可以是一种已有的文字识别方法。通过预设的文本字段库,计算机200可以不需要专门训练针对物流业务中的每一种单据所配置的专门的OCR识别模型,而是可以使用通用的OCR识别方法先识别出单据图像中包含的业务字段,再根据预设的目标业务字段库,对业务字段进行校正,以确定业务字段的标准用语能够比较高效、精准地从单据图像中识别并提取出物流业务数据中的业务字段。
S303:将业务字段与目标业务字段进行匹配。
这里的目标业务字段可以是计算机200的存储区域内设置的目标业务字段库中包含的目标业务字段。目标业务字段可以包括业务字段的标准用语,以及标准用语对应的同义词。
在本申请的一些实施例中,这里的标准用语可以是业务字段的统一名称,该统一名称可以由该业务的行业标准来确定。统一名称可以用于唯一标识该业务字段标识的业务内容,例如;“材料号”“资源号”“捆包号”都可以用于标识货物号,这里,可以将“捆包号”定义为标准用语。
计算机200可以将业务字段与目标业务字段库中的目标业务字段进行匹配,进而从目标业务字段库中筛选出与业务字段匹配的目标业务字段;并根据筛选出的目标业务字段,对业务字段进行校正,获得业务字段的标准用语,以避免由于业务单据中的业务字段的名称不统一,导致即使识别出业务字段的名称,也无法确定该业务字段的名称对应的统一名称,进而无法对该业务字段对应的业务内容做进一步处理,需要采用人工方式对业务字段的名称进行检验。
下面介绍计算机200设置目标业务字段库的方法,计算机200可以预先搜集一定数量的业务数据对应的业务字段,例如:物流单据对应的业务字段,包括货物号、货物名称、货物重量、运输时间对应的物流术语。根据物流业务得到各业务字段的标准词,也就是统一用语,将其作为目标业务字段库的基准字段,然后不断搜集与该基准字段同义或者相似的词语,以基准字段为基础将相似或者同义的词语归类汇总,建立目标业务字段库。可以理解,该目标业务字段库中包括不同的基准字段及其同义字段,其中,同义字段在进行业务字段匹配的过程中可以根据词语的匹配结果不断进行更新,因此,目标业务字段库也是不断更新的。
在本申请的一些实施例中,可以理解,在创建各业务字段对应的目标业务字段库的初始阶段,目标业务字段库仅包括各基准字段,该基准字段可以从业务相关标准中获得,也可以人为进行规定。在添加各基准字段的同义字段时,预先搜集业务相关的一定数量的业务数据,可以人为根据预设规则将各字段的文字匹配到对应的基准字段,并加入到各基准字段对应的同义字段中,得到初始的目标业务字段库;或者,从基准字段开始,按照预设的匹配规则对搜集的业务数据中各业务字段的名称进行匹配,若完全匹配且与基准字段及其同义字段均不完全相同,则将该词语作为对应基准字段的同义字段加入同义字段中。在进行词语匹配的过程中,将完全匹配且与基准字段及其同义字段不完全相同的词语作为基准字段的同义字段加入其同义字段中,目标业务字段库就得到一次更新,相比原目标业务字段库增加了新的同义字段。因此,在进行词语匹配的过程中,目标业务字段库会在有新的同义字段加入时进行更新。
本申请的一些实施例中,例如,“捆包号”为货物号的标准用语,而“材料号”、“资源号”、“货物号”以及“产品号”等都可以表示货物号,可以将“捆包号”作为货物号对应的目标业务字段库的基准字段;将“捆包号”、“材料号”、“资源号”、“货物号”以及“产品号”等业务字段的名称配置在目标业务字段库进行词语匹配,以“捆包号”为基准字段,得到初始的目标业务字段库,其中,上述的“材料号”、“资源号”、“货物号”以及“产品号”业务字段的名称可以构成基准字段“捆包号”的同义字段。例如:当计算机200从单据101对应的单据图像中识别出的业务字段为“材料号”时,计算机200可以将业务字段对应的文字“材料号”输入到目标业务字段库进行匹配;该词语可以与基准字段“捆包号”对应的同义字段匹配成功,确定进一步确定该业务字段的文字“材料号”的基准字段为“捆包号”。
可以理解,若基准字段“捆包号”对应的同义字段中没有词语“材料号”,则在对词语“材料号”进行匹配的过程中,如果确定该词语“材料号”与基准字段“捆包号”对应的同义字段中的任一词语为同义字段时(如:匹配到同义字段中的文字“材料名”),将该词语“材料号”添加到基准字段“捆包号”的同义字段中,得到更新后的目标业务字段库。
可以看出,通过上述预先设置的目标业务字段库,计算机200可以根据业务字段的基准字段以及基准字段的同义字段,将同一业务字段可能对应的各类词语与基准字段及其同义字段进行匹配。如果未使用目标业务字段对业务字段进行匹配,在计算机200识别出业务字段为“材料号”时,计算机200只能将“材料号”与词语“材料号”匹配成功,而不能与基准字段“捆包号”匹配成功,需要通过人工匹配的方式获取“材料号”对应的基准字段“捆包号”。
在本申请的一些实施例中,如果从单据中识别出的业务字段的名称未能从目标业务字段库中匹配到完全一致的基准字段或同义字段,计算机200还可以根据业务字段的名称对应的文字特征,使用自然语言处理(Nature Language Processing,NLP)算法,例如:余弦相似度算法,将业务字段的名称对应的文字与目标业务字段库中的基准字段或同义字段进行匹配,若业务字段的名称对应的文字特征与基准字段或同义字段的文字特征之间达到预设相似度阈值,则将业务字段的名称对应的文字作为新的同义字段添加至目标业务字段库。
在本申请的一些实施例中,除了上述“捆包号”以及与“捆包号”对应的同义字段之外,如:“有效期”“有效时间”“有效使用期限”都可以表示业务字段中的单据使用时间,可以用“单据有效时间”作为基准字段。“吨位”“吨数”都可以表示业务字段中的货物重量,可以用“重量”作为基准字段。
S304:判断业务字段对应的业务内容是否通过完整性校验。
这里的完整性校验可以是将识别出单据中的业务字段对应的业务内容与该单据对应的关联数据(如:以发货单为例,关联数据可以是货主的委托单的内容)进行一致性校验,这里的业务字段可以是通过步骤S303进行过校正的,也可以是未经过校正的,如果通过完整性校验,则执行步骤S306,计算机200可以将业务字段对应的业务内容录入数据库进行存储;如果没有通过完整性校验,则执行步骤S305,计算机200可以提示未通过完整性校验的业务字段的业务内容。
在本申请的一些实施例中,计算机200获取的单据图像可以是货主委托物流商运营商完成运输任务后的返回单的图像,计算机200可以将单据图像包含的业务字段的业务内容与对应货主的委托单的相应信息进行比对。这里的委托单的相应信息可以是货主事先与物流运营商签订的运输委托合同中包含的信息,例如:委托单可以包含业务字段“确认人”以及业务字段的业务内容“张XX”。如果计算机200从返回单的单据图像中识别出业务字段“确认人”的内容为“李XX”,则说明返回单包含的业务字段对应的业务内容与货主的委托单的相应信息不匹配,返回单包含的业务字段对应的业务内容没有通过完整性校验,计算机200需要提示业务员进行核对。可以理解,这里的委托单的相应信息可以是保存在与计算机200通信连接的服务器的物流数据库中的信息。
在本申请的另一些实施例中,计算机200获取的单据图像可以是委托方的发票单据的图像,计算机200获取的业务字段可以包括“发票类型”、“发票代码”、“发票号码”、“名称”、“纳税人识别号”等开票信息。计算机200可以将发票单中包含的开票信息与会计数据库中包含的委托方的开票信息进行比对,并提示是否存在不一致。
本申请的一些实施例的方法,可以针对不同业务类型,通过设定不同的数据比对规则,实现数据分析、检查报错功能。
S305:提示未通过完整性校验的业务字段的业务内容。
在本申请的一些实施例中,计算机200可以在屏幕内通过高亮显示的方式(如:对内容加背景色,加粗等方式)显示在步骤S304中未通过完整性校验的业务字段的业务内容,以提示业务员对单据的业务内容进行核对。
图5示出了一种计算机200在屏幕中提示未通过完整性校验的业务字段的内容的场景。如图5所示,计算机200通过上述步骤S304确定返回单中的业务字段“确认人”的内容与返回单对应的委托单中的业务字段“确认人”的内容不一致,则计算机200可以在屏幕内将返回单的单据图像103中的业务字段“确认人”以及业务字段的业务内容高亮显示,并提示正确的业务字段的业务内容。
例如:在委托单中的“确认人”为“张XX”,而返回单的单据图像103中识别出业务字段“确认人”为“李XX”的情况下,计算机200可以将单据图像103中识别出业务字段“确认人”高亮显示。
S306:将业务字段对应的业务内容保存至数据库。
在本申请的一些实施例中,在计算机200确定单据101包含的业务字段的业务内容通过完整性校验后,计算机200可以将业务字段的业务内容保存至数据库,例如:对于发货单来说,发货单包含的业务字段的业务内容可以保存至物流数据库。
本申请公开的机制的各实施例可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。
可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施例可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各单元/模块都是逻辑单元/模块,在物理上,一个逻辑单元/模块可以是一个物理单元/模块,也可以是一个物理单元/模块的一部分,还可以以多个物理单元/模块的组合实现,这些逻辑单元/模块本身的物理实现方式并不是最重要的,这些逻辑单元/模块所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的单元/模块引入,这并不表明上述设备实施例并不存在其它的单元/模块。
需要说明的是,在本专利的示例和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本申请的某些优选实施例,已经对本申请进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (10)
1.一种单据识别录入方法,用于电子设备,其特征在于,包括:
获取第一单据包括的至少一个第一业务字段;
确定所述第一业务字段对应的基准字段,以及所述基准字段对应的至少一个同义字段,所述基准字段为所述第一业务字段的对应的业务领域中的统一名称;
将所述第一业务字段与所述基准字段以及所述同义字段进行匹配,若所述第一业务字段匹配到所述基准字段或者所述同义字段中的至少一个,获取并保存所述第一业务字段对应的业务内容。
2.根据权利要求1所述的方法,其特征在于,包括:若未匹配到,在所述第一业务字段与所述基准字段或者所述同义字段中的至少一个符合相似度阈值的情况下,将所述第一业务字段设置为所述同义字段。
3.根据权利要求2所述的方法,其特征在于,所述同义字段与所述基准字段的名称不同但含义相同。
4.根据权利要求2所述的方法,其特征在于,所述同义字段通过与所述第一单据属于同一业务领域中的第二单据包含的第二业务字段确定。
5.根据权利要求1所述的方法,其特征在于,若所述第一业务字段匹配到所述基准字段或者所述同义字段中的至少一个,获取并保存所述第一业务字段对应的业务内容,包括:
获取与所述第一单据相关联的第三单据;
确定所述第三单据中与所述第一业务字段名称相同或者名称不同含义相同的第三字段;
若所述第一业务字段对应的业务内容与所述第三字段的业务内容匹配,保存所述第一业务字段对应的业务内容;
若不匹配,提示所述第一业务字段对应的业务内容。
6.根据权利要求1所述的方法,其特征在于,所述第一业务字段与所述基准字段或者所述同义字段中的至少一个符合相似度阈值,包括:
根据所述第一业务字段对应的文字特征与所述基准字段或者所述同义字段中的至少一个对应的文字特征,利用至少一种文字相似度算法,确定所述第一业务字段与所述基准字段或者所述同义字段中的至少一个是否相同或者同义。
7.根据权利要求1所述的方法,其特征在于,所述第一业务字段位于所述第一单据包含的表格的表头信息。
8.根据权利要求7所述的方法,其特征在于,包括:
对所述第一单据包含的表格进行分割,获得行分割结果或列分割结果;
从所述行分割结果或列分割结果中,提取第一行分割结果或第一列分割结果作为所述表头信息;
从表头信息中识别出所述至少一个第一业务字段。
9.一种可读介质,其特征在于,所述可读介质上存储有指令,该指令在电子设备上执行时使电子设备执行权利要求1至8中任一项所述的单据识别录入方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储由电子设备的一个或多个处理器执行的指令,以及
处理器,是电子设备的处理器之一,用于执行权利要求1至8中任一项所述的单据识别录入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111492421.7A CN114170609A (zh) | 2021-12-08 | 2021-12-08 | 电子设备及其单据识别录入方法、介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111492421.7A CN114170609A (zh) | 2021-12-08 | 2021-12-08 | 电子设备及其单据识别录入方法、介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114170609A true CN114170609A (zh) | 2022-03-11 |
Family
ID=80484228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111492421.7A Pending CN114170609A (zh) | 2021-12-08 | 2021-12-08 | 电子设备及其单据识别录入方法、介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114170609A (zh) |
-
2021
- 2021-12-08 CN CN202111492421.7A patent/CN114170609A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109887153B (zh) | 一种财税处理方法和处理系统 | |
US11170248B2 (en) | Video capture in data capture scenario | |
US8526739B2 (en) | Systems, methods and computer program products for determining document validity | |
US7003157B2 (en) | Sheet handling system | |
CN108984578B (zh) | 计算机、文档识别方法以及系统 | |
US9396388B2 (en) | Systems, methods and computer program products for determining document validity | |
US6801658B2 (en) | Business form handling method and system for carrying out the same | |
JP6528147B2 (ja) | 会計データ入力支援システム、方法およびプログラム | |
US11501344B2 (en) | Partial perceptual image hashing for invoice deconstruction | |
US20110052075A1 (en) | Remote receipt analysis | |
JP5810568B2 (ja) | 情報処理装置、プログラム、およびデータの抽出方法 | |
US11477330B2 (en) | Information processing device, information processing system, and non-transitory computer readable medium for providing suggestions to reconcile an inconsistency between content of related documents | |
US20140268250A1 (en) | Systems and methods for receipt-based mobile image capture | |
CN112487859A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
CN111126370A (zh) | 一种基于ocr识别结果的最长公共子串自动纠错方法及系统 | |
CN115116068A (zh) | 一种基于ocr的档案智能归档系统 | |
CN111462388A (zh) | 一种票据检验方法、装置、终端设备及存储介质 | |
CN111784423B (zh) | 发票匹配方法、装置、电子设备和存储介质 | |
US11030450B2 (en) | System and method for determining originality of computer-generated images | |
CN114170609A (zh) | 电子设备及其单据识别录入方法、介质 | |
CN112862409A (zh) | 提运单核验方法及装置 | |
US20230055042A1 (en) | Partial Perceptual Image Hashing for Document Deconstruction | |
US11829706B1 (en) | Document assembly with the help of training data | |
US20230140357A1 (en) | Image processing apparatus, image processing method, and non-transitory storage medium | |
CN115860686A (zh) | 一种数据录入方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |