CN114120322B - 订单商品数量识别结果校正方法及处理设备 - Google Patents

订单商品数量识别结果校正方法及处理设备 Download PDF

Info

Publication number
CN114120322B
CN114120322B CN202210090975.2A CN202210090975A CN114120322B CN 114120322 B CN114120322 B CN 114120322B CN 202210090975 A CN202210090975 A CN 202210090975A CN 114120322 B CN114120322 B CN 114120322B
Authority
CN
China
Prior art keywords
commodity
text
correcting
specification name
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210090975.2A
Other languages
English (en)
Other versions
CN114120322A (zh
Inventor
杨恒
龙涛
阮仕海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aimo Technology Co ltd
Original Assignee
Shenzhen Aimo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aimo Technology Co ltd filed Critical Shenzhen Aimo Technology Co ltd
Priority to CN202210090975.2A priority Critical patent/CN114120322B/zh
Publication of CN114120322A publication Critical patent/CN114120322A/zh
Application granted granted Critical
Publication of CN114120322B publication Critical patent/CN114120322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Abstract

本发明公开了一种订单商品数量识别结果校正方法及处理设备,涉及文本图片识别技术领域,解决了现有OCR识别存在错误的技术问题。本发明包括如下步骤:S11、建立所有商品的规格名称及价格的数据库;S12、采集商品订单图片,并识别商品订单图片中所有的文本框及文本框对应的文本内容;S13、对文本框进行处理,划分出相应的商品条目;S14、在数据库中为已划分的商品条目匹配规格名称;S15、在匹配到规格名称的商品条目中查询规格名称对应的金额与价格,计算规格名称的数量,并对计算的数量进行纠正,返回步骤S12,对下一个订单图片进行校正。本发明效率高,能有效提升OCR识别的准确度,具备较好的应用价值。

Description

订单商品数量识别结果校正方法及处理设备
技术领域
本发明涉及订单智能识别技术领域,尤其涉及一种订单商品数量识别结果校正方法及处理设备。
背景技术
在烟草零售行业,厂商需要对零售户订单进行智能识别和合规审查,从而为身份验证、活动奖励发放等提供依据。因此,对订单上商品数量的识别准确性有比较高的要求。
目前,现有对订单上商品数量的识别方法主流为OCR,然而,OCR识别的结果不够鲁棒,存在漏检、连框、错字等情况,容易导致在后期处理提取结构化信息时商品条目识别不到或者结果存在错误,进而影响厂商及零售户的管理与经营。因此,市面上亟需提供一种可以弥补OCR上述缺陷的方法,以此提高商品条目的识别召回率和数量识别的准确率。
发明内容
本发明的目的在于提供一种订单商品数量识别结果校正方法及处理设备,以解决现有技术中存在的上述技术问题。本发明提供的诸多技术方案中的优选技术方案所能产生的诸多技术效果详见下文阐述。
为实现上述目的,本发明提供了以下技术方案:
本发明提供的一种订单商品数量识别结果校正方法,
包括如下步骤:
S11、建立所有商品的规格名称及价格的数据库;
S12、采集商品订单图片,并识别所述商品订单图片中所有的文本框及所述文本框对应的文本内容;
S13、对所述文本框进行处理,划分出相应的商品条目;
S14、在所述数据库中为已划分的所述商品条目匹配所述规格名称;
S15、在匹配到所述规格名称的所述商品条目中查询所述规格名称对应的金额与价格,计算所述规格名称的数量,并在所述商品条目中对计算的所述数量进行纠正;返回步骤S12,对下一个订单图片进行校正;所述规格名称为所述商品条目中所述文本框对应的所述文本内容;具体步骤如下:
S151、在匹配到所述规格名称的每个所述商品条目中,对每个所述规格名称的金额、价格进行识别;
S152、是否均识别到所述金额、价格;如是,执行步骤S153;否则,执行S155;
S153、对所述商品条目对应的所述规格名称的价格进行小数点遗漏识别,并对所述商品条目对应的所述规格名称的数量进行校正;
S154、对所述商品条目对应的所述规格名称的金额进行小数点遗漏识别,并对所述商品条目对应的所述规格名称的数量进行校正;返回步骤S12,对下一个订单图片进行校正;
S155、从所述数据库中获取所述商品条目对应的所述规格名称的价格,对所述商品条目中的所述规格名称的金额进行小数点遗漏识别,并对所述规格名称的数量进行校正;返回步骤S12,对下一个订单图片进行校正。
步骤S151包括如下步骤;
S1511、从匹配到所述规格名称的所述商品条目中除规格名称对应的所述文本框以外,按顺序取两个所述文本框;两个所述文本框对应的文本内容为a、b;
S1512、a、b是否均为数字;如是,执行步骤S1513;否则,执行步骤S1515;
S1513、计算c=b/a,c1=100*c-round(100*c);
S1514、c1是否大于等于第一阈值;如是,执行步骤S1515;否则,执行步骤1517;
S1515、是否依次选择了所述商品条目对应的全部所述文本框;如是,执行步骤S1516;否则,返回步骤S1511;
S1516、未识别到金额与价格,执行步骤S155;
S1517、识别到金额与价格,b为金额,a为价格,执行步骤S153。
进一步地,步骤S13包括如下步骤:
S131、将所有所述文本框按照从左到右、从上到下的顺序进行排列,形成多个文本行;
S132、一次提取一个所述文本行;
S133、依次在相邻两个所述文本框的文本类型满足数字、中文模式的时候,将所有在中文文本框前面的所述文本框组成一个所述商品条目,最后一次划分将剩余的未划分所述文本框组成一个所述商品条目;将相邻两个所述文本框的文本类型不存在数字、中文模式的整行所述文本框划分为一个所述商品条目;
S134、全部所述文本行是否划分完毕;如是,执行步骤S135;否则,返回步骤S132;
S135、执行步骤S14。
进一步地,步骤S14包括如下步骤:
S141、分别将已划分的每个所述商品条目中的第一个文本框的内容与所述数据库中每个所述规格名称逐一进行相同文本的比对,从所述数据库中将相同文本提取出来,组成公共文本序列;
S142、计算每个所述公共文本序列的长度,将长度最大的所述公共文本序列对应的规格名称作为候选匹配序列;
S143、所述候选匹配序列是否满足匹配条件;如是,执行步骤S144;否则,执行步骤S145;
S144、所述商品条目匹配到所述规格名称;返回步骤S141,直到余下未匹配所述规格名称的所述商品条目均完成匹配;
S145、所述商品条目未匹配到所述规格名称,忽略所述商品条目;返回步骤S141,直到余下未匹配所述规格名称的所述商品条目均完成匹配。
进一步地,步骤S143中的匹配条件为:满足以下任一个条件即为所述商品条目匹配到所述规格名称:
Figure 100002_DEST_PATH_IMAGE001
其中,L1为所述候选匹配序列的长度,L2为所述候选匹配序列在数据库中对应的规格名称的长度,L3为所述文本框的文本长度。
进一步地,步骤S153包括如下步骤:
S1531、c是否小于第二阈值;如是,执行步骤S1532;否则,执行步骤1533;
S1532、价格识别遗漏了小数点,c取10×c、100×c中大于等于1的最小值;在所述商品条目中将所述规格名称的数量校正为c;执行步骤S154;
S1533、执行步骤S154。
进一步地,步骤S154包括如下步骤:
S1541、c%100是否等于零;如是,执行步骤S1542;否则,执行步骤S1543;
S1542、金额识别遗漏了小数点,计算c=c/100;在所述商品条目中将所述规格名称的数量校正为c;
S1543、全部所述商品条目是否完成了所述规格名称的数量校正;如是,执行步骤S1544;否则,执行S1545;
S1544、返回步骤S12,对下一个订单图片进行校正;
S1545、返回步骤S1511,直到全部已匹配的所述商品条目的数量完成校正。
进一步地,步骤S155包括如下步骤:
S1551、从所述数据库中获取所述商品条目对应的所述规格名称的价格a;
S1552、从所述商品条目中除规格名称对应的所述文本框以外,按顺序取一个所述文本框;所述文本框对应的文本内容b;
S1553、计算c=b/a,c1=100*c-round(100*c);
S1554、c1是否大于等于所述第一阈值;如是,返回步骤S1552;否则,执行步骤1555;
S1555、c%100是否等于零;如是,执行步骤S1556;否则,执行步骤S1557;
S1556、金额识别遗漏了小数点,计算c=c/100;在所述商品条目中将所述规格名称的数量校正为c;
S1557、全部所述商品条目是否完成了所述规格名称的数量校正;如是,执行步骤S1558;否则,执行S1559;
S1558、返回步骤S12,对下一个订单图片进行校正;
S1559、返回步骤S1511,直到全部所述已匹配的所述商品条目的数量完成校正。
根据本发明的另一方面还提供了一种通用的文本图片查重处理设备,包括存储器、输出模块以及一个或多个处理器;所述处理器与所述存储器、输出模块均连接;所述存储器,用于存储一个或多个计算机程序,一个或多个所述处理器用于执行所述存储器存储的一个或多个计算机程序,以使一个或多个所述处理器执行如上文所述的订单商品数量识别结果校正方法;所述输出模块用于输出所述处理器执行如上文所述的订单商品数量识别结果校正方法的校正结果。
实施本发明上述技术方案中的一个技术方案,具有如下优点或有益效果:
本发明基于OCR结果可靠性差的问题,提出了一种以金额/单价推算数量准确性方法,并对OCR的识别结果进行修正,有效提高了OCR识别的准确率。本方法效率高,能有效提升OCR识别的准确度,具备较好的应用价值。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,附图中:
图1是本发明实施例的一种订单商品数量识别结果校正方法流程图;
图2是本发明实施例的一种订单商品数量识别结果校正方法中步骤S13的流程图;
图3是本发明实施例的一种订单商品数量识别结果校正方法中步骤S14的流程图;
图4是本发明实施例的一种订单商品数量识别结果校正方法中步骤S15的流程图;
图5是本发明实施例的一种订单商品数量识别结果校正方法中步骤S151的的流程图;
图6是本发明实施例的一种订单商品数量识别结果校正方法中步骤S153的另一种实现方法的流程图;
图7是本发明实施例的一种订单商品数量识别结果校正方法中步骤S154的另一种实现方法的流程图;
图8是本发明实施例的一种订单商品数量识别结果校正方法中步骤S155的另一种实现方法的流程图
图9是本发明实施例的一种订单商品数量识别结果校正方法中订单识别结果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下文将要描述的各种示例性实施例将要参考相应的附图,这些附图构成了示例性实施例的一部分,其中描述了实现本发明可能采用的各种示例性实施例。除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。应明白,它们仅是与如所附权利要求书中所详述的、本发明公开的一些方面相一致的流程、方法和装置等的例子,还可使用其他的实施例,或者对本文列举的实施例进行结构和功能上的修改,而不会脱离本发明的范围和实质。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”等指示的是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的元件必须具有的特定的方位、以特定的方位构造和操作。术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。术语“多个”的含义是两个或两个以上。术语“相连”、“连接”应做广义理解,例如,可以是固定连接、可拆卸连接、一体连接、机械连接、电连接、通信连接、直接相连、通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明,仅示出了与本发明实施例相关的部分。
实施例一:
如图1-6所示,本发明提供了一种订单商品数量识别结果校正方法,通过订单商品的金额与价格之间的关系来确定是否存在价格的小数点或金额的小数点遗漏,包括如下步骤:
S11、建立所有商品的规格名称及价格的数据库。该数据库包括商品的规格名称以及商品的价格,该数据库可以通过人工录入全部商品(如香烟)的名称规格及其价格,并经准确性校验准。该数据库用于下文对订单图片中识别的商品信息进行校正与匹配对应的规格名称及相关价格;
S12、采集商品订单图片,并识别商品订单图片中所有的文本框及文本框对应的文本内容。商品订单一般是通过机器打印输出的,由商家信息和表格构成,表格中由表头和商品条目构成,商品条目一般为四个依次排列的文本框构成,每个文本框内的文本内容可依次为规格名称-数量-价格-金额(当然顺序可以调换)。多个商品条目按照单栏、多列排列,或按照多栏、多列排列,进而构成了一张商品订单。本发明主要对识别的规格名称-数量-价格-金额中的数量进行校正。在本实施例中,采用OCR识别方法识别上述文本框及其文本框对应的内容。OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。我们知道,通过OCR识别可以得到图片中所有的文本框和文本内容,但是这些文本框是散乱的,框和框之间的结构关系并不明确。而且OCR结果可靠性差,订单数量出错的概率非常高。因此,本发明提出了一种以金额/价格推算数量的鲁棒性方法,同时结合规格名称和价格的数据库领域知识,有效提高了方法的识别召回率和识别准确率;
S13、对文本框进行处理,划分出相应的商品条目。本步骤将划分如“规格名称-数量-价格-金额”这样的商品条目(一般地,规格名称是排在第一位的,数量、价格、金额的顺序不唯一)。首先,对所有文本框按照人类阅读顺序进行行划分和排序。对于订单存在多栏的情况,而且栏数不定,理想情况下可以通过连续多个文本框符合“中文-数字-数字-数字”这样的模式提取到每一个商品条目,但实际上OCR结果往往很难满足。因此,仅通过前后2个文本框符合“数字-中文”这样简单的模式对行进行切分,得到候选商品条目。具体的步骤为:
S131、将所有文本框按照从左到右、从上到下的顺序进行排列,形成多个文本行。此步骤最终形成的文本框行排列与按照步骤S12中识别出的文本框的行排列保持一致;
S132、一次提取一个文本行。需说明的是,商品订单包括单栏订单和多栏订单,多栏订单是由至少2个单栏构成,每一栏的一行对应商品的规格名称、数量、价格、金额至少4个文本框。本步骤通过分行,再在行内进行商品条目划分,能够大大加快划分速度,进而提升商品数量识别结果校正的效率;
S132、依次在相邻两个文本框的文本类型满足数字、中文模式的时候,将所有在中文文本框前面的文本框组成一个商品条目,最后一次划分将剩余的未划分文本框组成一个商品条目;将相邻两个文本框的文本类型不存在数字、中文模式的整行文本框划分为一个商品条目。此步骤中,相邻两个文本框的文本类型满足数字、中文模式时,表明为文本框为多栏模式。多栏模式时,依次将识别的中文文本框前面的文本框组成一个商品条目,最后一次划分将剩余的未划分文本框组成一个商品条目;当相邻两个文本框的文本类型不存在数字、中文模式时,表明为文本框为单栏模式,此时,整一行就是一个商品条目。当然,在多栏中可能存在单栏(如最后一行存在单栏);
S133、全部文本行是否划分完毕;如是,执行步骤S135;否则,返回步骤S132;
S135、执行步骤S14。
所有的文本框均完成商品条目的划分后,便可以进行如下的匹配程序;
S14、在数据库中为已划分的商品条目匹配规格名称。具体的步骤如下:
S141、分别将已划分的每个商品条目中的第一个文本框的内容与数据库中每个规格名称逐一进行相同文本的比对,从数据库中将相同文本提取出来,组成公共文本序列;
S142、计算每个公共文本序列的长度,将长度最大的公共文本序列对应的规格名称作为候选匹配序列;
S143、候选匹配序列是否满足匹配条件;如是,执行步骤S144;否则,执行步骤S145。进一步地,匹配条件为:满足以下任一个条件即为商品条目匹配到规格名称:
Figure 996960DEST_PATH_IMAGE002
其中,L1为候选匹配序列的长度,L2为候选匹配序列在数据库中对应的规格名称的长度,L3为文本框的文本长度。需说明的是,此匹配条件为根据烟草行业中香烟的名称规格来确定的通用匹配条件,其他行业亦可适用;
S144、商品条目匹配到规格名称;返回步骤S141,直到余下未匹配规格名称的商品条目均完成匹配;
S145、商品条目未匹配到规格名称,忽略商品条目;返回步骤S141,直到余下未匹配规格名称的商品条目均完成匹配;
S15、在匹配到规格名称的商品条目中查询规格名称对应的金额与价格,计算规格名称的数量,并在商品条目中对计算的数量进行纠正;返回步骤S12,对下一个订单图片进行校正。其中,规格名称为商品条目中相应文本框对应的文本内容。需说明的是,采用OCR识别时,出错的地方在于价格的小数点或金额的小数点遗漏,因此,本步骤通过金额与价格之间的关系来确定是否存在上述遗漏。该步骤进一步包括如下步骤:
S151、在匹配到规格名称的每个商品条目中,对每个规格名称的金额、价格进行识别;
S152、是否均识别到金额、价格;如是,执行步骤S153;否则,执行S155;
S153、对商品条目对应的规格名称的价格进行小数点遗漏识别,并对商品条目对应的规格名称的数量进行校正;
S154、对商品条目对应的规格名称的金额进行小数点遗漏识别,并对商品条目对应的规格名称的数量进行校正;返回步骤S12,对下一个订单图片进行校正;
S155、从数据库中获取商品条目对应的规格名称的价格,对商品条目中的规格名称的金额进行小数点遗漏识别,并对规格名称的数量进行校正;返回步骤S12,对下一个订单图片进行校正。需说明的是,由于OCR的错误,通过步骤S151未必能够识别到价格和金额,因此还需要更进一步的处理,即从数据库中获取价格;
进一步地,步骤S151包括如下步骤:
S1511、从匹配到规格名称的商品条目中除规格名称对应的文本框以外,按顺序取两个文本框;两个文本框对应的文本内容为a、b。需说明的是,商品条目文本框数量不定,无法对应表头,正确做法是尝试条目内所有相邻的2个文本框,将它们当作价格、金额进行识别;
S1512、a、b是否均为数字;如是,执行步骤S1513;否则,执行步骤S1515;
S1513、计算c=b/a,c1=100*c-round(100*c)。此步骤中,c1的计算公式中乘以100是为了处理价格遗漏小数点的情况,如果a、b能够整除,b为金额,a为价格;
S1514、c1是否大于等于第一阈值;如是,执行步骤S1515;否则,执行步骤1517。本实施例中,第一阈值取值为0.0001,小于第一阈值即为整除;
S1515、是否依次选择了商品条目对应的全部文本框;如是,执行步骤S1516;否则,返回步骤S1511;
S1516、未识别到金额与价格,执行步骤S155;
S1517、识别到金额与价格,b为金额,a为价格,执行步骤S153。
进一步地,步骤S153包括如下步骤:
S1531、c是否小于第二阈值;如是,执行步骤S1532;否则,执行步骤1533。在本实施例中,第二阈值为1,c<1,价格变大,因而可以推断价格在识别时遗漏了小数点,则表示价格遗漏小数点,将数量纠正为10*c、100*c中>=1的较小的那一个;
S1532、价格识别遗漏了小数点,c取10×c、100×c中大于等于1的最小值,在商品条目中将规格名称的数量校正为c;执行步骤S154;
S1533、执行步骤S154。
进一步地,步骤S154包括如下步骤:
S1541、c%100是否等于零;如是,执行步骤S1542;否则,执行步骤S1543。c%100为c除以100的余数,余数为零,表明金额的小数点遗漏了,使得c值变大了;
S1542、金额识别遗漏了小数点,计算c=c/100;在商品条目中将规格名称的数量校正为c;
S1543、全部商品条目是否完成了规格名称的数量校正;如是,执行步骤S1544;否则,执行S1545;
S1544、返回步骤S12,对下一个订单图片进行校正;
S1545、返回步骤S1511,直到全部已匹配的商品条目的数量完成校正。
进一步地,步骤S155包括如下步骤:
S1551、从数据库中获取商品条目对应的规格名称的价格a;
S1552、从商品条目中除规格名称对应的文本框以外,按顺序取一个文本框;文本框对应的文本内容b。此步骤为从商品条目中寻找金额,金额在本实施例中是默认能够识别出来;
S1553、计算c=b/a,c1=100*c-round(100*c);
S1554、c1是否大于等于第一阈值;如是,返回步骤S1552;否则,执行步骤1555。c1是小于第一阈值表明金额识别出来,但金额可能会遗漏小数点;
S1555、c%100是否等于零;如是,执行步骤S1556;否则,执行步骤S1557;
S1556、金额识别遗漏了小数点,计算c=c/100;在商品条目中将规格名称的数量校正为c;
S1557、全部商品条目是否完成了规格名称的数量校正;如是,执行步骤S1558;否则,执行S1559
S1558、返回步骤S12,对下一个订单图片进行校正;
S1559、返回步骤S1511,直到全部已匹配的商品条目的数量完成校正。
综上所述,本实施例的方法基于OCR结果可靠性差的问题,提出了一种以金额/价格推算数量准确性方法,对OCR的识别结果进行修正,有效提高了OCR识别的准确率。
实施例二:
本发明还提供一种订单商品数量识别结果校正处理设备,包括存储器、输出模块以及一个或多个处理器,处理器与存储器、输出模块均连接。存储器用于存储一个或多个计算机程序,一个或多个处理器用于执行存储器存储的一个或多个计算机程序,以使一个或多个处理器执行如实施例一所述的订单商品数量识别结果校正方法;输出模块用于输出处理器执行如实施例一中所述的订单商品数量识别结果校正方法的校正结果。进一步地,存储器包括:静硬态盘、固态硬盘、随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、光存储设备、磁存储设备、快闪存储器、磁盘或光盘和/或上述设备的组合,即可以由任何类型的易失性或非易失性存储设备或者它们的组合实现。输出模块可以为显示器、电脑终端和/或手机终端。
以上所述仅为本发明的较佳实施例而已,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等同替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims (8)

1.一种订单商品数量识别结果校正方法,其特征在于,包括如下步骤:
S11、建立所有商品的规格名称及价格的数据库;
S12、采集商品订单图片,并识别所述商品订单图片中所有的文本框及所述文本框对应的文本内容;
S13、对所述文本框进行处理,划分出相应的商品条目;
S14、在所述数据库中为已划分的所述商品条目匹配所述规格名称;
S15、在匹配到所述规格名称的所述商品条目中查询所述规格名称对应的金额与价格,计算所述规格名称的数量,并在所述商品条目中对计算的所述数量进行纠正;返回步骤S12,对下一个订单图片进行校正;所述规格名称为所述商品条目中所述文本框对应的所述文本内容;具体步骤如下:
S151、在匹配到所述规格名称的每个所述商品条目中,对每个所述规格名称的金额、价格进行识别;
S152、是否均识别到所述金额、价格;如是,执行步骤S153;否则,执行S155;
S153、对所述商品条目对应的所述规格名称的价格进行小数点遗漏识别,并对所述商品条目对应的所述规格名称的数量进行校正;
S154、对所述商品条目对应的所述规格名称的金额进行小数点遗漏识别,并对所述商品条目对应的所述规格名称的数量进行校正;返回步骤S12,对下一个订单图片进行校正;
S155、从所述数据库中获取所述商品条目对应的所述规格名称的价格,对所述商品条目中的所述规格名称的金额进行小数点遗漏识别,并对所述规格名称的数量进行校正;返回步骤S12,对下一个订单图片进行校正;
步骤S151包括如下步骤;
S1511、从匹配到所述规格名称的所述商品条目中除规格名称对应的所述文本框以外,按顺序取两个所述文本框;两个所述文本框对应的文本内容为a、b;
S1512、a、b是否均为数字;如是,执行步骤S1513;否则,执行步骤S1515;
S1513、计算c=b/a,c1=100*c-round(100*c);
S1514、c1是否大于等于第一阈值;如是,执行步骤S1515;否则,执行步骤1517;
S1515、是否依次选择了所述商品条目对应的全部所述文本框;如是,执行步骤S1516;否则,返回步骤S1511;
S1516、未识别到金额与价格,执行步骤S155;
S1517、识别到金额与价格,b为金额,a为价格,执行步骤S153。
2.根据权利要求1所述的订单商品数量识别结果校正方法,其特征在于,步骤S13包括如下步骤:
S131、将所有所述文本框按照从左到右、从上到下的顺序进行排列,形成多个文本行;
S132、一次提取一个所述文本行;
S133、依次在相邻两个所述文本框的文本类型满足数字、中文模式的时候,将所有在中文文本框前面的所述文本框组成一个所述商品条目,最后一次划分将剩余的未划分所述文本框组成一个所述商品条目;将相邻两个所述文本框的文本类型不存在数字、中文模式的整行所述文本框划分为一个所述商品条目;
S134、全部所述文本行是否划分完毕;如是,执行步骤S135;否则,返回步骤S132;
S135、执行步骤S14。
3.根据权利要求2所述的订单商品数量识别结果校正方法,其特征在于,步骤S14包括如下步骤:
S141、分别将已划分的每个所述商品条目中的第一个文本框的内容与所述数据库中每个所述规格名称逐一进行相同文本的比对,从所述数据库中将相同文本提取出来,组成公共文本序列;
S142、计算每个所述公共文本序列的长度,将长度最大的所述公共文本序列对应的规格名称作为候选匹配序列;
S143、所述候选匹配序列是否满足匹配条件;如是,执行步骤S144;否则,执行步骤S145;
S144、所述商品条目匹配到所述规格名称;返回步骤S141,直到余下未匹配所述规格名称的所述商品条目均完成匹配;
S145、所述商品条目未匹配到所述规格名称,忽略所述商品条目;返回步骤S141,直到余下未匹配所述规格名称的所述商品条目均完成匹配。
4.根据权利要求3所述的订单商品数量识别结果校正方法,其特征在于,步骤S143中的匹配条件为:满足以下任一个条件即为所述商品条目匹配到所述规格名称:
Figure DEST_PATH_IMAGE001
其中,L1为所述候选匹配序列的长度,L2为所述候选匹配序列在数据库中对应的规格名称的长度,L3为所述文本框的文本长度。
5.根据权利要求1所述的订单商品数量识别结果校正方法,其特征在于,步骤S153包括如下步骤:
S1531、c是否小于第二阈值;如是,执行步骤S1532;否则,执行步骤1533;
S1532、价格识别遗漏了小数点,c取10×c、100×c中大于等于1的最小值;在所述商品条目中将所述规格名称的数量校正为c;执行步骤S154;
S1533、执行步骤S154。
6.根据权利要求5所述的订单商品数量识别结果校正方法,其特征在于,步骤S154包括如下步骤:
S1541、c%100是否等于零;如是,执行步骤S1542;否则,执行步骤S1543;
S1542、金额识别遗漏了小数点,计算c=c/100;在所述商品条目中将所述规格名称的数量校正为c;
S1543、全部所述商品条目是否完成了所述规格名称的数量校正;如是,执行步骤S1544;否则,执行S1545;
S1544、返回步骤S12,对下一个订单图片进行校正;
S1545、返回步骤S1511,直到全部已匹配的所述商品条目的数量完成校正。
7.根据权利要求6所述的订单商品数量识别结果校正方法,其特征在于,步骤S155包括如下步骤:
S1551、从所述数据库中获取所述商品条目对应的所述规格名称的价格a;
S1552、从所述商品条目中除规格名称对应的所述文本框以外,按顺序取一个所述文本框;所述文本框对应的文本内容b;
S1553、计算c=b/a,c1=100*c-round(100*c);
S1554、c1是否大于等于所述第一阈值;如是,返回步骤S1552;否则,执行步骤1555;
S1555、c%100是否等于零;如是,执行步骤S1556;否则,执行步骤S1557;
S1556、金额识别遗漏了小数点,计算c=c/100;在所述商品条目中将所述规格名称的数量校正为c;
S1557、全部所述商品条目是否完成了所述规格名称的数量校正;如是,执行步骤S1558;否则,执行S1559;
S1558、返回步骤S12,对下一个订单图片进行校正;
S1559、返回步骤S1511,直到全部所述已匹配的所述商品条目的数量完成校正。
8.一种订单商品数量识别结果校正处理设备,其特征在于,包括存储器、输出模块以及一个或多个处理器;所述处理器与所述存储器、输出模块均连接;
所述存储器,用于存储一个或多个计算机程序,一个或多个所述处理器用于执行所述存储器存储的一个或多个计算机程序,以使一个或多个所述处理器执行如权利要求1-7任一项所述的订单商品数量识别结果校正方法;
所述输出模块用于输出所述处理器执行如权利要求1-7任一项所述的订单商品数量识别结果校正方法的校正结果。
CN202210090975.2A 2022-01-26 2022-01-26 订单商品数量识别结果校正方法及处理设备 Active CN114120322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210090975.2A CN114120322B (zh) 2022-01-26 2022-01-26 订单商品数量识别结果校正方法及处理设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210090975.2A CN114120322B (zh) 2022-01-26 2022-01-26 订单商品数量识别结果校正方法及处理设备

Publications (2)

Publication Number Publication Date
CN114120322A CN114120322A (zh) 2022-03-01
CN114120322B true CN114120322B (zh) 2022-05-10

Family

ID=80361968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210090975.2A Active CN114120322B (zh) 2022-01-26 2022-01-26 订单商品数量识别结果校正方法及处理设备

Country Status (1)

Country Link
CN (1) CN114120322B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310751A (ja) * 2007-06-18 2008-12-25 Hitachi Software Eng Co Ltd 買注文情報自動訂正システム
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
CN112395874A (zh) * 2020-11-25 2021-02-23 商汤国际私人有限公司 订单信息的校正方法、装置、设备及存储介质
WO2021215589A1 (ko) * 2020-04-24 2021-10-28 주식회사 애자일소다 Ocr 기반 문서 분석 시스템 및 방법
CN113569858A (zh) * 2021-07-21 2021-10-29 上海明略人工智能(集团)有限公司 商品价签内容识别方法、系统、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020042750A1 (en) * 2000-08-11 2002-04-11 Morrison Douglas C. System method and article of manufacture for a visual self calculating order system over the world wide web
CN101419661B (zh) * 2007-10-26 2011-08-24 国际商业机器公司 基于图像中的文本进行图像显示的方法和系统
CN108717543B (zh) * 2018-05-14 2022-01-14 北京市商汤科技开发有限公司 一种发票识别方法及装置、计算机存储介质
CN112560861B (zh) * 2020-12-10 2022-11-18 上海亿保健康管理有限公司 票据处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008310751A (ja) * 2007-06-18 2008-12-25 Hitachi Software Eng Co Ltd 買注文情報自動訂正システム
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
WO2021215589A1 (ko) * 2020-04-24 2021-10-28 주식회사 애자일소다 Ocr 기반 문서 분석 시스템 및 방법
CN112395874A (zh) * 2020-11-25 2021-02-23 商汤国际私人有限公司 订单信息的校正方法、装置、设备及存储介质
CN113569858A (zh) * 2021-07-21 2021-10-29 上海明略人工智能(集团)有限公司 商品价签内容识别方法、系统、电子设备及存储介质

Also Published As

Publication number Publication date
CN114120322A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
US9042653B2 (en) Associating captured image data with a spreadsheet
AU2019391808A1 (en) Methods and systems for automated table detection within documents
CN108717543B (zh) 一种发票识别方法及装置、计算机存储介质
US7840890B2 (en) Generation of randomly structured forms
EP0344742A2 (en) Courtesy amount read and transaction balancing system
US11328504B2 (en) Image-processing device for document image, image-processing method for document image, and storage medium on which program is stored
US20130325533A1 (en) Commodity display information tabulation method, data structure, and recording medium recording the same
JP6441718B2 (ja) 帳票処理システム、帳票処理方法及びプログラム
US11514700B2 (en) Image-processing device, image-processing method, and storage medium on which program is stored
US20150221045A1 (en) System and method of normalizing vendor data
CN111666868A (zh) 保险单识别方法、装置以及计算机设备
CN114120322B (zh) 订单商品数量识别结果校正方法及处理设备
JP2022079352A (ja) 情報処理装置、情報処理システム、及び情報処理プログラム
JP2014016762A (ja) 帳票認識装置および帳票認識方法
CN114493159B (zh) 一种基于mes系统的节点位置校验方法和装置
CN115661516A (zh) 商品识别方法以及装置、存储介质、电子装置
JP2022028599A (ja) データ処理装置、データ処理方法及びプログラム
US5987437A (en) Method of improving assistance to an operator to balance an out-of-proof transaction and an apparatus therefor
JP7122896B2 (ja) 帳票情報処理装置、帳票情報構造化処理方法及び帳票情報構造化処理プログラム
JP3732254B2 (ja) フォーマット情報生成方法及びフォーマット情報生成装置
CN112528886A (zh) Ocr信息检测识别方法、装置、终端及存储介质
CN112149402A (zh) 文档对比方法、装置、电子设备和计算机可读存储介质
WO2023021636A1 (ja) データ処理装置、データ処理方法及びプログラム
JPH10207981A (ja) 帳票認識方法
JP3000349B2 (ja) キー入力編集方法及び編集装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant