CN114783584A - 一种药品随货同行单的录单方法及装置 - Google Patents

一种药品随货同行单的录单方法及装置 Download PDF

Info

Publication number
CN114783584A
CN114783584A CN202210230994.0A CN202210230994A CN114783584A CN 114783584 A CN114783584 A CN 114783584A CN 202210230994 A CN202210230994 A CN 202210230994A CN 114783584 A CN114783584 A CN 114783584A
Authority
CN
China
Prior art keywords
attribute
text
product
line
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210230994.0A
Other languages
English (en)
Inventor
谢方敏
周峰
郭陟
曾铮
刘光林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Fangzhou Information Technology Co ltd
Original Assignee
Guangzhou Fangzhou Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Fangzhou Information Technology Co ltd filed Critical Guangzhou Fangzhou Information Technology Co ltd
Priority to CN202210230994.0A priority Critical patent/CN114783584A/zh
Publication of CN114783584A publication Critical patent/CN114783584A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种药品随货同行单的录单方法及装置,具体方法为:获取随货同行单的图像;提取随货同行单图像中的表格框线;根据获取到的表格框线,确定表格框线中的主要框线,再识别主要框线内的文本,提取属性解释文本和产品属性文本,并根据产品属性文本与属性解释文本的对应关系,生成电子表单,将随货同行单的产品与数据库中的产品比对确认一致后,录入系统。本发明适配不同形式的随货同行单,并能识别生成统一的电子单据,自动完成随货同行单的信息录入,大大提高了录入效率。

Description

一种药品随货同行单的录单方法及装置
技术领域
本发明涉及互联网医疗技术领域,具体涉及一种药品随货同行单的录单方法及装置。
背景技术
根据药监局《药品经营质量管理规范现场检查指导原则》的要求:随货同行单(票)应当包括供货单位、生产厂商、药品的通用名称、剂型、规格、批号、数量、收货单位、收货地址、发货日期等内容,并加盖供货单位药品出库专用章原印章;药品到货时,收货人员应当核实运输方式是否符合要求,并对照随货同行单(票)和采购记录核对药品,做到票、账、货相符。
基于上述要求,药品经营公司在供货方处下单后,供货方会把货品跟随货同行单一同送到该公司的仓库,仓库里的录单人员需要核对采购系统里的采购记录、随货同行单、货品三者是否相符。不相符的货品可能会退货处理或者拒收,相符的药品被收入仓库。
药品的随货同行单如图1所示,随货同行单中药品的“生产厂商”、“药品的通用名称”、“剂型”、“规格”、“上市许可持有人”、“收货单位”和“收货地址”等通常是不变的,在每次验收时通常只需要核对,而“批号”、“数量”、“生产日期”和“有效期”是不断变化的,需要在每次验收时人工录入验收系统中。
人工录入随货同行单信息的步骤通常包括:
(1)在验收系统里输入供货单位名称、随货同行单送货单号、货品收货时间。
(2)在搜索框输入货品的批准文号,验收系统会在与供货单位相关的采购记录里搜索批准文号相符的所有货品。验收员会在搜索结果里选择与随货同行单中其他信息(例如规格、药品通用名)相符的药品。若该货品没有批准文号,就搜索注册证号。若该货品没有注册证号,就搜索货品通用名、生产厂家和规格等货品信息。若没有药品被搜索到,就进入提工单流程。
(3)在货品条目里,输入数量、单价、生产批号、生产日期、有效期。再次核对信息,若数量、单价等信息与采购计划一致,就点击“确认”;若不一致,就进入提工单流程。
人工录入随货同行单需要频繁敲击键盘打字,这降低了录单效率。
发明内容
基于此,本发明提供了一种药品随货同行单的录单方法及装置,通过识别并提取不同格式的药品随货同行单的表格及文字,生成统一的电子单据,自动完成随货同行单的信息录入,大大提高了录入效率。
本发明通过如下方案实现:
第一方面,本发明提供了一种药品随货同行单的录单方法,包括:
获取随货同行单的图像;
提取所述随货同行单图像中的表格框线;
根据获取到的所述表格框线,确定所述表格框线中的主要框线,其中,所述主要框线包括表头行和产品行的上下框线,以及表格属性列的左右框线,确定由上至下的第一条和第二条横向的所述主要框线为表头行的上下框线,其余所述横向主要框线为产品行的上下框线,确定纵向的所述主要框线为所述表格属性列的左右框线;
识别所述主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,确定既在所述产品行又在所述属性列中的所述文本为产品属性文本,所述属性解释文本包括常规属性与可变属性,所述常规属性包括以下至少一项:批准文号、通用名、生产厂家、规格,所述可变属性包括以下至少一项:生产日期、有效期、数量、生产批号、单价、产地;
提取所述属性解释文本和所述产品属性文本,并根据所述产品属性文本与所述属性解释文本的对应关系,生成电子表单;
确定该常规属性所对应的所述属性列为目标属性列,将所述目标属性列中的产品属性文本与数据库中的产品属性进行比对,获取所述目标属性列中,每个产品行对应的目标产品,并提取该目标产品的ID;
从所述表单中提取每个产品行中的可变属性的所述产品属性文本,随同所述产品ID上传至录单系统。
进一步地,识别主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,既在所述产品行又在所述属性列中的所述文本为产品属性文本,具体包括如下步骤:
识别主要框线内的文本,获取文本内容及文本框;
通过将识别后的所述属性解释文本与预储存的产品属性字典内容进行比对,判断所述属性解释文本所包含的产品属性数量,若所述属性解释文本仅包括一个产品属性,则该属性解释文本所对应属性列中的所述产品属性文本即对应该项产品属性;
若所述属性解释文本包括多个产品属性,判断所述产品属性文本框与所述属性解释文本框数量是否相等,若相等,则按所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本。
进一步地,判断所述属性解释文本所包含的产品属性数量后,还包括:
若所述产品属性文本框与所述属性解释文本框数量不相等,则判断所述属性解释文本中是否包含预设的分隔符,如果有,则通过分隔符对所述产品属性文本框进行划分,得到多个产品属性文本,并按照所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本。
进一步地,提取随货同行单图像中的表格框线,包括如下方法步骤:
对所述随货同行单图像进行二值化及反相处理,获取第一图像;
对所述第一图像进行膨胀运算加粗所述随货同行单图像中的水平线与竖直线,获取第二图像;
根据所述随货同行单图像的宽度预设第一结构元的像素数据,应用所述第一结构元对所述第二图像进行开运算,获取横线图;
根据所述随货同行单图像的长度预设第二结构元的像素数据,应用所述第二结构元对所述第二图像进行开运算,获取竖线图;
将所述横线图与所述竖线图相加,获取所述表格框图。
进一步地,将所述横线图与所述竖线图相加,获取所述表格框图后,还包括:
通过按位与运算得到所述横线图与所述竖线图的交点图,得到所述表格框图的交点集合;
计算所述交点集合中心的像素点坐标,并确定其为表格交点坐标;
根据预设规则,确定位于同一条竖线或横线上的所述表格交点坐标的x或y坐标替换为同一值;
遍历所述表格交点坐标,根据具有同一纵坐标值的所述表格交点确定表格横线,根据具有同一横坐标值的所述表格交点确定表格竖线;
将所述表格横线与所述表格竖线相加,获取所述表格框线。
进一步地,确定表格框线中的主要框线,包括:
检测该表格横线或表格竖线上的所述表格交点数量,确认所述表格交点数量高于预设阈值的所述表格横线或表格竖线为所述主要框线;
或者,
将该表格横线或表格竖线在预设范围内的二值化图像垂直投影并计算其长度;
若所述表格横线的长度与所述随货同行单图像的宽度的比例超过预设阈值,则确认所述表格横线为所述主要框线;
若所述竖线的长度与所述随货同行单图像的长度的比例超过预设阈值,则确认所述表格竖线为所述主要框线。
进一步地,识别主要框线内的文本,具体包括如下步骤:
将随货同行单图像输入预训练的文本检测模型,检测所述文本框的坐标位置;
根据主要框线坐标位置及文本框坐标位置切割所述文本框;
根据切割后的所述文本框的坐标在随货同行单图像上裁剪文本框图片,并输入预训练的文本识别模型,得到识别后的该文本框内的文本内容。
进一步地,获取随货同行单图像后,还包括:
对所述随货同行单图像进行灰度化处理,得到灰度图;
将所述灰度图进行二值化处理,得到二值图;
提取二值化图像中的所有轮廓,并计算所有轮廓的最小外接矩形,确定最大面积的最小外接矩形的轮廓为随货同行单的轮廓;
提取所述随货同行单轮廓所对应的最小外接矩形内的图像,获取去除背景后的随货同行单图像。
进一步地,获取随货同行单原始图像后,还包括:
遍历所述随货同行单图像内的全部像素点,确认像素点在HSV颜色空间的值在预设阈值范围内的像素点为水印像素点;
修改所述水印像素点的颜色为预设颜色,所述预设颜色包括黑色,白色以及在所述原始图像内出现次数最多的像素颜色。
第二方面,本发明提供一种药品随货同行单的录单装置,包括:
图像获取模块,用于获取随货同行单的图像;
表格框线提取模块,用于提取随货同行单图像中的表格框线;
主要框线确定模块,用于根据获取到的所述表格框线,确定所述表格框线中的主要框线,其中,所述主要框线包括表头行和产品行的上下框线,以及表格属性列的左右框线,确定由上至下的第一条和第二条横向的所述主要框线为表头行的上下框线,其余所述横向主要框线为产品行的上下框线,确定纵向的所述主要框线为所述表格属性列的左右框线;
文本识别模块,用于识别所述主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,确定既在所述产品行又在所述属性列中的所述文本为产品属性文本,所述属性解释文本包括常规属性与可变属性,所述常规属性包括以下至少一项:批准文号、通用名、生产厂家、规格,所述可变属性包括以下至少一项:生产日期、有效期、数量、生产批号、单价、产地;
文本提取及表单生成模块,用于提取所述属性解释文本和所述产品属性文本,并根据所述产品属性文本与所述属性解释文本的对应关系,生成电子表单;
目标产品确定模块,用于确定该常规属性所对应的所述属性列为目标属性列,将所述目标属性列中的产品属性文本与数据库中的产品属性进行比对,获取所述目标属性列中,每个产品行对应的目标产品,并提取该目标产品的ID;
产品属性录入模块,用于从所述表单中提取每个产品行中的可变属性的所述产品属性文本,随同所述产品ID上传至录单系统。
本发明实施例提供了一种药品随货同行单的录单方法,通过提取随货同行单图像中的表格框线,确定表格框线中的主要框线后,识别主要框线内的文本,并将识别后的文本与表格框线所确定的表头行、产品行和属性列一一对应,生成电子表单;再通过提取属性列中常规属性列的各项属性,与数据库中的产品属性进行比对,确定该产品行对应的产品ID,再提取属性列中可变属性列的各项属性,随同产品ID上传录单系统,至此完成了随货同行单内药品是否与药品数据库中所预存的药品相一致的验证,同时自动将随货同行单的产品数据上传录单系统。本申请适配不同形式的随货同行单,并能识别生成统一的电子单据,自动完成随货同行单的信息录入,大大提高了录入效率。
在本发明的另一个实施例中通过对文本内容进行检测,将同一个文本框中的文本内容划分成多个属性列,使得随货同行单可以智能识别不同格式的随货同行单,并生成统一的电子单据,提高了单据识别的兼容性。
在本发明的另一个实施例中,通过统一表格交点的横坐标或纵坐标,对随货同行单的表格进行倾斜纠正,提高了单据识别的准确度和识别速度。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图说明
图1为常见的药品随货同行单的示意图;
图2为本发明提供的一种药品随货同行单的录单方法的流程图;
图3为本发明提供的一种药品随货同行单的录单方法所获取的原始图像示意图;
图4为本发明提供的一种药品随货同行单的录单方法的二值化图像示意图;
图5为本发明提供的一种药品随货同行单的录单方法去除背景后的示意图;
图6为本发明提供的一种药品随货同行单的录单方法的反相二值化图像示意图;
图7为本发明提供的一种药品随货同行单的录单方法的膨胀运算后图像示意图;
图8为本发明提供的一种药品随货同行单的录单方法的横线图示意图;
图9为本发明提供的一种药品随货同行单的录单方法的竖线图示意图;
图10为本发明提供的一种药品随货同行单的录单方法的表格框线示意图;
图11为本发明提供的一种药品随货同行单的录单方法的交点集合示意图;
图12为本发明提供的一种药品随货同行单的录单方法的部分交点像素集合示意图;
图13为本发明提供的一种药品随货同行单的录单方法的交点坐标示意图;
图14为本发明提供的一种药品随货同行单的录单方法的规范后的交点坐标示意图;
图15为本发明提供的一种药品随货同行单的录单方法中的文字交点坐标示意图;
图16为本发明提供的一种药品随货同行单的录单方法的A和B两区域的表格横线位置示意图;
图17为本发明提供的一种药品随货同行单的录单方法的A区域与B区域在整个表格长度范围内的垂直投影示意图;
图18为产品属性文本框与属性解释文本框数量相等的药品随货同行单示意图;
图19为包含分隔符的具有多个产品属性及产品属性文本框的药品随货同行单示意图;
图20为不包含分隔符的具有多个产品属性及产品属性文本框的药品随货同行单示意图;
图21为产品属性列表中第一个元素为纯数字的药品随货同行单示意图;
图22为产品属性列表中第一个元素为非纯数字的药品随货同行单示意图;
图23为本发明提供的一种药品随货同行单的录单装置的模块示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
针对背景技术中的技术问题,本申请实施例提供一种药品随货同行单的录单方法,通过对药品随货同行单进行表格框线及文字的识别,实现基于表格内文本内容的产品验收及录入,取代了费时费力的人工录入方法并极大的提高了录入效率及录入精确度。
如图2所示,图2为一个示例性的实施例中提供的一种药品随货同行单的录单方法的流程图,具体包括如下步骤:
S201:获取随货同行单的图像。
通过拍照设备或者扫描设备获取随货同行单的原始图像,该拍照设备或者扫描设备的接口连接具有OCR软件的计算机,将该原始图像发送至所连接的计算机进行后续的图像识别及处理。在本实施例中,采用高拍仪获取随货同行单的原始图像,所获取到的图像如图3所示。
在一个优选的实施例中,如果获取到的图片太大会拖慢OCR识别速度,因此需要将图片进行裁剪,去掉背景部分,只保留随货同行单部分,具体包括如下步骤:
对随货同行单原始图像进行灰度化处理,得到灰度图;
将该灰度图进行二值化处理,得到如图4所示的二值图,作为优选,通过二值化算法中的OTSU算法来进行二值化处理;
提取二值化图像中的所有轮廓,并计算所有轮廓的最小外接矩形,确定最大面积的最小外接矩形的轮廓为随货同行单的轮廓,作为优选,通过opencv库里的findContours函数来进行轮廓检测;
提取所述随货同行单轮廓所对应的最小外接矩形内的图像,获取去除背景后的随货同行单图像,作为优选,通过opencv库的透视变换函数warpPerspective来进行图像提取,提取后的随货同行单部分图像如图5所示。
需说明的是,该方法适用于当随货同行单的背景为纯色背景时,例如背景色为黑色、灰色、棕色等。如果随货同行单的背景色为非纯色背景,则可以通过例如手动剪裁等其他方法,获取去除背景后的随货同行单图像。
优选的,在提取二值化图像中的所有轮廓之前,还可对二值图进行开运算,去除二值化图像上孤立的小点和细小的毛刺。
在一个优选的实施例中,在获取随货同行单图像后,还包括去除单据上的印章,具体包括如下步骤:
遍历随货同行单图像内的全部像素点,确认像素点在HSV颜色空间的值在预设阈值范围内的像素点为水印像素点;
修改水印像素点的颜色为预设颜色,预设颜色包括黑色,白色以及背景色,该背景色为在原始图像内出现次数最多的像素颜色。
S202:提取随货同行单图像中的表格框线。
在一个优选的实施例中,提取随货同行单图像中的表格框线包括具体包括如下步骤:
对所述随货同行单图像进行二值化及反相处理,获取如图6所示的第一图像,作为优选,通过opencv库里的自适应二值化算法adaptiveThreshold函数获取第一图像。
对所述第一图像进行膨胀运算加粗所述随货同行单图像中的水平线与竖直线,获取如图7所示的第二图像。
根据所述随货同行单图像的宽度预设第一结构元的像素数据,应用所述第一结构元对所述第二图像进行开运算,获取如图8所示的横线图;在一个具体的例子中,随货同行单图像的大小为3211x 1862,设置第一结构元为宽71个像素,高为1个像素的横向矩形长条。
根据所述随货同行单图像的长度预设第二结构元的像素数据,应用所述第二结构元对所述第二图像进行开运算,获取如图9所示的竖线图;在一个具体的例子中,随货同行单图像的大小为3211x 1862,设置第二结构元为宽1个像素,高为41个像素的竖向矩形长条。
将所述横线图与所述竖线图相加,获取如图10所示的表格框线。
在一个优选的实施例中,还通过将横线图的上边缘和下边缘、竖线图的左边缘和右边缘的预设阈值内的像素值设置为0,从而去除单据的边缘框线。
在一个优选的实施例中,在将所述横线图与所述竖线图相加,获取所述表格框图后,还包括如下步骤:
通过按位与运算得到所述横线图与所述竖线图的交点图,得到所述表格框图的交点集合,作为优选,通过opencv库里的findContours函数提取表格框图的所有轮廓,对所有轮廓逐一计算最小外接矩形,确定最小外接矩形面积最大的轮廓为表格框图的轮廓,此轮廓的最小外接矩形即为表格的最小外接矩形,并去除该最小外接矩形外的所有交点,得到如图11所示的表格交点集合。
计算所述交点集合中心的像素点坐标,并确定其为表格交点坐标;如图12所示,表格交点不是单个的像素点,而是多个像素点的集合,通过逐一计算每个像素点集合中心位置的像素点坐标,确定中心位置的像素点坐标就为真正的表格交点坐标,最终表格交点坐标数据如图13所展示。
根据预设规则,确定位于同一条竖线或横线上的所述表格交点坐标的x或y坐标替换为同一值;一条实际表格线上的所有交点坐标不一定都在严格的水平线或竖直线上,为了便于后续的分析,需要将一条实际表格线上的所有表格交点坐标严格约束在水平线上或者竖直线上;假设一交点坐标用(x,y)表示,一条实际表格竖线上的所有交点坐标的x坐标都用同一个代替值代替,代替值为这些x坐标的平均值或者中位数或者众数,同理,一条实际表格横线上的所有交点坐标的y坐标都用同一个代替值代替,代替值为这些y坐标的平均值或者中位数或者众数,规范后的表格交点坐标数据如图14所展示。
遍历所述表格交点坐标,根据具有同一纵坐标值的所述表格交点确定表格横线,根据具有同一横坐标值的所述表格交点确定表格竖线;
将所述表格横线与所述表格竖线相加,获取所述表格框图。
在一个优选的实施例中,如图15所示,随货同行单表格里的很多文字的横笔画和竖笔画的相交点有可能被误识别为表格交点,竖笔画离表格横线较近时也有可能被误识别出表格交点,因此识别后的表格交点集合存在噪声。去除噪声的方法包括:若某表格竖线上只有一个点,确定该点为噪声,例如图15中的x=292的竖线上只有(292,640)这一个表格交点,则(292,640)该点就是噪声;若表格横线上只有一个表格交点,确定该点为噪声;若表格横线上的所有表格交点都在随货同行单图像的左半边,确认该点为噪声。
S203:根据获取到的所述表格框线,确定所述表格框线中的主要框线,其中,所述主要框线包括表头行和产品行的上下框线,以及表格属性列的左右框线,确定由上至下的第一条和第二条横向的所述主要框线为表头行的上下框线,其余所述横向主要框线为产品行的上下框线,确定纵向的所述主要框线为所述表格属性列的左右框线。
在一个优选实施例中,确定表格框线中的主要框线包括如下步骤:
检测该表格横线或表格竖线上的所述表格交点数量,确认所述表格交点数量高于预设阈值的所述表格横线或表格竖线为所述主要框线。例如,计算全部表格横线的交点数量的平均值,预设每条表格横线的交点数量为该平均值的N倍,预设N的值为(0.3-0.9)区间内的值,优选为0.5,则可确定交点数量不满足预设值的表格横线为非主要框线。
或者,
将该表格横线或表格竖线在预设范围内的二值化图像垂直投影并计算其长度;
若所述表格横线的长度与所述随货同行单图像的宽度的比例超过预设阈值,则确认所述表格横线为所述主要框线;
若所述竖线的长度与所述随货同行单图像的长度的比例超过预设阈值,则确认所述表格竖线为所述主要框线。
例如,将表格横线在预设范围M内的二值化图像垂直投影,通过垂直投影计算横线长度,横线长度与表格宽度的比率若超过某一阈值,优选为0.8,就认为该表格横线为表头行或产品行的上下框线,预设范围M通常取表格的最左侧竖线至最右侧竖线的横向范围,即整个表格宽度范围。选取如图16所示的A与B两区域的表格横线。A区域与B区域在整个表格长度范围的原图与垂直投影如图17所示,A区域的表格横线长度与表格宽度的比率超过80%,A区域的横线即为表头行或产品行的上下框线,B区域的表格横线长度与表格宽度的比率低于80%,B区域的横线不是表头行或产品行的上下框线。
S204:识别所述主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,确定既在所述产品行又在所述属性列中的所述文本为产品属性文本,所述属性解释文本包括常规属性与可变属性,所述常规属性包括以下至少一项:批准文号、通用名、生产厂家、规格,所述可变属性包括以下至少一项:生产日期、有效期、数量、生产批号、单价、产地。
在一个优选实施例中,识别主要框线内的文本,具体包括如下步骤:
将随货同行单图像输入预训练的文本检测模型,检测所述文本框的坐标位置;
根据主要框线坐标位置及文本框坐标位置切割所述文本框;
根据切割后的所述文本框的坐标在随货同行单图像上裁剪文本框图片,并输入预训练的文本识别模型,得到识别后的该文本框内的文本内容。
具体的,处于相同水平线上的两个或多个文本框如果靠得过近,就可能将两个或多个文本框误检测为一个文本框。根据已经识别出的表格的主要框线来对文本框进行切割,例如文本框经过一主要框线中的竖框线,则将该文本框沿该竖框线切割开来。根据切割后文本框的坐标在随货同行单图像上裁剪出长条形的文本框图片,将裁剪出来的全部长条形文本框图片输入文本识别模型,优选为CRNN模型,得到识别后的文本内容。
在一个优选实施例中,识别主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,既在所述产品行又在所述属性列中的所述文本为产品属性文本,具体包括如下步骤:
识别主要框线内的文本,获取文本内容及文本框。
通过将识别后的所述属性解释文本与预储存的产品属性字典内容进行比对,判断所述属性解释文本所包含的产品属性数量,若所述属性解释文本仅包括一个产品属性,则该属性解释文本所对应属性列中的所述产品属性文本即对应该项产品属性。
若所述属性解释文本包括多个产品属性,判断所述产品属性文本框与所述属性解释文本框数量是否相等,若相等,则按所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本;若所述产品属性文本框与所述属性解释文本框数量不相等,则判断所述属性解释文本中是否包含预设的分隔符,如果有,则通过分隔符对所述产品属性文本框进行划分,得到多个产品属性文本,并按照所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本。
在一个具体的例子中,产品属性文本框与属性解释文本框数量相等,按属性解释文本包含的产品属性顺序一一对应产品属性文本。如图18所示的随货同行单中,其中横坐标为2614和2855对应的属性列存在两个产品属性名称:“生产日期”和“有效期”。纵坐标为625和774对应的产品行在该属性列中检测存在两个文本框“2021-08-24”和“2024-07-31”,此时,产品属性名称数量2与文本框数量2相等,因此将“2021-08-24”对应“生产日期”,将“2024-07-31”对应“有效期”。
在一个具体的例子中,属性解释文本包括多个产品属性,产品属性文本框与所述属性解释文本框数量不相等。
若产品属性数量为一个,产品属性文本框数目为多个,则将多个所述文本框里的文字连接成一段文字,对应该产品属性。
产品属性数量为多个,产品属性文本框数量也有多个,则将上述产品属性文本框的文字连接成一段文字,标记为Paragraph。若“规格”在该属性列里,这一段文字Paragraph需要进行下列的预处理:若含“/盒”,则将全部“/盒”替换为“*盒”;若含“/瓶”,则将全部“/瓶”替换为“*瓶”;若含“/袋”,则将全部“/袋”替换为“*袋”;若含“/板”,则将全部“/板”替换为“*板”。同理,“/件”和“/支”都变为“*件”和“*支”。经过预处理的这一段文字代替原来的文字段成为Paragraph。另外,在其他的例子中,若“规格”不在该属性列里,Paragraph不需要被预处理。
如图19所示的随货同行单中,第一个产品行里的第一个属性列里存在两个文本框:“头孢拉定颗粒/0.125g*12袋/盒*400盒/件/某药业股份”和“有限公司/某药业股份有限公司/颗粒剂/阴凉”。该属性列存在“产品名称”、“规格”、“产地”、“生产企业”、“上市许可持有人”、“剂型”和“储运条件”等7个产品属性名称。在对Paragraph进行预处理后,
将Paragraph分割成列表,由于分隔符“/”出现在Paragraph里,则按“/”分割Paragraph,分割后的一段段文字,存储在列表Paragraph_list里,此时,Paragraph_list=[“头孢拉定颗粒”,“0.125g*12袋*盒*400盒*件”,“某药业股份有限公司”,,“某药业股份有限公司”,“颗粒剂”,“阴凉”]。
在另一个例子中,若没有分隔符“/”没有出现在Paragraph里,则将每一个文本框里的文字作为Paragraph_list里的每一个元素。如图20所示,Paragraph=“黄柏胶囊36粒480瓶”,由于Paragraph不包含“/”,但检测到存在三个文本框,则将每个文本框里的文字作为Paragraph_list里的一个元素,此时Paragraph_list=[“黄柏胶囊”、“36粒”、“480瓶”]。
将对应该属性列里的表头行的产品属性名称组成一个产品属性列表attribute_list,检查产品属性列表attribute_list的元素数量和Paragraph_list的元素数量是否相等。如果相等,那就将Paragraph_list的元素与这些产品属性一一按顺序对应。
如果不相等,则就进行下列步骤:
步骤S2041:如果“商品编码”在该产品属性列表attribute_list里,首先判断Paragraph_list第一个元素是否为纯数字:若是纯数字,该元素作为“商品编码”产品属性,然后将该元素从Paragraph_list里剔除出去;若不是纯数字,检测该元素里的第一个非数字的文字,在该元素里,这一个非数字文字前头的所有文字作为“商品编码”产品属性,这一个非数字文字及其后头的所有文字替换在Paragraph_list里的第一个元素。然后将“商品编码”从attribute_list里剔除出去。
在一个具体的例子中,如图21所示,第一个属性列的产品属性列表attribute_list为[“商品编码”,“通用名称”,“规格”,“生产企业”,“生产许可证号”,“产地”,“剂型”,“上市许可持有人”],初步的Paragraph_list为[“2057495”,”阿奇霉素分散片0.25g*6T*2板”,“某药业有限公司”,“中国河北”,“分散片(适应片)”,“某药业有限公司”],由于“商品编码”在该产品属性列表attribute_list里,Paragraph_list第一个元素“2057495”是纯数字,所以“2057495”为该产品的“商品编码”,剔除“2057495”后的Paragraph_list为[”阿奇霉素分散片0.25g*6T*2板”,“某药业有限公司”,“中国河北”,“分散片(适应片)”,“某药业有限公司”],剔除“商品编码”的产品属性列表为[“通用名称”,“规格”,“生产企业”,“生产许可证号”,“产地”,“剂型”,“上市许可持有人”]。
在另一个例子中,如图22所示,其第一个属性列的产品属性列表attribute_list为[“商品编码”,“通用名称”,“规格”,“生产企业”,“生产许可证号”,“产地”,“剂型”,“上市许可持有人”],初步的Paragraph_list为[“2167955盐酸二甲双肌缓释片0.5g*8T*5板”,“某药业有限公司”,“中国河南”,“调释片缓释片,控释片,长效片”],由于“商品编码”在该产品属性列表attribute_list里,Paragraph_list第一个元素“2167955盐酸二甲双肌缓释片0.5g*8T*5板”不是纯数字,检测该元素的第一个非数字文字为“盐”,“盐”前头的所有文字“2167955”作为该产品的“商品编码”,“盐”字及其后头的所有文字(即“盐酸二甲双肌缓释片0.5g*8T*5板”)替换在Paragraph_list里的第一个元素,替换后的Paragraph_list为[“盐酸二甲双肌缓释片0.5g*8T*5板”,“某药业有限公司”,“中国河南”,“调释片缓释片,控释片,长效片”],剔除“商品编码”的产品属性列表attribute_list为[“通用名称”,“规格”,“生产企业”,“生产许可证号”,“产地”,“剂型”,“上市许可持有人”]。
步骤2042:如果“规格”在该产品属性列表attribute_list里,逐一检查Paragraph_list的每个元素是否含有数字,检查到第一个含有数字的元素作为该产品的“规格”产品属性。
步骤2043:如果“生产企业”在该产品属性列表attribute_list里,逐一检查Paragraph_list的每个元素是否含有“公司”二字,检查到第一个含有“公司”二字的元素作为该产品的“生产企业”产品属性。
步骤2044:如果“批准文号”在该产品属性列表attribute_list里,逐一检查Paragraph_list的每个元素是否含有“准”字,检查到第一个含有“准”字的元素作为该产品的“批准文号”产品属性。
步骤2045:检查产品属性列表attribute_list里的第一个元素是不是在【“商品编码”、“规格”、“生产企业”、“批准文号”】里面,若不在,那么产品属性列表attribute_list里的第一个元素对应Paragraph_list的第一个元素。
在一个优选的实施例中,文本识别还包括从随货同行单中获取供货商名称、单据编号和单据页码等信息,即在全部文本识别结果中,确认供货商名称、单据编号和单据页码的所在文本。
具体的,对于确认供货商名称,供货商名称一般都在随货同行单首行位置,所在文本一般都含有”公司“字眼,还可能含有”随货同行“、”销售单“、”签收单“、”出库单”等任一字眼,在确定供货商名称所在文本后,该文本里“公司”二字以前的所有文字即是供货商名称,将供货商名称与供货商数据库里的所有供货商名称计算相似度,找到数据库里最相似的供货商名称及其供货商ID。
对于确认单据编号,单据编号所在文本里可能含有“单号”、”单据编号“、”单据号“、”采购单号“、”销售清单号“、”销售单号“、”销售单ID“、”签收单ID“等任一字眼,在确定单据编号所在文本后,将该文本中的由字母和数字构成的连续文字段提取出来作为单据编号,例如“销售单ID:XSCZK10245”中的由字母和数字构成的连续文字段”XSCZK10245“即是单据编号。
对于确认单据页码,单据页码所在文本里一定含有数字,可能含有“页”、“第”、“共”、“/”等任一字眼,在确定单据页码所在文本后,从该文本中筛选出数字作为页码。例如“第1页,共1页”提取到的单据页码为”1/1“。
S205:提取所述属性解释文本和所述产品属性文本,并根据所述产品属性文本与所述属性解释文本的对应关系,生成电子表单。
S206:确定该常规属性所对应的所述属性列为目标属性列,将所述目标属性列中的产品属性文本与数据库中的产品属性进行比对,获取所述目标属性列中,每个产品行对应的目标产品,并提取该目标产品的ID。
根据属性解释文本中的批准文号、通用名、生产厂家、规格四种常规属性,可以判断该产品行所对应的产品。
在一个优选实施例中,通过识别文本相似度的方式,将随货同行单上某产品的目标产品属性与录单系统里的产品数据库里的产品属性一一计算文本相似度,在录单系统产品数据库里寻找各产品属性文本相似度达到预设要求的产品ID,即认为该产品ID成功对应随货同行单里的某产品。
S207:从所述表单中提取每个产品行中的可变属性的所述产品属性文本,随同所述产品ID上传至录单系统。
属性解释文本中的生产日期、有效期、数量、生产批号、单价、产地等可变属性,随同产品ID传入录单系统。
在一个优选的实施例中,传入录单系统中的数据还包括:供货商名称、单据编号和单据页码。
本申请实施例提供了一种药品随货同行单的录单方法,通过提取随货同行单图像中的表格框线,确定表格框线中的主要框线后,识别主要框线内的文本,并将识别后的文本与表格框线所确定的表头行、产品行和属性列一一对应,生成电子表单;再通过提取属性列中常规属性列的各项属性,与数据库中的产品属性进行比对,确定该产品行对应的产品ID,再提取属性列中可变属性列的各项属性,随同产品ID上传录单系统,至此完成了随货同行单内药品是否与药品数据库中所预存的药品相一致的验证,同时自动将随货同行单的产品数据上传录单系统。本申请适配不同形式的随货同行单,并能识别生成统一的电子单据,自动完成随货同行单的信息录入,大大提高了录入效率。
本申请还提供了一种药品随货同行单的录单装置300,如图23所示,包括:
图像获取模块301,用于获取随货同行单的图像;
表格框线提取模块302,用于提取随货同行单图像中的表格框线;
主要框线确定模块303,用于根据获取到的所述表格框线,确定所述表格框线中的主要框线,其中,所述主要框线包括表头行和产品行的上下框线,以及表格属性列的左右框线,确定由上至下的第一条和第二条横向的所述主要框线为表头行的上下框线,其余所述横向主要框线为产品行的上下框线,确定纵向的所述主要框线为所述表格属性列的左右框线;
文本识别模块304,用于识别所述主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,确定既在所述产品行又在所述属性列中的所述文本为产品属性文本,所述属性解释文本包括常规属性与可变属性,所述常规属性包括以下至少一项:批准文号、通用名、生产厂家、规格,所述可变属性包括以下至少一项:生产日期、有效期、数量、生产批号、单价、产地;
文本提取及表单生成模块305,用于提取所述属性解释文本和所述产品属性文本,并根据所述产品属性文本与所述属性解释文本的对应关系,生成电子表单;
目标产品确定模块306,用于确定该常规属性所对应的所述属性列为目标属性列,将所述目标属性列中的产品属性文本与数据库中的产品属性进行比对,获取所述目标属性列中,每个产品行对应的目标产品,并提取该目标产品的ID;
产品属性录入模块307,用于从所述表单中提取每个产品行中的可变属性的所述产品属性文本,随同所述产品ID上传至录单系统。
在一个示例性的实施例中,所述文本识别模块304包括:
文本内容与文本框获取单元,用于识别主要框线内的文本,获取文本内容及文本框;
产品属性数量确定单元,用于通过将识别后的所述属性解释文本与预储存的产品属性字典内容进行比对,判断所述属性解释文本所包含的产品属性数量,若所述属性解释文本仅包括一个产品属性,则该属性解释文本所对应属性列中的所述产品属性文本即对应该项产品属性;
产品属性对应单元,用于若若所述属性解释文本包括多个产品属性,判断所述产品属性文本框与所述属性解释文本框数量是否相等,若相等,则按所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本。
在一个示例性的实施例中,所述产品属性对应单元还包括:
若所述产品属性文本框与所述属性解释文本框数量不相等,则判断所述属性解释文本中是否包含预设的分隔符,如果有,则通过分隔符对所述产品属性文本框进行划分,得到多个产品属性文本,并按照所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本。
在一个示例性的实施例中,表格框线提取模块302包括:
第一图像获取单元,用于对所述随货同行单图像进行二值化及反相处理,获取第一图像;
第二图像获取单元,用于对所述第一图像进行膨胀运算加粗所述随货同行单图像中的水平线与竖直线,获取第二图像;
横线图获取单元,用于根据所述随货同行单图像的宽度预设第一结构元的像素数据,应用所述第一结构元对所述第二图像进行开运算,获取横线图;
竖线图获取单元,用于根据所述随货同行单图像的长度预设第二结构元的像素数据,应用所述第二结构元对所述第二图像进行开运算,获取竖线图;
表格框线获取单元,用于将所述横线图与所述竖线图相加,获取所述表格框线。
在一个示例性的实施例中,表格框图获取单元还包括:
交点集合获取单元,用于通过按位与运算得到所述横线图与所述竖线图的交点图,得到所述表格框图的交点集合;
交点坐标确定单元,用于计算所述交点集合中心的像素点坐标,并确定其为表格交点坐标;
坐标值替换单元,用于根据预设规则,确定位于同一条竖线或横线上的所述表格交点坐标的x或y坐标替换为同一值;
表格横线与竖线确定单元,用于遍历所述表格交点坐标,根据具有同一纵坐标值的所述表格交点确定表格横线,根据具有同一横坐标值的所述表格交点确定表格竖线;
纠正后表格框线获取单元,用于将所述表格横线与所述表格竖线相加,获取所述表格框线。
在一个示例性的实施例中,主要框线确定模块303包括:
交点数量检测单元,用于检测该表格横线或表格竖线上的所述表格交点数量,确认所述表格交点数量高于预设阈值的所述表格横线或表格竖线为所述主要框线;
垂直投影计算单元,用于将该表格横线或表格竖线在预设范围内的二值化图像垂直投影并计算其长度;若所述表格横线的长度与所述随货同行单图像的宽度的比例超过预设阈值,则确认所述表格横线为所述主要框线;若所述竖线的长度与所述随货同行单图像的长度的比例超过预设阈值,则确认所述表格竖线为所述主要框线。
在一个示例性的实施例中,文本识别模块304还包括:
文本框坐标位置检测单元,用于将随货同行单图像输入预训练的文本检测模型,检测所述文本框的坐标位置;
文本框切割单元,用于根据主要框线坐标位置及文本框坐标位置切割所述文本框;
文本框内容识别单元,用于根据切割后的所述文本框的坐标在随货同行单图像上裁剪文本框图片,并输入预训练的文本识别模型,得到识别后的该文本框内的文本内容。
在一个示例性的实施例中,图像获取模块301还包括:
灰度处理单元,用于对所述随货同行单图像进行灰度化处理,得到灰度图;
二值化处理单元,用于将所述灰度图进行二值化处理,得到二值图;
轮廓提取单元,用于提取二值化图像中的所有轮廓,并计算所有轮廓的最小外接矩形,确定最大面积的最小外接矩形的轮廓为随货同行单的轮廓;
去除背景单元,用于提取所述随货同行单轮廓所对应的最小外接矩形内的图像,获取去除背景后的随货同行单图像。
在一个示例性的实施例中,图像获取模块301还包括:
确认指定像素颜色单元,用于遍历所述随货同行单图像内的全部像素点,确认像素点在HSV颜色空间的值在预设阈值范围内的像素点为水印像素点;
修改指定像素颜色单元,用于修改所述水印像素点的颜色为预设颜色,所述预设颜色包括黑色,白色以及在所述原始图像内出现次数最多的像素颜色。
本申请还提供了一种电子设备,所述电子设备还包括至少一个存储器和至少一个处理器;
存储器可用于存储软件程序、计算机可执行程序以及模块,如本申请实施例任意实施例所述的药品随货同行单的录单方法程序,以及本申请实施例任意实施例所述的药品随货同行单的录单方法对应的程序指令/模块。存储器主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器通过运行存储在存储器中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述任一实施例所记载的药品随货同行单的录单方法。
应当理解的是,本申请实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。
以上所述实施例仅表达了本申请实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请实施例构思的前提下,还可以做出若干变形和改进,这些都属于本申请实施例的保护范围。

Claims (10)

1.一种药品随货同行单的录单方法,其特征在于,包括如下步骤:
获取随货同行单的图像;
提取所述随货同行单图像中的表格框线;
根据获取到的所述表格框线,确定所述表格框线中的主要框线,其中,所述主要框线包括表头行和产品行的上下框线,以及表格属性列的左右框线,确定由上至下的第一条和第二条横向的所述主要框线为表头行的上下框线,其余所述横向主要框线为产品行的上下框线,确定纵向的所述主要框线为所述表格属性列的左右框线;
识别所述主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,确定既在所述产品行又在所述属性列中的所述文本为产品属性文本,所述属性解释文本包括常规属性与可变属性,所述常规属性包括以下至少一项:批准文号、通用名、生产厂家、规格,所述可变属性包括以下至少一项:生产日期、有效期、数量、生产批号、单价、产地;
提取所述属性解释文本和所述产品属性文本,并根据所述产品属性文本与所述属性解释文本的对应关系,生成电子表单;
确定该常规属性所对应的所述属性列为目标属性列,将所述目标属性列中的产品属性文本与数据库中的产品属性进行比对,获取所述目标属性列中,每个产品行对应的目标产品,并提取该目标产品的ID;
从所述表单中提取每个产品行中的可变属性的所述产品属性文本,随同所述产品ID上传至录单系统。
2.根据权利要求1所述的一种药品随货同行单的录单方法,其特征在于,识别主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,既在所述产品行又在所述属性列中的所述文本为产品属性文本,具体包括如下步骤:
识别主要框线内的文本,获取文本内容及文本框;
通过将识别后的所述属性解释文本与预储存的产品属性字典内容进行比对,判断所述属性解释文本所包含的产品属性数量,若所述属性解释文本仅包括一个产品属性,则该属性解释文本所对应属性列中的所述产品属性文本即对应该项产品属性;
若所述属性解释文本包括多个产品属性,判断所述产品属性文本框与所述属性解释文本框数量是否相等,若相等,则按所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本。
3.根据权利要求2所述的一种药品随货同行单的录单方法,其特征在于,还包括:
若所述产品属性文本框与所述属性解释文本框数量不相等,则判断所述属性解释文本中是否包含预设的分隔符,如果有,则通过分隔符对所述产品属性文本框进行划分,得到多个产品属性文本,并按照所述属性解释文本包含的产品属性顺序一一对应所述产品属性文本。
4.根据权利要求3所述的一种药品随货同行单的录单方法,其特征在于,提取随货同行单图像中的表格框线,包括如下方法步骤:
对所述随货同行单图像进行二值化及反相处理,获取第一图像;
对所述第一图像进行膨胀运算加粗所述随货同行单图像中的水平线与竖直线,获取第二图像;
根据所述随货同行单图像的宽度预设第一结构元的像素数据,应用所述第一结构元对所述第二图像进行开运算,获取横线图;
根据所述随货同行单图像的长度预设第二结构元的像素数据,应用所述第二结构元对所述第二图像进行开运算,获取竖线图;
将所述横线图与所述竖线图相加,获取所述表格框图。
5.根据权利要求4所述的一种药品随货同行单的录单方法,其特征在于,将所述横线图与所述竖线图相加,获取所述表格框图后,还包括:
通过按位与运算得到所述横线图与所述竖线图的交点图,得到所述表格框图的交点集合;
计算所述交点集合中心的像素点坐标,并确定其为表格交点坐标;
根据预设规则,确定位于同一条竖线或横线上的所述表格交点坐标的x或y坐标替换为同一值;
遍历所述表格交点坐标,根据具有同一纵坐标值的所述表格交点确定表格横线,根据具有同一横坐标值的所述表格交点确定表格竖线;
将所述表格横线与所述表格竖线相加,获取所述表格框线。
6.据权利要求5所述的一种药品随货同行单的录单方法,其特征在于,确定表格框线中的主要框线,包括:
检测该表格横线或表格竖线上的所述表格交点数量,确认所述表格交点数量高于预设阈值的所述表格横线或表格竖线为所述主要框线;
或者,
将该表格横线或表格竖线在预设范围内的二值化图像垂直投影并计算其长度;
若所述表格横线的长度与所述随货同行单图像的宽度的比例超过预设阈值,则确认所述表格横线为所述主要框线;
若所述竖线的长度与所述随货同行单图像的长度的比例超过预设阈值,则确认所述表格竖线为所述主要框线。
7.根据权利要求6所述的一种药品随货同行单的录单方法,其特征在于,识别主要框线内的文本,具体包括如下步骤:
将随货同行单图像输入预训练的文本检测模型,检测所述文本框的坐标位置;
根据主要框线坐标位置及文本框坐标位置切割所述文本框;
根据切割后的所述文本框的坐标在随货同行单图像上裁剪文本框图片,并输入预训练的文本识别模型,得到识别后的该文本框内的文本内容。
8.根据权利要求1所述的一种药品随货同行单的录单方法,其特征在于,获取随货同行单图像后,还包括:
对所述随货同行单图像进行灰度化处理,得到灰度图;
将所述灰度图进行二值化处理,得到二值图;
提取二值化图像中的所有轮廓,并计算所有轮廓的最小外接矩形,确定最大面积的最小外接矩形的轮廓为随货同行单的轮廓;
提取所述随货同行单轮廓所对应的最小外接矩形内的图像,获取去除背景后的随货同行单图像。
9.根据权利要求1所述的一种药品随货同行单的录单方法,其特征在于,获取随货同行单原始图像后,还包括:
遍历所述随货同行单图像内的全部像素点,确认像素点在HSV颜色空间的值在预设阈值范围内的像素点为水印像素点;
修改所述水印像素点的颜色为预设颜色,所述预设颜色包括以下任一一项:
黑色,白色以及在所述原始图像内出现次数最多的像素颜色。
10.一种药品随货同行单的录单装置,其特征在于,包括:
图像获取模块,用于获取随货同行单的图像;
表格框线提取模块,用于提取随货同行单图像中的表格框线;
主要框线确定模块,用于根据获取到的所述表格框线,确定所述表格框线中的主要框线,其中,所述主要框线包括表头行和产品行的上下框线,以及表格属性列的左右框线,确定由上至下的第一条和第二条横向的所述主要框线为表头行的上下框线,其余所述横向主要框线为产品行的上下框线,确定纵向的所述主要框线为所述表格属性列的左右框线;
文本识别模块,用于识别所述主要框线内的文本,确定既在所述表头行又在所述属性列中的所述文本为该属性列的属性解释文本,确定既在所述产品行又在所述属性列中的所述文本为产品属性文本,所述属性解释文本包括常规属性与可变属性,所述常规属性包括以下至少一项:批准文号、通用名、生产厂家、规格,所述可变属性包括以下至少一项:生产日期、有效期、数量、生产批号、单价、产地;
文本提取及表单生成模块,用于提取所述属性解释文本和所述产品属性文本,并根据所述产品属性文本与所述属性解释文本的对应关系,生成电子表单;
目标产品确定模块,用于确定该常规属性所对应的所述属性列为目标属性列,将所述目标属性列中的产品属性文本与数据库中的产品属性进行比对,获取所述目标属性列中,每个产品行对应的目标产品,并提取该目标产品的ID;
产品属性录入模块,用于从所述表单中提取每个产品行中的可变属性的所述产品属性文本,随同所述产品ID上传至录单系统。
CN202210230994.0A 2022-03-09 2022-03-09 一种药品随货同行单的录单方法及装置 Pending CN114783584A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210230994.0A CN114783584A (zh) 2022-03-09 2022-03-09 一种药品随货同行单的录单方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210230994.0A CN114783584A (zh) 2022-03-09 2022-03-09 一种药品随货同行单的录单方法及装置

Publications (1)

Publication Number Publication Date
CN114783584A true CN114783584A (zh) 2022-07-22

Family

ID=82423968

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210230994.0A Pending CN114783584A (zh) 2022-03-09 2022-03-09 一种药品随货同行单的录单方法及装置

Country Status (1)

Country Link
CN (1) CN114783584A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311301A (zh) * 2023-02-17 2023-06-23 北京感易智能科技有限公司 无线表格识别方法及系统
CN117523590A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种校验生产厂商名称的方法、装置、设备及存储介质
CN117576699A (zh) * 2023-11-06 2024-02-20 华南理工大学 一种基于深度学习的机车工单信息智能识别方法及系统
CN116311301B (zh) * 2023-02-17 2024-06-07 北京感易智能科技有限公司 无线表格识别方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316534A (ja) * 2004-04-27 2005-11-10 A Line Kk 電子商取引システム
CN103440264A (zh) * 2013-08-01 2013-12-11 广东电网公司 电力现场作业表单的实现方法及系统
CN103810245A (zh) * 2013-12-30 2014-05-21 苏州艾隆科技股份有限公司 一种智能产品识别装置和识别方法及智能药房和快速集中发药装置
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质
CN109635633A (zh) * 2018-10-26 2019-04-16 平安科技(深圳)有限公司 电子装置、票据识别方法及存储介质
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN109903210A (zh) * 2019-01-04 2019-06-18 阿里巴巴集团控股有限公司 水印的去除方法、装置和服务器
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN112634065A (zh) * 2020-12-21 2021-04-09 山东众阳健康科技集团有限公司 一种异地就医单据报销的方法及系统
CN112686168A (zh) * 2020-12-30 2021-04-20 北京三快在线科技有限公司 自动录入表单的方法、装置、电子设备及存储介质
CN113240503A (zh) * 2021-04-08 2021-08-10 福建升腾资讯有限公司 一种基于智能设备的报销类发票管理方法、装置和介质
CN113850060A (zh) * 2021-09-30 2021-12-28 中国民航大学 民航文档数据识别录入方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005316534A (ja) * 2004-04-27 2005-11-10 A Line Kk 電子商取引システム
CN103440264A (zh) * 2013-08-01 2013-12-11 广东电网公司 电力现场作业表单的实现方法及系统
CN103810245A (zh) * 2013-12-30 2014-05-21 苏州艾隆科技股份有限公司 一种智能产品识别装置和识别方法及智能药房和快速集中发药装置
CN108121966A (zh) * 2017-12-21 2018-06-05 欧浦智网股份有限公司 一种基于ocr技术的表单自动录入方法、电子设备和存储介质
CN109635633A (zh) * 2018-10-26 2019-04-16 平安科技(深圳)有限公司 电子装置、票据识别方法及存储介质
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN109903210A (zh) * 2019-01-04 2019-06-18 阿里巴巴集团控股有限公司 水印的去除方法、装置和服务器
CN110390269A (zh) * 2019-06-26 2019-10-29 平安科技(深圳)有限公司 Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN112634065A (zh) * 2020-12-21 2021-04-09 山东众阳健康科技集团有限公司 一种异地就医单据报销的方法及系统
CN112686168A (zh) * 2020-12-30 2021-04-20 北京三快在线科技有限公司 自动录入表单的方法、装置、电子设备及存储介质
CN113240503A (zh) * 2021-04-08 2021-08-10 福建升腾资讯有限公司 一种基于智能设备的报销类发票管理方法、装置和介质
CN113850060A (zh) * 2021-09-30 2021-12-28 中国民航大学 民航文档数据识别录入方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116311301A (zh) * 2023-02-17 2023-06-23 北京感易智能科技有限公司 无线表格识别方法及系统
CN116311301B (zh) * 2023-02-17 2024-06-07 北京感易智能科技有限公司 无线表格识别方法及系统
CN117576699A (zh) * 2023-11-06 2024-02-20 华南理工大学 一种基于深度学习的机车工单信息智能识别方法及系统
CN117523590A (zh) * 2023-11-10 2024-02-06 广州方舟信息科技有限公司 一种校验生产厂商名称的方法、装置、设备及存储介质
CN117523590B (zh) * 2023-11-10 2024-05-28 广州方舟信息科技有限公司 一种校验生产厂商名称的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108416403B (zh) 商品与标签的自动关联方法、系统、设备及存储介质
US10467494B2 (en) Method and system for container code recognition
CN114783584A (zh) 一种药品随货同行单的录单方法及装置
CN107403128B (zh) 一种物品识别方法及装置
US11017230B2 (en) Systems and methods for depicting vehicle information in augmented reality
CN109685780B (zh) 一种基于卷积神经网络的零售商品识别方法
KR101769918B1 (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
US20140268250A1 (en) Systems and methods for receipt-based mobile image capture
US11580762B2 (en) Training a card type classifier with simulated card images
WO2020071558A1 (ja) 帳票レイアウト解析装置、その解析プログラムおよびその解析方法
JP2019045909A (ja) 画像認識システム
CN116524527A (zh) 一种表格图像文本识别方法及系统
CN112308059A (zh) 用于电子商务的商品信息翻译方法、系统和可读存储介质
CN112966681B (zh) 商品拍照智能识别建档检索的方法、设备及存储介质
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN114005126A (zh) 表格重构方法、装置、计算机设备及可读存储介质
JP7449505B2 (ja) 情報処理システム
JP2019219901A (ja) 情報処理システム
KR20180126352A (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
CN110889365A (zh) 一种标签信息获取方法及装置
CN110689005A (zh) 一种基于深度学习融合位置和形状信息的商品识别方法
CN115587769A (zh) 商品缺货状态的检测方法、装置、计算机设备及存储介质
JP7343115B1 (ja) 情報処理システム
WO2023171132A1 (ja) 情報処理システム
Yue Automated receipt image identification cropping and parsing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220722