CN112348027A - 药物单的识别方法和识别装置 - Google Patents

药物单的识别方法和识别装置 Download PDF

Info

Publication number
CN112348027A
CN112348027A CN202011241037.5A CN202011241037A CN112348027A CN 112348027 A CN112348027 A CN 112348027A CN 202011241037 A CN202011241037 A CN 202011241037A CN 112348027 A CN112348027 A CN 112348027A
Authority
CN
China
Prior art keywords
character
block
text
blocks
anchor point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011241037.5A
Other languages
English (en)
Other versions
CN112348027B (zh
Inventor
杨威
孙中雨
毛琇
罗勇
胡杰文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Taimei Medical Technology Co Ltd
Original Assignee
Zhejiang Taimei Medical Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Taimei Medical Technology Co Ltd filed Critical Zhejiang Taimei Medical Technology Co Ltd
Priority to CN202011241037.5A priority Critical patent/CN112348027B/zh
Publication of CN112348027A publication Critical patent/CN112348027A/zh
Application granted granted Critical
Publication of CN112348027B publication Critical patent/CN112348027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及一种药物单的识别方法,包括:接收药物单图像;采用光学文本识别技术识别所述药物单图像,从所述药物单图像中提取多个文字块,所述文字块的信息包括所述文字块的内容和坐标;根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系;比较所述文字块的内容和药物名称数据库中的药物名称,获得候选药物名称文字块;根据所述文字块的相对位置关系确定所述候选药物名称文字块右侧的第一文字块组,若所述第一文字块组中包括药物批号文字块,则判断所述候选药物名称文字块为正式药物名称文字块;以及对所述正式药物名称文字块进行标准化处理,将所述正式药物名称文字块的内容转换为标准药物名称。

Description

药物单的识别方法和识别装置
技术领域
本发明主要涉及临床医学及试验领域,具体地涉及一种药物单的识别方法和识别装置。
背景技术
对于大规模的临床试验来说,为了招募足够多的受试者,往往需要在多个临床研究中心执行,再对多个中心所获得的数据进行统一分析。随着互联网技术的飞速发展,可以在多个中心通过互联网或移动互联网进行受试者信息的登记、数据记录等过程,并在临床试验管理系统中对这些数据进行统一管理和分析。在临床试验研究中往往涉及到药物的运用,在随访过程中,临床研究协调者(CRC,Clinical Research Coordinator)对不同中心进行药物登记,对不同的受试者进行药物发放和回收。传统的药物登记方法是将药物单的内容手动输入到临床试验管理系统中的药物登记表中,操作繁琐且易出错,并且,不同中心获取药物的途径不同,厂商不同,药物名称不统一,不利于后期的药物使用情况统计。
发明内容
本发明所要解决的技术问题是提供一种标准化的临床药物单识别方法和装置。
本发明为解决上述技术问题而采用的技术方案是一种药物单的识别方法,其特征在于,包括:接收药物单图像;采用光学文本识别技术识别所述药物单图像,从所述药物单图像中提取多个文字块,所述文字块的信息包括所述文字块的内容和坐标;根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系;比较所述文字块的内容和药物名称数据库中的药物名称,获得候选药物名称文字块;根据所述文字块的相对位置关系确定所述候选药物名称文字块右侧的第一文字块组,若所述第一文字块组中包括药物批号文字块,则判断所述候选药物名称文字块为正式药物名称文字块;以及对所述正式药物名称文字块进行标准化处理,将所述正式药物名称文字块的内容转换为标准药物名称。
在本发明的一实施例中,还包括:将所述标准药物名称和所述药物批号文字块的内容导入药物登记表中。
在本发明的一实施例中,根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系的步骤包括:生成文字块集合,所述文字块集合中包括所有文字块的坐标;根据每个文字块的纵坐标排序,得到所有文字块的有序列表;以及在所述有序列表中按照顺序处理每个所述文字块,得到每个文字块的上、下、左、右四个方向的相邻文字块。
在本发明的一实施例中,在所述有序列表中按照顺序处理每个所述文字块的步骤包括:步骤S31:以所述有序列表中的第一个文字块作为第一锚点;步骤S32:在所述有序列表中搜索所述第一锚点右侧的文字块,以所述第一锚点右侧的文字块为第二锚点,并将搜索结果记录在所述第一锚点的数据结构中;步骤S33:在所述文字块集合中搜索与所述第二锚点上下相邻的文字块,并将搜索结果记录在所述第二锚点的数据结构中;步骤S34:在所述有序列表中搜索所述第二锚点右侧的文字块,若有则删除所述第二锚点,并将所述第二锚点右侧的文字块作为新的第二锚点,重复执行步骤S33-S34,直到所述第二锚点右侧没有文字块;步骤S35:在所述有序列表中搜索所述第一锚点左侧的文字块,以所述第一锚点左侧的文字块为第三锚点,并将搜索结果记录在所述第一锚点的数据结构中;步骤S36:在所述文字块集合中搜索与所述第三锚点上下相邻的文字块,并将搜索结果记录在所述第三锚点的数据结构中;步骤S37:在所述有序列表中搜索所述第三锚点左侧的文字块,若有则删除所述第三锚点,并将所述第三锚点左侧的文字块作为新的第三锚点,重复执行步骤S36-S37,直到所述第三锚点左侧没有文字块;步骤S38:在所述有序列表中删除所述第一锚点、第二锚点和第三锚点;以及步骤S39:重复执行步骤S31-38,直到所述有序列表为空。
在本发明的一实施例中,所述文字块的数据结构中包括记录与所述文字块在上、下、左、右四个方向的相邻文字块的字段。
在本发明的一实施例中,比较所述文字块的内容和药物名称数据库中的药物名称的步骤包括:将所述药物名称数据库中的药物名称拆分成长度相等的第一字段;
将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段;以及
比较所述第一字段和第二字段。
如权利要求6所述的识别方法,其特征在于,采用2-gram方法对所述药物名称数据库中的药物名称和所述文字块进行拆分。
如权利要求1所述的识别方法,其特征在于,对所述正式药物名称文字块进行标准化处理的步骤包括:
根据下面的公式计算匹配分match_score:
match_score=1-(max_len-cross_distance(str1,str2)+Lev_distance(str1,str2))/(max_len*2),
其中,str1是所述正式药物名称文字块的内容,str2是标准药物名称术语库中的标准术语,max_len是str1和str2中的长度的最大值,cross_distance(str1,str2)指str1的字符集合和str2的字符集合的交集的元素个数,Lev_distance(str1,str2)指str1和str2的莱文斯坦距离。
本发明为解决上述技术问题还提出一种药物单的识别装置,包括:存储器,用于存储可由处理器执行的指令;处理器,用于执行所述指令以实现如上所述的识别方法。
本发明为解决上述技术问题还提出一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如上所述的识别方法。
本发明从药物单图像中识别出药物名称文字块和药物批号文字块,根据标准术语数据库将药物名称文字块的内容转换为符合标准的标准药物名称,对来自不同来源的不同药物单的内容和格式进行了标准化,以便于后续的统计分析;并且可以将所识别到文字块的内容自动导入到临床试验管理系统中的药物登记表中,大大的节省了人力,提高了临床试验的工作效率。
附图说明
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明,其中:
图1是本发明一实施例的药物单的识别方法的示例性流程图;
图2是本发明一实施例的药物单的识别方法中的药物单图像的示意图;
图3A-3C是本发明一实施例的药物单的识别方法中计算文字块的相对位置关系的过程示意图;
图4A和4B是本发明一实施例的药物单的识别方法中的搜索相邻文字块的示意图;
图5是本发明一实施例的药物单的识别方法中对药物项名称进行拆分的示意图;
图6是本发明一实施例中的药物登记表的示意图。
具体实施方式
为让本发明的上述目的、特征和优点能更明显易懂,以下结合附图对本发明的具体实施方式作详细说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其它不同于在此描述的其它方式来实施,因此本发明不受下面公开的具体实施例的限制。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各种步骤。同时,或将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是本发明一实施例的药物单的识别方法的示例性流程图。参考图1所示,该实施例的药物单的识别方法包括以下步骤:
步骤S110:接收药物单图像;
步骤S120:采用光学文本识别技术识别药物单图像,从药物单图像中提取多个文字块的信息,文字块的信息包括文字块的内容和坐标;
步骤S130:根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系;
步骤S140:比较文字块的内容和药物名称数据库中的药物名称,获得候选药物名称文字块;
步骤S150:根据文字块的相对位置关系确定候选药物名称文字块右侧的第一文字块组,若第一文字块组中包括药物批号文字块,则判断候选药物名称文字块为正式药物名称文字块;以及
步骤S160:对正式药物名称文字块进行标准化处理,将正式药物名称文字块的内容转换为标准药物名称。
以下对上述步骤逐一进行说明。
本实施例的药物单的识别方法在步骤S110中接收药物单图像。本发明对该药物单图像的格式、参数等不做限制。药物单图像可以是照片或任意格式的图片,包括但不限于bmp,jpg,png,tif,gif,pcx,tga,exif,fpx,svg,psd,cdr,pcd,dxf,ufo,eps,ai,raw,WMF,webp等。药物单图像的参数可以包括分辨率、大小、色度、亮度等。本发明对于药物单的类型不做限制,该药物单可以是来自临床试验研究过程的任意药物单。该药物单中必须包含药物名称和药物批号的信息,还可以包括药物剂量、包装规格、包装单位、有效期等中的一种及其任意组合。
本发明的药物单的识别方法可以用于临床试验的过程中,从其上游的流程接收药物单图像,并将经过本发明的识别方法进行电子化和标准化处理的药物单内容传递到下游的流程中。本发明对于上游流程和下游流程的具体内容不做限制。
本实施例的药物单的识别方法在步骤S120中采用光学文本识别技术(OpticalCharacter Recognition,OCR)识别药物单图像。本发明采用OCR技术从步骤110中所接收到的药物单图像中提取到的基本单元是文字块。每个文字块的信息包括该文字块的内容和坐标。
需要说明,文字块的内容可以包括文本、数字、符号或特殊字符。文本包括中文、英文等计算机系统可以识别的语言种类。在药物单中,药物名称中通常包括文本。药物批号通常是数字,也可以包括一些特殊字符,例如:药物批号为“980113-12”,其中“980113”表示该药品的生产日期是1998年1月13日,12表示其分号,由生产者赋予该分号特殊的含义。其中的短横杠“-”是一种特殊字符。再例如,药物批号为6位数字“100123”,表示生产日期是2010年1月23日;药物批号为8位数字“20120506”,表示生产日期是2012年5月6日。根据OCR识别技术可以将数字、文本、特殊字符等区别开来。
图2是本发明一实施例的药物单的识别方法中的药物单图像的示意图。图2示出了某药物单图像的一部分,而不是全部。可以理解,本发明的识别方法可以用于识别药物单的部分或全部。参考图2所示,该药物单图像200中包括4行*5列共20个文字块,图中用实线方框表示所识别到的文字块的边框,该实线方框并不是药物单图像200中的图像。
本发明根据OCR方法识别到的文字块的信息中包括该文字块中的具体显示内容,也包括该文字块在该药物单图像200中的坐标位置。参考图2所示,以该图像的左上角为原点O建立直角坐标系,x轴为向右延伸的横轴,y轴为向下延伸的纵轴。以文字块211为例,该文字块211在该药物单图像200中处于最左上的位置。该文字块211的内容是“药物名称”,其坐标中至少包括包围该文字块211的长方形的左上角和右下角两个点的坐标。文字块211的坐标可以是包围该文字块211的长方形上的每个点的坐标。例如,可以用该长方形的四个顶点坐标代表该文字块211的坐标。在对文字块进行处理时,可以根据实际的计算需求选取需要的坐标。
从药物单中所提取到的文字块可以包括多种类型,例如标题行、内容行等。图2中的文字块211、212、213、214属于药物单中的标题行,其余行都是内容行。
药物单图像200中所显示的文字内容不同、大小也不同,相应地所获得的文字块的大小和内容也不同,文字块的大小可以从根据其坐标来反映。例如该文字块的顶边和底边之间的距离为该文字块的高度,左边到右边的距离为该文字块的宽度。
本实施例的药物单的识别方法在步骤S130根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系。根据OCR方法获得了多个文字块的信息,其中包括每个文字块的坐标位置。但是该信息并不能直接表示各个文字块直接的位置关系。本步骤的目的是将所获得的多个文字块采用图数据结构进行重新组织,使得后续可以更加快速的找到与某个文字块相邻的其他文字块,从而确定该某个文字块在所有文字块中的位置。
图3A-3C是本发明一实施例的药物单的识别方法中计算文字块的相对位置关系的过程示意图。参考图3A-3C所示,在该实施例中,根据多个文字块的坐标计算每个文字块与其周围的其他文字块的相对位置关系的步骤包括:
步骤S131:生成文字块集合,文字块集合中包括所有文字块的坐标。
本步骤是将经过OCR方法获得的多个文字块的信息中的坐标的集合包含在一个文字块集合中,以备后续步骤使用。
参考图3A所示,其中在虚线框的范围内包括多个矩形框301,每个矩形框301表示采用OCR方法从药物单图像所获得的一个文字块。显然,图3A所示的多个矩形框301的排列是杂乱无章的,并不能直接从OCR方法的结果得到每个文字块之间的相对位置关系。
步骤S132:根据每个文字块的纵坐标排序,得到所有文字块的有序列表。
图4A和4B是本发明一实施例的药物单的识别方法中的搜索相邻文字块的示意图。参考图4A所示,其中示出了文字块411、412。该文字块411的编号为1,文字块412的编号为2。在图4A所示的实施例中,用文字块的边作为该文字块的坐标。文字块411和文字块412的顶边分别记为Top1、Top2,底边分别记为Bottom1、Bottom2,左边分别记位Left1、Left2,右边分别记位Right1、Right2。文字块处于图4A所示的直角坐标系中,x轴为横轴,y轴为纵轴。
在步骤S132中,根据每个文字块的纵坐标y进行排序,可以使纵坐标y相近的文字块相互靠近。在一些实施例中,按照纵坐标y的升序来排序,在该有序列表中的第一个文字块是药物单图像中处于最左上的文字块。在其他的实施例中,可以按照纵坐标y的降序来排序。
图3B示出了一种经过排序之后的示例。有序列表中可以按照顺序依次排列文字块组310、320、330。
步骤S133:在有序列表中按照顺序处理每个文字块,得到每个文字块的上、下、左、右四个方向的相邻文字块。
在一些实施例中,在有序列表中按照顺序处理每个文字块的步骤包括:
步骤S31:以有序列表中的第一个文字块作为第一锚点;
参考图4A所示,以文字块411为第一锚点。
步骤S32:在有序列表中搜索第一锚点右侧的文字块,以该第一锚点右侧的文字块为第二锚点,并将搜索结果记录在第一锚点的数据结构中。
参考图4A所示,编号为2的文字块412用于代表文字块集合中除第一锚点411之外的其他文字块。文字块412的纵坐标范围与第一锚点411的纵坐标范围重合的条件公式为:
Len(Top1,Bottom1)+Len(Top2,Bottom2)>Max(Len(Top1,Bottom2),Len(Top2,Bottom1)) (1)
该条件公式中,Len(Top1,Bottom1)表示顶边Top1到底边Bottom1之间的距离,依此类推;Max(Len(Top1,Bottom2),Len(Top2,Bottom1))指Len(Top1,Bottom2)和Len(Top2,Bottom1)之中的较大者。
若满足上述条件公式(1),则表示文字块2和文字块1在同一行。
在经过条件公式(1)的判断之后,再通过条件公式(2)进行判断:
Left2.x>Right1.x (2)
条件公式(2)表示文字块2的左边的x坐标大于文字块1的右边的x坐标。
若一个文字块同时满足条件公式(1)和(2),则表示该文字块是处于锚点右侧相邻的文字块,将该文字块记录在锚点的数据结构中。
对于一个文字块2来说,当条件公知(1)和(2)都满足时,将该文字块2加入待选集合{Candidate}。
对于包括多个文字块2的情况下,取距离文字块1距离最近的一个文字块2作为第一锚点411右侧的文字块。可以根据下面的公式(3):
Min(Candidate1.Left.x,Candidate2.Left.x,Candidate3.Left.x,...) (3)
即求出左边的x坐标最小的文字块,该文字块是第一锚点411右侧的相邻文字块。
类似地,可以搜索第一锚点左侧的相邻文字块。
步骤S33:在文字块集合中搜索与第二锚点上下相邻的文字块,并将搜索结果记录在第二锚点的数据结构中;本步骤在文字块集合中执行,而不是前面所述的有序列表中。
参考图4B所示,其中示出了第二锚点421和位于其上侧的一个文字块422。根据图4B说明如何寻找第二锚点421上方与其相邻的文字块。文字块422用于代表所有位于第二锚点上方的文字块。
首先求所有跟第二锚点421的文字块的宽度坐标范围上有重合的文字块,使第二锚点421的编号为1,文字块422的编号为2。则重合条件为条件公式(4):
Len(Left1,Right1)+Len(Left2,Right2)>Max(Len(Left1,Right2),Len(Left2,Right1)) (4)
若满足上述条件公式(4),则表示文字块2和文字块1在同一列。
在经过条件公式(4)的判断之后,再通过条件公式(5)进行判断:
Top1.y>Bottom2.y (5)
条件公式(5)表示文字块1的顶边的y坐标大于文字块2的底边的y坐标,表示文字块1在文字块2的下方。
若一个文字块同时满足条件公式(4)和(5),则表示该文字块是处于第二锚点上方相邻的文字块,将该文字块记录在第二锚点的数据结构中。
对于一个文字块2来说,当条件公知(4)和(5)都满足时,将该文字块2加入待选集合{Candidate}。
对于包括多个文字块2的情况下,取距离文字块1距离最近的一个文字块2作为第二锚点421上方的文字块。可以根据下面的公式(6):Max(Candidate1.Bottom.y,Candidate2.Bottom.y,Candidate3.Bottom.y,...) (6)
即求出底边的y坐标最大的文字块,该文字块是第二锚点421上方的相邻文字块。
类似地,可以搜索第二锚点下方的相邻文字块。
步骤S34:在有序列表中搜索第二锚点右侧的文字块,若有则删除第二锚点,并将第二锚点右侧的文字块作为新的第二锚点,重复执行步骤S33-S34,直到第二锚点右侧没有文字块。
根据本步骤可以找到所有位于第一锚点右侧的文字块,并将搜索结果记录在对应的文字块的数据结构中。
步骤S35:在有序列表中搜索第一锚点左侧的文字块,以第一锚点左侧的文字块为第三锚点,并将搜索结果记录在第一锚点的数据结构中;
本步骤可以参考步骤S32,将其中和右侧相关的部分适应性的修改为适于搜索第一锚点左侧的文字块。
步骤S36:在文字块集合中搜索与第三锚点上下相邻的文字块,并将搜索结果记录在第三锚点的数据结构中;
本步骤与步骤S33类似,可参考相关说明。
步骤S37:在有序列表中搜索第三锚点左侧的文字块,若有则删除第三锚点,并将第三锚点左侧的文字块作为新的第三锚点,重复执行步骤S36-S37,直到第三锚点左侧没有文字块;
步骤S38:在有序列表中删除第一锚点、第二锚点和第三锚点;以及
步骤S39:重复执行步骤S31-38,直到有序列表为空。
经过上述步骤,有序列表中的文字块被逐个按顺序删除,直到最后为空,最终可以获得文字块集合中的每一个文字块的相对位置。
图3C示出了根据上述方法所得到的结果,其中用箭头表示每一个文字块都确定与其相邻的其他文字块。
在一些实施例中,每个文字块的数据结构中包括记录与该文字块在上、下、左、右四个方向的相邻文字块的字段。
可以理解,并不是每个文字块都完全包括四个相邻文字块。例如图3C中的文字块311,其仅包括一个右侧相邻文字块312和一个下侧相邻文字块331。
可以理解,如果该文字块在某个方向上没有相邻的文字块,例如最左上的文字块只有右侧和下侧的相邻文字块,则其左侧和上侧的相邻文字块记录为空。
本实施例的药物单的录入方法在步骤S140比较文字块的内容和药物名称数据库中的药物名称,获得候选药物名称文字块。其目的在于判断文字块的内容是否是药物名称。
在一些实施例中,步骤S140进一步地包括以下步骤:
步骤S141:将药物名称数据库中的药物名称拆分成长度相等的第一字段;
步骤S142:将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段。
步骤S143:比较所述第一字段和第二字段。
本发明对于第一字段和第二字段的长度不做限制,可以是2或3个字符等。
在一些实施例中,采用2-gram方法执行步骤S141和S142中的拆分步骤。
图5是本发明一实施例的药物单的识别方法中对药物名称进行拆分的示意图。参考图5所示,药物名称数据库510中包括了很多药物名称,例如“阿莫西林胶囊”等。本发明所接收到的药物单图像中所包括的药物名称有可能与药物名称数据库510中的标准药物名称不符,如果将整个标准药物名称与药物单图像中的文字内容进行比较,有可能出现漏误。由于药物名称的长度不统一,有长有短,如果不统一长度,在将标准药物名称与文字块的内容进行比较时耗费的时间也较长。
参考图5所示,将药物名称数据库510中的标准药物名称拆分成长度相等的药物名称数据,在该实施例中,采用2-gram方法对药物名称数据库510中的标准药物名称进行拆分,获得了长度为2的多个药物名称数据。如图5中的药物名称数据集合520中包括从“阿莫西林胶囊”获得的“阿莫”、“莫西”、“西林”、“林胶”、“胶囊”等药物名称数据。
同理,对所接收到的药物单图像200中的文字块的内容进行拆分。举例说明:以图2中的文字块221为例,该文字块221的内容是“阿莫西林胶囊”,采用2-gram方法对文字块221的内容进行拆分,得到拆分后的第二字段的集合C:
C={阿莫,莫西,西林,林胶,胶囊}
参考图5所示,经过拆分的药物名称数据集合520为第一字段的集合DC。
统计集合C中的第二字段和集合DC中的第一字段的匹配个数,记为match(C,DC)。
计算第一字段和第二字段的置信度confidence:
confidence=match(C,DC)/count(C)
其中,count(C)指集合C中包含第二字段的数目。
将置信度confidence和经验阈值threshold做比较,若confidence>threshold判定为疑似药物名称,若confidence<threshold判定为非疑似药物名称。
若通过上述判断之后,文字块中的内容为疑似药物名称,则将该文字块作为候选药物名称文字块。上述的匹配方法属于一种模糊匹配方法。
本实施例的药物单的识别方法在步骤S150根据文字块的相对位置关系确定候选药物名称文字块右侧的第一文字块组,若第一文字块组中包括药物批号文字块,则判断候选药物名称文字块为正式药物名称文字块。药物名称和药物批号是需要从药物单中提取的必备项。
在步骤S150中利用在步骤S130所获得的每个文字块的相对位置关系,可以找到候选药物名称文字块右侧的第一文字块组,该第一文字块组指位于候选药物名称文字块右侧的所有文字块。参考图2所示,在文字块221右侧的第一文字块组包括文字块222、223、224、225。其中,文字块222是药物批号文字块,其中仅包括数字内容。
在本发明的实施例中,若候选药物名称文字块右侧包括一个药物批号文字块,则可以确认该候选药物名称文字块是药物名称,可以成为正式药物名称文字块。参考图2所示,由于文字块221右侧的文字块222是药物批号文字块,因此文字块221在步骤S150中成为正式药物名称文字块。
在一些实施例中,本发明的药物单的识别方法还包括比较文字块的内容和特殊文字数据库。
在一些实施例中,特殊文字数据库中包括作为药物批号文本块的内容的特殊文字,如上所述的“-”等。因此,比较文字块的内容和特殊文字数据库,判断所述文字块是药物批号文字块。
在一些实施例中,比较文字块的内容和特殊文字数据库的方法是绝对匹配方法,即当文字块的内容等于特殊文字数据库中的某一特殊文字时,则判定该文字块的内容是该特殊文字。
本实施例的药物单的识别方法在步骤S160对正式药物名称文字块进行标准化处理,将正式药物名称文字块的内容转换为标准药物名称。
对于一项临床研究来说,可能从不同的医院采集很多数据。由于不同的医院所采购的药物来源不同、生产厂商不同等,造成药物单上的药物名称等不统一,对后续的统计和分析带来了新的问题。本发明针对该技术问题,对从药物单图像中所获得的药物名称进行标准化处理。具体地,本发明建立了一个标准药物名称术语库,将正式药物名称文字块的内容与该标准药物名称术语库中的标准术语进行匹配度计算,得到匹配分。
在一实施例中,采用如下地匹配方法:
步骤S161:算法入口函数记为Lev_distance(str1,str2),该算法入口函数根据莱文斯坦距离(Levenshtein)算法计算str1和str2之间的距离。其中,str1表示正式药物名称文字块的内容,str2是标准药物名称术语库中的标准术语。
步骤S162:定义字符串字符交集函数,记为交集函数cross_distance(str1,str2),该交集函数返回构成str1的字符集合和构成str2的字符集合的交集的元素个数,例如
cross_distance(‘abc’,‘bcd’)
len({‘a’,‘b’,‘c’}∩{‘b’,‘c’,‘d’})=len({‘b’,‘c’})=2
步骤S163:取str1和str2的长度的最大值,max_len=max(len(str1),len(str2));
步骤S164:计算str1和str2的匹配分match_score:
match_score=1-(max_len-cross_distance(str1,str2)+Lev_distance(str1,str2))/(max_len*2)
将正式药物名称文字块中的标准术语都作为str2和str1进行比较,取匹配分match_score最大的str2为与str1匹配的标准术语。如果匹配分为1,表示完全匹配,则该匹配结果为确定结果;如果匹配分小于1,表示部分匹配,则该匹配结果为非确定结果。无论匹配结果确定与否,都可以传递给下游流程,由下游流程根据自身的设置来使用。
在上述的匹配方法中,str1指正式药物名称文字块中的整个字符或字符串。
通过步骤S160,可以将本发明所识别到的正式药物名称文字块的内容转换为标准药物名称。
在一些实施例中,本发明的识别方法还对药物批号文字块进行标准化处理,使药物批号文字块中的药物批号的格式统一。例如将6位数和8位数的药物批号统一转换为8位数,以便于后续的自动化处理。
在一些实施例中,本发明的识别方法还包括:
步骤S170:将标准药物名称和药物批号文字块的内容导入药物登记表中。
图6是本发明一实施例中的药物登记表的示意图。该药物登记表是包括在临床试验管理系统中的一种显示页面。参考图6所示,该药物登记表600中用虚线框框出了标题列610,其中列出了该药物登记表600所要包含内容的标题,如药物名称、药物批号等。其中用“*”表示必填项。在传统模式下,由CRC将药物单的内容手工输入到该药物登记表600的输入框中。根据本发明的实施例,经过前面的步骤S110-S160从药物单图像中获得了文字块的内容之后,则在步骤S170将这些内容导入到药物登记表中相应的位置。例如将图2中的文字块221的标准化的标准药物名称填入到图6中输入框621中,将文字块222的标准化的药物批号填入到输入框622中。这样可以实现对药物登记表的自动填写。
需要说明,图6所示仅为示例,不用限制药物登记表的具体内容和排版方式。可以根据临床试验不同阶段的需要设计药物登记表的具体内容和排版方式。
根据本发明的药物单的识别方法,可以自动获取药物单图像中的内容,并且将药物单图像中的药物名称等内容转换为标准格式,并将药物但图像中的内容自动导入到药物登记表中,大大的节省了人力,提高了工作效率,使临床试验中所获得的药物单相关数据可以更加方便高效地应用于临床试验研究。
本发明还包括一种药物单的识别装置,包括存储器和处理器。该存储器用于存储可由处理器执行的指令;该处理器用于执行该指令以实现如前文所述的药物单的识别方法。
本发明还包括一种存储有计算机程序代码的计算机可读介质,该计算机程序代码在由处理器执行时实现如前文所述的药物单的识别方法。
药物单的识别方法实施为计算机程序时,也可以存储在计算机可读存储介质中作为制品。例如,计算机可读存储介质可以包括但不限于磁存储设备(例如,硬盘、软盘、磁条)、光盘(例如,压缩盘(CD)、数字多功能盘(DVD))、智能卡和闪存设备(例如,电可擦除可编程只读存储器(EPROM)、卡、棒、键驱动)。此外,本文描述的各种存储介质能代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可以包括但不限于能存储、包含和/或承载代码和/或指令和/或数据的无线信道和各种其它介质(和/或存储介质)。
应该理解,上文所描述的实施例仅是示意。本文描述的实施例可在硬件、软件、固件、中间件、微码或者其任意组合中实现。对于硬件实现,处理单元可以在一个或者多个特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器和/或设计为执行本文所述功能的其它电子单元或者其结合内实现。
虽然本发明已参照当前的具体实施例来描述,但是本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明,在没有脱离本发明精神的情况下还可作出各种等效的变化或替换,因此,只要在本发明的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims (10)

1.一种药物单的识别方法,其特征在于,包括:
接收药物单图像;
采用光学文本识别技术识别所述药物单图像,从所述药物单图像中提取多个文字块,所述文字块的信息包括所述文字块的内容和坐标;
根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系;
比较所述文字块的内容和药物名称数据库中的药物名称,获得候选药物名称文字块;
根据所述文字块的相对位置关系确定所述候选药物名称文字块右侧的第一文字块组,若所述第一文字块组中包括药物批号文字块,则判断所述候选药物名称文字块为正式药物名称文字块;以及
对所述正式药物名称文字块进行标准化处理,将所述正式药物名称文字块的内容转换为标准药物名称。
2.如权利要求1所述的识别方法,其特征在于,还包括:将所述标准药物名称和所述药物批号文字块的内容导入药物登记表中。
3.如权利要求1所述的识别方法,其特征在于,根据所述多个文字块的坐标计算每个所述文字块与其周围的其他文字块的相对位置关系的步骤包括:
生成文字块集合,所述文字块集合中包括所有文字块的坐标;
根据每个文字块的纵坐标排序,得到所有文字块的有序列表;以及
在所述有序列表中按照顺序处理每个所述文字块,得到每个文字块的上、下、左、右四个方向的相邻文字块。
4.如权利要求3所述的识别方法,其特征在于,在所述有序列表中按照顺序处理每个所述文字块的步骤包括:
步骤S31:以所述有序列表中的第一个文字块作为第一锚点;
步骤S32:在所述有序列表中搜索所述第一锚点右侧的文字块,以所述第一锚点右侧的文字块为第二锚点,并将搜索结果记录在所述第一锚点的数据结构中;
步骤S33:在所述文字块集合中搜索与所述第二锚点上下相邻的文字块,并将搜索结果记录在所述第二锚点的数据结构中;
步骤S34:在所述有序列表中搜索所述第二锚点右侧的文字块,若有则删除所述第二锚点,并将所述第二锚点右侧的文字块作为新的第二锚点,重复执行步骤S33-S34,直到所述第二锚点右侧没有文字块;
步骤S35:在所述有序列表中搜索所述第一锚点左侧的文字块,以所述第一锚点左侧的文字块为第三锚点,并将搜索结果记录在所述第一锚点的数据结构中;
步骤S36:在所述文字块集合中搜索与所述第三锚点上下相邻的文字块,并将搜索结果记录在所述第三锚点的数据结构中;
步骤S37:在所述有序列表中搜索所述第三锚点左侧的文字块,若有则删除所述第三锚点,并将所述第三锚点左侧的文字块作为新的第三锚点,重复执行步骤S36-S37,直到所述第三锚点左侧没有文字块;
步骤S38:在所述有序列表中删除所述第一锚点、第二锚点和第三锚点;以及
步骤S39:重复执行步骤S31-38,直到所述有序列表为空。
5.如权利要求4所述的识别方法,其特征在于,所述文字块的数据结构中包括记录与所述文字块在上、下、左、右四个方向的相邻文字块的字段。
6.如权利要求1所述的识别方法,其特征在于,比较所述文字块的内容和药物名称数据库中的药物名称的步骤包括:
将所述药物名称数据库中的药物名称拆分成长度相等的第一字段;
将所述文字块的内容拆分成与所述第一字段的长度相等的第二字段;以及
比较所述第一字段和第二字段。
7.如权利要求6所述的识别方法,其特征在于,采用2-gram方法对所述药物名称数据库中的药物名称和所述文字块进行拆分。
8.如权利要求1所述的识别方法,其特征在于,对所述正式药物名称文字块进行标准化处理的步骤包括:
根据下面的公式计算匹配分match_score:
match_score=1-(max_len-cross_distance(str1,str2)+Lev_distance(str1,str2))/(max_len*2),
其中,str1是所述正式药物名称文字块的内容,str2是标准药物名称术语库中的标准术语,max_len是str1和str2中的长度的最大值,cross_distance(str1,str2)指str1的字符集合和str2的字符集合的交集的元素个数,Lev_distance(str1,str2)指str1和str2的莱文斯坦距离。
9.一种药物单的识别装置,包括:
存储器,用于存储可由处理器执行的指令;
处理器,用于执行所述指令以实现如1-8任一项所述的识别方法。
10.一种存储有计算机程序代码的计算机可读介质,所述计算机程序代码在由处理器执行时实现如1-8任一项所述的识别方法。
CN202011241037.5A 2020-11-09 2020-11-09 药物单的识别方法和识别装置 Active CN112348027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011241037.5A CN112348027B (zh) 2020-11-09 2020-11-09 药物单的识别方法和识别装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011241037.5A CN112348027B (zh) 2020-11-09 2020-11-09 药物单的识别方法和识别装置

Publications (2)

Publication Number Publication Date
CN112348027A true CN112348027A (zh) 2021-02-09
CN112348027B CN112348027B (zh) 2024-01-23

Family

ID=74428651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011241037.5A Active CN112348027B (zh) 2020-11-09 2020-11-09 药物单的识别方法和识别装置

Country Status (1)

Country Link
CN (1) CN112348027B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215563A1 (en) * 2007-03-02 2008-09-04 Microsoft Corporation Pseudo-Anchor Text Extraction for Vertical Search
US20120201457A1 (en) * 2011-02-08 2012-08-09 Palo Alto Research Center Incorporated Finding repeated structure for data extraction from document images
CN103020621A (zh) * 2012-12-25 2013-04-03 深圳深讯和科技有限公司 中英文混排文字图像的切割方法及装置
US20130311489A1 (en) * 2011-09-30 2013-11-21 Google Inc. Systems and Methods for Extracting Names From Documents
US20140306010A1 (en) * 2013-04-12 2014-10-16 David Prokop Uniquely identifiable drug dosage form units
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN109815958A (zh) * 2019-02-01 2019-05-28 杭州睿琪软件有限公司 一种化验单识别方法、装置、电子设备和存储介质
CN110378347A (zh) * 2019-07-04 2019-10-25 北京爱医生智慧医疗科技有限公司 一种医疗检验单的关键信息提取方法及装置
CN110399878A (zh) * 2019-06-14 2019-11-01 南京火眼锐视信息科技有限公司 表格版式恢复方法,计算机可读介质以及计算机
CN110503100A (zh) * 2019-08-16 2019-11-26 湖南星汉数智科技有限公司 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN111429990A (zh) * 2020-03-20 2020-07-17 魏秀娟 一种智能化检验结果判读、比对分析及提醒的管理系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080215563A1 (en) * 2007-03-02 2008-09-04 Microsoft Corporation Pseudo-Anchor Text Extraction for Vertical Search
US20120201457A1 (en) * 2011-02-08 2012-08-09 Palo Alto Research Center Incorporated Finding repeated structure for data extraction from document images
US20130311489A1 (en) * 2011-09-30 2013-11-21 Google Inc. Systems and Methods for Extracting Names From Documents
CN103020621A (zh) * 2012-12-25 2013-04-03 深圳深讯和科技有限公司 中英文混排文字图像的切割方法及装置
US20140306010A1 (en) * 2013-04-12 2014-10-16 David Prokop Uniquely identifiable drug dosage form units
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法
CN108197216A (zh) * 2017-12-28 2018-06-22 深圳市巨鼎医疗设备有限公司 一种信息处理的方法
CN109815958A (zh) * 2019-02-01 2019-05-28 杭州睿琪软件有限公司 一种化验单识别方法、装置、电子设备和存储介质
CN110399878A (zh) * 2019-06-14 2019-11-01 南京火眼锐视信息科技有限公司 表格版式恢复方法,计算机可读介质以及计算机
CN110378347A (zh) * 2019-07-04 2019-10-25 北京爱医生智慧医疗科技有限公司 一种医疗检验单的关键信息提取方法及装置
CN110503100A (zh) * 2019-08-16 2019-11-26 湖南星汉数智科技有限公司 一种医疗单据识别方法、装置、计算机装置及计算机可读存储介质
CN111429990A (zh) * 2020-03-20 2020-07-17 魏秀娟 一种智能化检验结果判读、比对分析及提醒的管理系统

Also Published As

Publication number Publication date
CN112348027B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN107818124B (zh) 数据匹配方法及装置
CN108986879B (zh) 药品推荐方法、装置、计算机设备和存储介质
CN111931750B (zh) 化验单的识别方法和识别装置
CN111180087A (zh) 上市药品信息标准化方法、设备、服务器及存储介质
US8155887B2 (en) Computer visualized drug interaction information retrieval
CN112348017B (zh) 临床试验收费单据的识别方法和识别装置
CN111221979A (zh) 药品知识图谱构建方法及系统
JP2016071898A (ja) 帳票認識装置、帳票認識システム、帳票認識システムのプログラム、帳票認識システムの制御方法、帳票認識システムプログラムを搭載した記録媒体
EP3779781A1 (en) Image processing device, image processing method, and storage medium on which program is stored
CN111814793A (zh) 药品图文信息违规检测方法及系统
EP3446672A1 (en) Inspection assistance method and inspection assistance device
CN114416939A (zh) 智能问答方法、装置、设备及存储介质
CN112348027B (zh) 药物单的识别方法和识别装置
CN117116416A (zh) 医嘱用药审核方法、装置、电子设备及存储介质
Lee et al. Deep learning-based digitalization of a part catalog book to generate part specification by a neutral reference data dictionary
CN112348472B (zh) 实验室检查表的录入方法、装置和计算机可读介质
CN116798055A (zh) 表单录入方法及装置、电子设备和计算机可读介质
JP2023003887A (ja) 書類画像処理システム、書類画像処理方法、および書類画像処理プログラム
CN112132061A (zh) 一种基于在线识别系统的药物筛分方法及其系统
CN111145849A (zh) 医护信息校验方法、装置、介质及电子设备
JP2009181225A (ja) Ocr装置、証跡管理装置及び証跡管理システム
JP3048987B2 (ja) 電子部品実装検査装置、その方法、及びプログラムを記録した記録媒体
CN112950100B (zh) 图像数据标记人员的考勤统计方法、装置及相关设备
Kim et al. Drug image retrieval by shape and color similarity of the medication
JP6047475B2 (ja) 画像認識装置、画像認識方法及び画像認識プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant