CN111627511A - 眼科报告内容识别方法及装置、可读存储介质 - Google Patents
眼科报告内容识别方法及装置、可读存储介质 Download PDFInfo
- Publication number
- CN111627511A CN111627511A CN202010482208.7A CN202010482208A CN111627511A CN 111627511 A CN111627511 A CN 111627511A CN 202010482208 A CN202010482208 A CN 202010482208A CN 111627511 A CN111627511 A CN 111627511A
- Authority
- CN
- China
- Prior art keywords
- data
- data item
- report
- interest
- ophthalmic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H15/00—ICT specially adapted for medical reports, e.g. generation or transmission thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/20—ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Radiology & Medical Imaging (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Eye Examination Apparatus (AREA)
Abstract
本申请提供一种眼科报告内容识别方法及装置、可读存储介质。眼科报告内容识别方法,包括:获取待识别的眼科报告,所述眼科报告为第一格式的电子报告;将所述眼科报告转化为第二格式的待识别图像;提取出所述待识别图像中的感兴趣区域,所述感兴趣区域中的数据为所述眼科报告中需要进行识别的内容;对所述感兴趣区域进行二值化处理,得到处理后的感兴趣区域;对所述处理后的感兴趣区域中的数据进行识别,得到所述眼科报告的内容识别结果。该方法实现准确且高效地识别眼科报告内容。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种眼科报告内容识别方法及装置、可读存储介质。
背景技术
在眼科医学领域,眼科检查数量较多,由此得到许多眼科检查电子报告。为了便于医生对电子报告进行处理,需要从电子报告中提取并识别出医生所需的数据。现有技术中,通过人工对电子报告进行查看,并查找录入医生需要的检查结果,但是这种方式会耗费大量的人力,物力。现有技术中还有利用OCR(Optical Character Recognition,光学字符识别)技术进行提取和识别的,但是仅限于对打印的纸质文档进行扫描和识别,并不能直接基于电子报告进行识别。
可见,现有技术中并没有适用于眼科电子报告的内容的识别的技术方案。
发明内容
本申请实施例的目的在于提供一种眼科报告内容识别方法及装置、可读存储介质,用以实现准确且高效地识别眼科报告内容。
第一方面,本申请实施例提供一种眼科报告内容识别方法,包括:获取待识别的眼科报告,所述眼科报告为第一格式的电子报告;将所述眼科报告转化为第二格式的待识别图像;提取出所述待识别图像中的感兴趣区域,所述感兴趣区域中的数据为所述眼科报告中需要进行识别的内容;对所述感兴趣区域进行二值化处理,得到处理后的感兴趣区域;对所述处理后的感兴趣区域中的数据进行识别,得到所述眼科报告的内容识别结果。
在本申请实施例中,当获取到第一格式眼科电子报告后,先将其转化为第二格式的待识别图像,然后提取出眼科报告中需要识别的内容对应的感兴趣区域,然后进行二值化处理,最后再基于二值化处理后的感兴趣区域中的数据进行识别,得到识别结果。与现有技术相比,通过将电子报告进行格式转换,能够实现基于格式转换后的电子报告的内容识别;通过进行二值化处理,能够避免电子报告转化得到的待识别图像中的颜色对最终识别结果的影响;通过提取感兴趣区域,针对性的进行内容识别,能够提高电子报告的识别效率。因此,该方法实现了准确且高效地识别眼科报告内容。
作为一种可能的实现方式,所述对所述处理后的感兴趣区域中的数据进行识别,包括:根据所述感兴趣区域中的各个像素点的像素值获取所述感兴趣区域中的多行字符数据;对所述多行字符数据进行识别,得到所述眼科报告的内容识别结果。
在本申请实施例中,在进行识别时,先基于各个像素点的像素值获取到感兴趣区域中的多行字符数据,然后再基于多行字符数据进行识别,能够实现快速且准确地识别。
作为一种可能的实现方式,所述根据所述感兴趣区域中的各个像素点的像素值确定所述感兴趣区域中的多行字符数据,包括:依次读取所述感兴趣区域中的每行的各个像素点的像素值;根据每行的各个像素点的像素值之和确定所述多行字符数据。
在本申请实施例中,在确定多行字符数据时,由于感兴趣区域是进行过二值化处理的,因此其各个像素点的像素值只可能是0或者255,进而根据每行的各个像素点的像素值之和能够快速且准确地定位到多行字符数据。
作为一种可能的实现方式,所述对所述多行字符数据进行识别,得到所述眼科报告的内容识别结果,包括:将每行字符数据分割为多个列数据;根据每行数据中的各个列数据确定每行数据的数据项名称和数据项值;对所述数据项名称进行识别,得到数据项名称的识别结果,以及对所述数据项值进行识别,得到数据项值的识别结果;根据所述数据项名称的识别结果和所述数据项值的识别结果确定所述眼科报告的内容识别结果。
在本申请实施例中,由于针对的是医学领域的眼科报告内容识别,考虑到医学领域上的报告通常由数据项名称和数据项值组成,在识别时,可以将数据分为数据项名称和数据项值分开进行识别,进而能够实现准确且快速地识别。
作为一种可能的实现方式,所述根据每行数据中的各个列数据确定每行数据的数据项名称和数据项值,包括:计算每行数据中的各个列数据之间的间隔;根据所述各个列数据之间的间隔和预设的间隔阈值确定所述数据项名称和所述数据项值。
在本申请实施例中,在确定数据项名称和数据项值时,由于数据项名称和数据项值之间通常是间隔的,因此可通过判断各个列数据之间的间隔来快速地确定出数据项名称和数据项值。
作为一种可能的实现方式,所述对所述数据项名称进行识别,得到数据项名称的识别结果,包括:获取预设的数据项名称模板;所述数据项名称模板中包括多个标准数据项名称;将所述数据项名称与所述多个标准数据项名称进行匹配,确定与所述数据项名称匹配的标准数据项名称为所述数据项名称的识别结果。
在本申请实施例中,在对数据项名称进行识别时,可以设置包括标准数据项名称的数据项名称模板,然后依据该数据项名称模板可以准确地识别出电子报告中的数据项名称。
作为一种可能的实现方式,所述对所述数据项值进行识别,得到数据项值的识别结果,包括:通过连通域分割法将所述数据项值中的不同种类的字符进行分割,得到不同种类的字符;对所述不同种类的字符进行识别,得到数据项值的识别结果。
在本申请实施例中,在对数据项值进行识别时,考虑到医学领域中有各种字符,将这些字符先进行分割,然后再进行针对性的识别,提高最终得到的识别结果的准确性。
作为一种可能的实现方式,所述不同种类的字符包括:特殊字符和纯数字字符;所述对所述不同种类的字符进行识别,得到数据项值的识别结果,包括:通过所述特殊字符的连通域的属性确定所述特殊字符的识别结果;通过预设的LeNet模型确定所述纯数字字符的识别结果;根据所述特殊字符的识别结果和所述纯数字字符的识别结果确定所述数据项值的识别结果。
在本申请实施例中,数据项值的种类可以分为特殊字符和纯数字字符,针对两种字符,采用各自对应的识别方式进行识别,提高最终得到的识别结果的准确性。
第二方面,本申请实施例提供一种眼科报告内容识别装置,包括用于实现第一方面以及第一方面的任意一种可能的实现方式所述的方法的各个功能模块。
第三方面,本申请实施例提供一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如第一方面以及第一方面的任意一种可能的实现方式中所述的方法。
第四方面,本申请实施例提供一种电子设备,包括存储器以及处理器,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器读取并运行时,执行如第一方面以及第一方面的任意一种可能的实现方式中所述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的眼科报告内容识别方法的流程图;
图2为本申请实施例提供的感兴趣区域的示意图;
图3为本申请实施例提供的行数据字符的示意图;
图4为本申请实施例提供的数据项名称的示意图;
图5为本申请实施例提供的数据项值的示意图;
图6为本申请实施例提供的眼科报告内容识别装置的功能模块结构框图;
图7为本申请实施例提供的电子设备的结构示意图。
图标:200-眼科报告内容识别装置;201-获取模块;202-转化模块;203-提取模块;204-处理模块;205-识别模块;300-电子设备;301-存储器;302-处理器;303-显示模块;304-输入输出模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
本申请实施例提供的眼科报告内容识别方法可以应用于需要进行眼科报告内容识别的各种场景,比如医院。对于其应用的形式,可以基于该方法开发应用程序,当需要进行眼科报告内容识别时,通过该应用程序进行识别即可。还可以基于该方法设计特定的识别设备,当需要进行眼科报告内容识别时,通过该识别设备进行识别即可。基于不同的应用形式,该方法可以应用于安装有对应功能的应用程序的电子设备,如手机、电脑等;还可以应用于具有对应的识别功能的识别设备;当然,如果具有该功能的应用程序,需要依靠客户端和服务器的交互,客户端作为前端,服务器作为后端,那么该方法还可以应用于进行后端数据处理的服务器。
基于上述应用场景,接下来请参照图1,为本申请实施例提供的眼科报告内容识别方法的流程图,该方法包括:
步骤101:获取待识别的眼科报告。该眼科报告为第一格式的电子报告。
步骤102:将眼科报告转化为第二格式的待识别图像。
步骤103:提取出待识别图像中的感兴趣区域。感兴趣区域中的数据为眼科报告中需要进行识别的内容。
步骤104:对感兴趣区域进行二值化处理,得到处理后的感兴趣区域。
步骤105:对处理后的感兴趣区域中的数据进行识别,得到眼科报告的内容识别结果。
在本申请实施例中,当获取到第一格式眼科电子报告后,先将其转化为第二格式的待识别图像,然后提取出眼科报告中需要识别的内容对应的感兴趣区域,然后进行二值化处理,最后再基于二值化处理后感兴趣区域中的数据进行识别,得到识别结果。与现有技术相比,通过将电子报告进行格式转换,能够实现基于格式转换后的电子报告的内容识别;通过进行二值化处理,能够避免电子报告转化得到的待识别图像中的颜色对最终识别结果的影响;通过提取感兴趣区域,针对性地进行内容识别,能够提高电子报告的识别效率。因此,该方法实现了准确且高效地识别眼科报告内容。
接下来对步骤101-步骤105的详细实施方式进行介绍。
在步骤101中,对于待识别的眼科报告,其获取来源可以是用户实时上传的当前需要进行识别的眼科报告,在这种情况下,对于每份眼科报告,都采用实时识别的方式,并且是被动地对眼科报告进行识别。也可以是从用户预先上传的需要进行识别的眼科报告中选择的眼科报告,在这种情况下,用户可以批量地上传待识别的眼科报告,然后选择得到每份报告对应的识别结果的预期时间,进而可以根据预期时间分批次,有选择性地对报告进行主动识别。比如:若当前的时间到达了目标眼科报告的预期时间,或者当前的时间距离预期时间的间隔小于预设值时,就可以获取目标眼科报告,以对其进行内容识别。
进一步地,待识别的眼科报告为第一格式的电子报告,对于电子报告来说,可以有多种格式,比如PDF(Portable Document Format,便携式文档格式)格式和WORD格式等。但是如果直接基于此类格式对眼科报告进行识别可能无法准确识别。
因此,在步骤102中,需要将眼科报告转化为第二格式的待识别图像。其中,第二格式可以为各种图像格式,如PNG图像格式、JPG图像格式等。假设第一格式为PDF格式,第二格式为PNG格式,作为步骤102的一种可选的实施方式,步骤102包括:利用PDF2Image包进行格式转换,得到清晰的,无压缩的PNG格式的图像文件。
进一步地,在得到待识别图像后,执行步骤103,提取待识别图像中的感兴趣区域。ROI(Region Of Interest,感兴趣区域),机器视觉、图像处理中,从被处理的图像以方框、圆、椭圆、不规则多边形等方式勾勒出需要处理的区域,称为感兴趣区域。在Halcon、OpenCV、Matlab等机器视觉软件上常用到各种算子(Operator)和函数来求得感兴趣区域ROI,并进行图像的下一步处理。可以理解,在对眼科报告的内容进行识别时,所需要识别的主要是其中的数据,因此,可利用各种算子提取出图像中包含有数据的区域,确定为感兴趣区域。
在步骤103中,除了利用算子对感兴趣区域进行提取,也可以将转化得到的待识别图像反馈给用户,由用户基于待识别图像对感兴趣区域进行标注,进而基于用户的标注提取出感兴趣区域。除了这种方式,还可以是在用户上传电子报告时,就基于电子报告本身的内容进行一个标注,当将电子报告的格式进行转换后,通过识别用户的标注来提取感兴趣区域。作为示例,请参照图2,为本申请实施例提供的最终提取得到的感兴趣区域的示例图,从图2可以看出,提取出的感兴趣区域中包含大量的数据。
进一步地,在步骤103后,执行步骤104,即对感兴趣区域进行二值化处理,得到处理后的感兴趣区域。可以理解,电子报告中有时会出现颜色标记,通过统一地对感兴趣进行二值化处理,能够排除颜色对识别的影响。对于二值化处理,就是将图像上的像素点的灰度值设置为0或255,即图像上的像素点的像素值只可能是0或者255;也就是将整个图像呈现出明显的黑白效果的过程。当对图像进行二值化处理后,得到的图像的集合性质只与像素值为0或255的点的位置有关,不再涉及像素的多级值,使处理变得简单,而且数据的处理和压缩量小。
进一步地,在进行二值化处理后,可执行步骤105,即对处理后的感兴趣区域中的数据进行识别,得到眼科报告的内容识别结果。
作为一种可选的实施方法,步骤105包括:根据感兴趣区域中的各个像素点的像素值获取感兴趣区域中的多行字符数据;对多行字符数据进行识别,得到眼科报告的内容识别结果。
在本申请实施例中,在进行识别时,先基于各个像素点的像素值获取到感兴趣区域中的多行字符数据,然后再基于多行字符数据进行识别,能够实现快速且准确地识别。
在这种实施方式中,首先对如何获取多行字符数据进行介绍。对于二值化处理后的图像来说,所有灰度大于或等于阈值的像素被判定为属于特定物体,其灰度值为255,否则这些像素点被排除在物体区域以外,灰度值为0,表示背景或者例外的物体区域。获取多行字符数据的过程相当于确定感兴趣区域中的哪些像素点属于背景,哪些像素点属于数据。因此,作为一种可选的实施方式,该过程包括:依次读取感兴趣区域中的每行的各个像素点的像素值;根据每行的各个像素点的像素值之和确定多行字符数据。
在这个过程中,对二值化的ROI图像进行横向扫描,求得每行像素的各个像素点的像素值之和;然后对每行像素的各个像素点的像素值之和进行判断,若像素值之和为0,说明该行像素上没有数据,该行像素为背景;若像素值之和不是0,说明该行像素上有数据,可将其标记为数据像素行。
此外,在此过程中,由于图像上的像素行并不能代表实际的字符数据行,比如实际的一行数据可能占据了几个像素行,因此还需要通过对每行字符数据的开始像素行和结束像素行来确定多行字符数据。作为一种可选的实施方式,假设当前第一次检测到数据像素行,可将其标记为第一行字符数据的开始像素行,当在该开始像素行之后第一次检测到背景像素行,那么背景像素行的上一像素行即为第一行字符数据的结束像素行,这样便可以完整地确定第一行字符数据。之后的其他行字符数据的确定过程也是一样,在确定数据像素行的过程中,基于行字符数据的连续性(由连续的数据像素行组成)的特点,以及数据像素行与背景像素行之间的切换关系来确定每行字符数据的开始像素行和结束行,最终实现感兴趣区域中的行字符数据的分割。作为示例,请参照图3,为本申请实施例提供的分割后得到的行字符数据的举例图。其中,行字符可以是单词、特殊字符、数字等各种字符。
在本申请实施例中,在确定多行字符数据时,由于感兴趣区域进行过二值化处理,因此其各个像素点的像素值只可能是0或者255,进而根据每行的各个像素点的像素值之和能够快速且准确地定位到多行字符数据。
接下来对如何基于多行字符数据进行识别进行介绍,作为一种可选的实施方式,该过程可以包括:将每行字符数据分割为多个列数据;根据每行数据中的各个列数据确定每行数据的数据项名称和数据项值;对数据项名称进行识别,得到数据项名称的识别结果,以及对数据项值进行识别,得到数据项值的识别结果;根据数据项名称的识别结果和数据项值的识别结果确定眼科报告的内容识别结果。
在这种实施方式中,基于行字符数据,先将其分割为多个列数据,然后基于分割得到的列数据将数据项名称和数据项值分开。其中,将每行字符数据分割为多个列数据的实现方式与分割行数据的实现方式的方法一致,即计算每行字符数据中的各个列的像素之和,若计算得到的像素和为0,则代表其为背景,不是列数据;若计算得到的像素和不是0,则代表是列数据。然后基于列字符数据的连续性(由连续的数据像素列组成)的特点,以及数据像素列与背景像素列之间的切换关系来确定每列字符数据的开始像素列和结束列,最终实现将每行字符数据分割为多个独立的字符。
进一步地,当分割得到多个独立的字符后,基于这多个独立的字符可以确定数据项名称和数据项值,作为一种可选的实施方式,该过程包括:计算每行数据中的各个列数据之间的间隔;根据各个列数据之间的间隔和预设的间隔阈值确定数据项名称和数据项值。在这种实施方式中,预设的间隔阈值用于度量相邻列数据之间的间隔大小,可以理解,若相邻列数据之间间隔过大,说明相邻的列数据不是连续的列数据,因此,数据项名称和数据项值之间间隔较大,可以通过调节间隔阈值,将数据项名称分割出来。比如图3中的字母“n”(作为一个列数据)与“-0.87”中的符号“-”(作为一个列数据)之间的间隔就属于超过间隔阈值的情况。在不同的情况下,可以根据实际的数据项名称与数据项值之间的常规间隔来设置该间隔阈值。作为示例,请参照图4和图5,为基于图3的行字符数据分割得到的数据项名称(图4)和数据项值(图5)的示意图。
其中,间隔阈值可以通过大量的实验来确定,以保证通过该间隔阈值将数据项名称和数据项值准确地分开。
在本申请实施例中,在确定数据项名称和数据项值时,由于数据项名称和数据项值之间通常是间隔的,因此可通过判断各个列数据之间的间隔来快速地确定出数据项名称和数据项值。
进一步地,基于数据项名称和数据项值,可以分别地进行识别。对于数据项名称的识别,作为一种可选的实施方式,其识别过程包括:获取预设的数据项名称模板;数据项名称模板中包括多个标准数据项名称;将数据项名称与多个标准数据项名称进行匹配,确定与数据项名称匹配的标准数据项名称确定为数据项名称的识别结果。
在这种实施方式中,可以预先根据实际的眼科报告的应用场景,设置数据项名称模板,该模板中包括多个标准数据项名称,当分割得到数据项名称后,将数据项名称与多个标准数据项名称进行匹配,确定匹配度最高的标准数据项名称作为数据项名称匹配的标准数据项名称,进而将该匹配的标准数据项名称确定为数据项名称的识别结果。
其中,待识别的数据项名称是经过二值化处理得到的数据项名称,因此,在设置数据项名称模板时,其中的标准数据项名称也需要经过二值化处理后,然后再进行保存。
在本申请实施例中,在对数据项名称进行识别时,可以设置包括标准数据项名称的数据项名称模板,然后依据该数据项名称模板可以准确地识别出电子报告中的数据项名称。
对于数据项值的识别,作为一种可选的实施方式,该识别过程包括:通过连通域分割法将数据项值中的不同种类的字符进行分割,得到不同种类的字符;对不同种类的字符进行识别,得到数据项值的识别结果。
其中,对于连通域分割法,由于每个字符均是一个单独的连通域,不同的连通域的属性是不同的,进而可以根据各个字符的连通域的属性来对不同种类的字符进行分割,比如具有相同的连通域的属性的不同的字符属于同一种类的字符;具有不同的连通域的属性的不同的字符属于不同种类的字符。例如:特殊字符:“@”,“+”,“-”,“.”,“°”,“:”,“?”等的纵横比和质心(连通域属性)与数字字符的纵横比和质心都是有区别的。可选的,本申请实施例可采用的连通域分割方法可以是skimage包下的measure()方法。
在本申请实施例中,在对数据项值进行识别时,考虑到医学领域中有各种字符,将这些字符先进行分割,然后再进行针对性地识别,提高最终得到的识别结果的准确性。
进一步地,基于不同的字符类型,可以采用不同的识别方式,作为一种可选的实施方式,不同种类的字符包括:特殊字符和纯数字字符;对所述不同种类的字符进行识别,得到数据项值的识别结果,包括:通过特殊字符的连通域的属性确定特殊字符的识别结果;通过预设的LeNet模型确定纯数字字符的识别结果;根据特殊字符的识别结果和纯数字字符的识别结果确定数据项值的识别结果。
其中,对于特殊字符的识别,可以预设不同的特殊字符与其对应的连通域的属性的对应关系,在识别时,当检测到连通域属性时,便可根据预设的对应关系实现特殊字符的识别。比如:特殊字符“.”的质心位于图像下方;特殊字符“°”的质心位于图像上方;以及特殊字符“=”包括质心纵坐标一致的两个连通域。
对于纯数字字符,可利用LeNet模型实现,LeNet模型是一种用于手写体字符识别的非常高效的卷积神经网络模型,在利用该模型进行纯数字字符的识别时,可以基于初始的LeNet模型结合MNIST数据集进行多轮模型训练,然后针对眼科医学领域的数据对训练好的模型进行微调,得到适合眼科医学数据的数字字符识别的训练好的LeNet模型,来进行纯数字字符的识别。
当然,除了利用LeNet模型,其他能够进行数字识别的神经网络模型,也可用于数字的识别,但在利用之前,需要基于眼科医学领域的数据实际情况对神经网络模型进行训练,测试等,以提高最终的识别结果的准确性。
在本申请实施例中,数据项值的种类可以分为特殊字符和纯数字字符,针对两种字符,采用各自对应的识别方式进行识别,提高最终得到的识别结果的准确性。
进一步地,在分别得到两种字符的识别结果后,将各自的识别结果进行整合,生成数据项值的识别结果。然后再将数据项名称的识别结果与数据项值的识别结果进行整合,得到眼科报告对应的最终识别结果。
其中,由于在各个字符的识别过程中,各个字符的识别顺序可能产生了变化(与各个字符的原始顺序相比产生变化),因此,在整合两种字符的识别结果时,可以根据各个字符的连通域属性中的位置属性,将数据项值按照原始顺序进行排列,以使得到的最终的识别结果中,数据项值的顺序与原始顺序一致。
在本申请实施例中,由于针对的是医学领域的眼科报告内容识别,考虑到医学领域上的报告通常由数据项名称和数据项值组成,在识别时,也可以将数据分为数据项名称和数据项值分开进行识别,进而能够实现准确且快速地识别。
在步骤105中得到眼科报告的内容识别结果后,可以将识别到的内容反馈给用户,以使用户(例如医生)能够及时地得知识别结果。
基于同一发明构思,请参照图6,本申请实施例中还提供一种眼科报告内容识别装置200,包括:获取模块201、转化模块202、提取模块203、处理模块204以及识别模块205。
获取模块201,用于获取待识别的眼科报告,所述眼科报告为第一格式的电子报告。转化模块202,用于将所述眼科报告转化为第二格式的待识别图像。提取模块203,用于提取出所述待识别图像中的感兴趣区域,所述感兴趣区域中的数据为所述眼科报告中需要进行识别的内容。处理模块204,用于对所述感兴趣区域进行二值化处理,得到处理后的感兴趣区域。识别模块205,用于对所述处理后的感兴趣区域中的数据进行识别,得到所述眼科报告的内容识别结果。
可选的,识别模块205具体用于:根据所述感兴趣区域中的各个像素点的像素值获取所述感兴趣区域中的多行字符数据;对所述多行字符数据进行识别,得到所述眼科报告的内容识别结果。
可选的,识别模块205具体还用于:依次读取所述感兴趣区域中的每行的各个像素点的像素值;根据每行的各个像素点的像素值之和确定所述多行字符数据。
可选的,识别模块205具体还用于:将每行字符数据分割为多个列数据;根据每行数据中的各个列数据确定每行数据的数据项名称和数据项值;对所述数据项名称进行识别,得到数据项名称的识别结果,以及对所述数据项值进行识别,得到数据项值的识别结果;根据所述数据项名称的识别结果和所述数据项值的识别结果确定所述眼科报告的内容识别结果。
可选的,识别模块205具体还用于:计算每行数据中的各个列数据之间的间隔;根据所述各个列数据之间的间隔和预设的间隔阈值确定所述数据项名称和所述数据项值。
可选的,识别模块205具体还用于:获取预设的数据项名称模板;所述数据项名称模板中包括多个标准数据项名称;将所述数据项名称与所述多个标准数据项名称进行匹配,确定与所述数据项名称匹配的标准数据项名称为所述数据项名称的识别结果。
可选的,识别模块205具体还用于:通过连通域分割法将所述数据项值中的不同种类的字符进行分割,得到不同种类的字符;对所述不同种类的字符进行识别,得到数据项值的识别结果。
可选的,识别模块205具体还用于:通过所述特殊字符的连通域的属性确定所述特殊字符的识别结果;通过预设的LeNet模型确定所述纯数字字符的识别结果;根据所述特殊字符的识别结果和所述纯数字字符的识别结果确定所述数据项值的识别结果。
前述实施例中的眼科报告内容识别方法中的各实施方式和具体实例同样适用于图6的装置,通过前述对眼科报告内容识别方法的详细描述,本领域技术人员可以清楚地知道图6中的眼科报告内容识别装置200的实施方法,所以为了说明书的简洁,在此不再详述。
基于同一发明构思,请参照图7,本申请实施例还提供一种电子设备300,前述实施例中所述的眼科报告内容识别方法可应用于电子设备300。该电子设备300包括存储器301、处理器302以及眼科报告内容识别装置200。还可以包括:显示模块303、输入输出模块304。
存储器301、处理器302、显示模块303、输入输出模块304各元件之间直接或间接地电连接,以实现数据的传输或交互。例如,这些元件之间可以通过一条或多条通讯总线或信号总线实现电连接。眼科报告内容识别方法分别包括至少一个可以以软件或固件(firmware)的形式存储于存储器301中的软件功能模块,例如眼科报告内容识别装置200包括的软件功能模块或计算机程序。
存储器301可以存储各种软件程序以及模块,如本申请实施例提供的眼科报告内容识别方法及装置对应的程序指令/模块。处理器302通过运行存储在存储器301中的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本申请实施例中的方法。此外,存储器301在处理器302运行程序的过程中,还可以存储例如神经网络模型(LeNet模型)、待识别的眼科报告等数据。
存储器301可以包括但不限于RAM(Random Access Memory,随机存取存储器),ROM(Read Only Memory,只读存储器),PROM(Programmable Read-Only Memory,可编程只读存储器),EPROM(Erasable Programmable Read-Only Memory,可擦除只读存储器),EEPROM(Electric Erasable Programmable Read-Only Memory,电可擦除只读存储器)等。
处理器302可以是一种集成电路芯片,具有信号处理能力。处理器302可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是数字信号处理器、专用集成电路、现成可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
显示模块303在电子设备300与用户之间提供一个交互界面(例如用户操作界面)或用于显示处理过程中产生的结果给用户参考。在本申请实施例中,显示模块303可以是液晶显示器或触控显示器。若为触控显示器,其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作,并将该感应到的触控操作交由处理器302进行计算和处理。例如,在本申请实施例中,显示模块303可以用于显示最终得到的眼科报告的内容识别结果。
输入输出模块304用于提供给用户输入数据实现用户与电子设备300的交互。输入输出模块304可以是,但不限于,鼠标和键盘等。例如,医生通过输入输出模块304完成待识别的眼科电子报告等。
可以理解,图7所示的结构仅为示意,电子设备300还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。图7中所示的各组件可以采用硬件、软件或其组合实现。
基于同一发明构思,本申请实施例还提供了一种可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被计算机运行时执行上述任一实施方式的眼科报告内容识别方法中的步骤。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种眼科报告内容识别方法,其特征在于,包括:
获取待识别的眼科报告,所述眼科报告为第一格式的电子报告;
将所述眼科报告转化为第二格式的待识别图像;
提取出所述待识别图像中的感兴趣区域,所述感兴趣区域中的数据为所述眼科报告中需要进行识别的内容;
对所述感兴趣区域进行二值化处理,得到处理后的感兴趣区域;
对所述处理后的感兴趣区域中的数据进行识别,得到所述眼科报告的内容识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述处理后的感兴趣区域中的数据进行识别,包括:
根据所述感兴趣区域中的各个像素点的像素值获取所述感兴趣区域中的多行字符数据;
对所述多行字符数据进行识别,得到所述眼科报告的内容识别结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述感兴趣区域中的各个像素点的像素值确定所述感兴趣区域中的多行字符数据,包括:
依次读取所述感兴趣区域中的每行的各个像素点的像素值;
根据每行的各个像素点的像素值之和确定所述多行字符数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述多行字符数据进行识别,得到所述眼科报告的内容识别结果,包括:
将每行字符数据分割为多个列数据;
根据每行数据中的各个列数据确定每行数据的数据项名称和数据项值;
对所述数据项名称进行识别,得到数据项名称的识别结果,以及对所述数据项值进行识别,得到数据项值的识别结果;
根据所述数据项名称的识别结果和所述数据项值的识别结果确定所述眼科报告的内容识别结果。
5.根据权利要求4所述的方法,其特征在于,所述根据每行数据中的各个列数据确定每行数据的数据项名称和数据项值,包括:
计算每行数据中的各个列数据之间的间隔;
根据所述各个列数据之间的间隔和预设的间隔阈值确定所述数据项名称和所述数据项值。
6.根据权利要求4所述的方法,其特征在于,所述对所述数据项名称进行识别,得到数据项名称的识别结果,包括:
获取预设的数据项名称模板;所述数据项名称模板中包括多个标准数据项名称;
将所述数据项名称与所述多个标准数据项名称进行匹配,确定与所述数据项名称匹配的标准数据项名称为所述数据项名称的识别结果。
7.根据权利要求4所述的方法,其特征在于,所述对所述数据项值进行识别,得到数据项值的识别结果,包括:
通过连通域分割法将所述数据项值中的不同种类的字符进行分割,得到不同种类的字符;
对所述不同种类的字符进行识别,得到数据项值的识别结果。
8.根据权利要求7所述的方法,其特征在于,所述不同种类的字符包括:特殊字符和纯数字字符;所述对所述不同种类的字符进行识别,得到数据项值的识别结果,包括:
通过所述特殊字符的连通域的属性确定所述特殊字符的识别结果;
通过预设的LeNet模型确定所述纯数字字符的识别结果;
根据所述特殊字符的识别结果和所述纯数字字符的识别结果确定所述数据项值的识别结果。
9.一种眼科报告内容识别装置,其特征在于,包括:
获取模块,用于获取待识别的眼科报告,所述眼科报告为第一格式的电子报告;
转化模块,用于将所述眼科报告转化为第二格式的待识别图像;
提取模块,用于提取出所述待识别图像中的感兴趣区域,所述感兴趣区域中的数据为所述眼科报告中需要进行识别的内容;
处理模块,用于对所述感兴趣区域进行二值化处理,得到处理后的感兴趣区域;
识别模块,用于对所述处理后的感兴趣区域中的数据进行识别,得到所述眼科报告的内容识别结果。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被计算机运行时执行如权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482208.7A CN111627511A (zh) | 2020-05-29 | 2020-05-29 | 眼科报告内容识别方法及装置、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010482208.7A CN111627511A (zh) | 2020-05-29 | 2020-05-29 | 眼科报告内容识别方法及装置、可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111627511A true CN111627511A (zh) | 2020-09-04 |
Family
ID=72273221
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010482208.7A Pending CN111627511A (zh) | 2020-05-29 | 2020-05-29 | 眼科报告内容识别方法及装置、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111627511A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410191A (zh) * | 2022-11-03 | 2022-11-29 | 平安银行股份有限公司 | 文本图像识别方法、装置、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598702A (zh) * | 2013-10-31 | 2015-05-06 | 鸿富锦精密工业(深圳)有限公司 | 测试报告生成方法及系统 |
US20160328517A1 (en) * | 2014-01-27 | 2016-11-10 | Koninklijke Philips N.V. | Extraction of information from an image and inclusion thereof in a clinical report |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
CN108182966A (zh) * | 2017-12-07 | 2018-06-19 | 福州康为网络技术有限公司 | 一种糖尿病足检查数据采集方法 |
CN109543770A (zh) * | 2018-11-30 | 2019-03-29 | 合肥泰禾光电科技股份有限公司 | 点阵字符识别方法及装置 |
CN110659645A (zh) * | 2019-08-05 | 2020-01-07 | 沈阳工业大学 | 一种数字仪表字符识别方法 |
CN110659637A (zh) * | 2019-09-24 | 2020-01-07 | 国网河北省电力有限公司电力科学研究院 | 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法 |
-
2020
- 2020-05-29 CN CN202010482208.7A patent/CN111627511A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104598702A (zh) * | 2013-10-31 | 2015-05-06 | 鸿富锦精密工业(深圳)有限公司 | 测试报告生成方法及系统 |
US20160328517A1 (en) * | 2014-01-27 | 2016-11-10 | Koninklijke Philips N.V. | Extraction of information from an image and inclusion thereof in a clinical report |
CN106170799A (zh) * | 2014-01-27 | 2016-11-30 | 皇家飞利浦有限公司 | 从图像提取信息以及将信息包括在临床报告中 |
CN107491730A (zh) * | 2017-07-14 | 2017-12-19 | 浙江大学 | 一种基于图像处理的化验单识别方法 |
CN108182966A (zh) * | 2017-12-07 | 2018-06-19 | 福州康为网络技术有限公司 | 一种糖尿病足检查数据采集方法 |
CN109543770A (zh) * | 2018-11-30 | 2019-03-29 | 合肥泰禾光电科技股份有限公司 | 点阵字符识别方法及装置 |
CN110659645A (zh) * | 2019-08-05 | 2020-01-07 | 沈阳工业大学 | 一种数字仪表字符识别方法 |
CN110659637A (zh) * | 2019-09-24 | 2020-01-07 | 国网河北省电力有限公司电力科学研究院 | 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法 |
Non-Patent Citations (1)
Title |
---|
谢剑斌 等: "视觉感知与智能视频监控", 国防科技大学出版社, pages: 245 - 246 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410191A (zh) * | 2022-11-03 | 2022-11-29 | 平安银行股份有限公司 | 文本图像识别方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10846553B2 (en) | Recognizing typewritten and handwritten characters using end-to-end deep learning | |
US10915788B2 (en) | Optical character recognition using end-to-end deep learning | |
CN109886928B (zh) | 一种目标细胞标记方法、装置、存储介质及终端设备 | |
CN107016387B (zh) | 一种识别标签的方法及装置 | |
CN110751143A (zh) | 一种电子发票信息的提取方法及电子设备 | |
Erfankhah et al. | Heterogeneity-aware local binary patterns for retrieval of histopathology images | |
WO2022121218A1 (zh) | 智能图像识别方法、装置、计算机设备及存储介质 | |
CN106033535B (zh) | 电子阅卷方法 | |
US11321559B2 (en) | Document structure identification using post-processing error correction | |
CN109919903B (zh) | 一种脊椎检测定位标记方法、系统及电子设备 | |
CN115273115A (zh) | 一种文档元素标注方法、装置、电子设备和存储介质 | |
CN113537189A (zh) | 手写文字识别方法、装置、设备及存储介质 | |
CN111627511A (zh) | 眼科报告内容识别方法及装置、可读存储介质 | |
RU2597163C2 (ru) | Сравнение документов с использованием достоверного источника | |
CN111477289A (zh) | 检测报告的存储和读取方法及装置 | |
CN116825269A (zh) | 体检报告的处理方法、装置、电子设备和可读存储介质 | |
CN115984588A (zh) | 图像背景相似度分析方法、装置、电子设备及存储介质 | |
CN114386413A (zh) | 处理数字化的手写 | |
CN110852713A (zh) | 一种统一信用代码证识别系统和算法 | |
Velasco et al. | Alphanumeric test paper checker through intelligent character recognition using openCV and support vector machine | |
CN112861861A (zh) | 识别数码管文本的方法、装置及电子设备 | |
CN112597990A (zh) | 手写公式的判阅方法、系统、终端设备及存储介质 | |
CN112784663A (zh) | 一种文字识别方法及装置 | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 | |
CN110851349A (zh) | 页面异常显示的检测方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |