CN109829444A - 单据录入方法、装置、计算机设备和存储介质 - Google Patents
单据录入方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109829444A CN109829444A CN201910150457.3A CN201910150457A CN109829444A CN 109829444 A CN109829444 A CN 109829444A CN 201910150457 A CN201910150457 A CN 201910150457A CN 109829444 A CN109829444 A CN 109829444A
- Authority
- CN
- China
- Prior art keywords
- document
- information
- logged
- document image
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Character Input (AREA)
Abstract
本申请涉及一种单据录入方法、装置、计算机设备和存储介质。该方法包括:获取待录入单据图像;对待录入单据图像进行单据格式类型分析,确定待录入单据图像对应的单据格式类型;在单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;在单据格式类型不是预设单据类型时,选择多种文字识别器,对待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。本申请提出的单据录入方法录入效率较高,且录入准确度较高。
Description
技术领域
本申请涉及医疗检测技术领域,尤其涉及一种单据录入方法、装置、计算机设备和存储介质。
背景技术
随着信息技术的发展,现在越来越多的信息技术应用在了临床医疗检测系统中。其中,如何准确而快速的录入临床检测标本项目的申请单上的信息,成为了现下医疗检测系统中尤为重要的环节。
在现有的临床应用中,当医护人员采集到患者的检测样本时,例如,血液样本,医护人员会在纸质的检验申请单上填写相应的检测项目信息,再将记录有该检测项目信息的检验申请单以图片的形式录入到计算机设备上,计算机设备再进一步的通过相应的文字识别技术(例如,OCR文字识别技术),对录入的图片上的所有文字进行文字识别,识别出该图片上记录的检测项目信息,然后再将识别出的检测信息发送到检验人员客户端,以便检验人员可以根据上述检验申请单上的检测项目信息对患者的对应样本进行实验检测。
但是,上述单据的录入方法存在准确度较低,且效率低下的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提高录入效率和精确度的单据录入方法、装置、计算机设备和存储介质。
第一方面,一种单据录入方法,所述方法包括:
获取待录入单据图像;
对所述待录入单据图像进行单据格式类型分析,确定所述待录入单据图像对应的单据格式类型;
在所述单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;
在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
在其中一个实施例中,在所述单据格式类型为预设单据类型时,对所述待录入单据图像上的各所述坐标范围内的信息进行识别之前,还包括步骤:
对所述待录入单据图像进行第一背景去除预处理,所述第一背景去除预处理包括:去掉所述待录入单据图像中的方框线和部分文字;所述部分文字为表示检验项目的文字;
在所述单据格式类型不是预设单据类型时,对所述待录入单据图像上的各信息逐一进行多次识别之前,还包括步骤:对所述待录入单据图像进行第二背景去除预处理,所述第二背景去除预处理包括:去除所述待录入单据图像中的方框线。
在其中一个实施例中,在所述单据格式类型不是预设单据类型时,所述去掉所述待录入单据图像中的方框线之前,还包括:
对所述待录入单据图像进行方形畸变校正处理。
在其中一个实施例中,所述文字识别器的获取方法包括:
跟据所述待录入单据上的信息类型,确定计算模型;
采用所述计算模型,对所述待录入单据上的信息进行模型训练,得到所述文字识别器。
在其中一个实施例中,所述根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果,包括:
根据预设单据上的文字信息,确定所述预设单据上的各填充单元格中的预填充信息的类型;
获取所述预设单据上的各填充单元格的坐标范围;
针对所述待录入单据图像,选择与所述预填充信息的类型对应的文字识别器,对各所述坐标范围内的信息进行识别,得到所述第一识别结果。
在其中一个实施例中,所述选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果,包括:
选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到每条信息对应的多条识别信息;所述识别信息为所述文字识别器输出的信息;
将所述多条识别信息中信任度最高的识别信息,确定为各信息对应的第二识别结果。
在其中一个实施例中,所述得到所述第一识别结果或所述第二识别结果之后,所述方法还包括:
将所述第一识别结果或所述第二识别结果对应录入到录单系统中的单据模板上,得到录入单据;
对比所述待录入单据图像与所述录入单据上的信息,进行信息匹配;
若所述待录入单据图像上的信息与所述录入单据上的信息不匹配,根据所述待录入单据图像上的信息,对所述录入单据上的信息进行修正。
第二方面,一种单据录入装置,所述装置包括:
获取模块,用于获取待录入单据图像;
分析模块,用于对所述待录入单据图像进行单据类型分析,确定所述待录入单据图像对应的单据格式类型;
第一识别模块,用于在所述单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;
第二识别模块,用于在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
第三方面,一种计算机设备,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面任一实施例所所述的单据录入方法。
第四方面,一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一实施例所所述的单据录入方法。
本申请提供的一种单据录入方法、装置、计算机设备和存储介质,实现了计算机设备根据不同的单据格式类型选择不同的文字识别方法,对待录入单据图像上的信息进行识别。其中,一方面,在对与预设单据类型相同的待录入单据图像进行识别时,计算机设备可以根据预设单据类型,预知待录入单据图像上的信息类型,所以,计算机设备可以根据预知的信息类型,选择对应类型的文字识别器,对待录入单据图像上的信息进行识别,这样的识别方法由于针对性的采用文字识别器,相比于传统识别方法中采用不区分类型的文字识别器(例如,OCR文字识别器)的方法,上述识别方法的识别效率较高,且识别精度较高,进而提高了之后计算机设备根据识别结果录入单据时的录入效率,以及录入准确度。
另一方面,在对不是预设单据类型的单据进行识别时,由于选择多种文字识别器对待录入单据图像上的各信息逐一进行多次识别,相比于传统识别方法中常采用一种文字识别器(例如,OCR文字识别器)的方法,上述识别方法的识别精度较高,进而提高了之后计算设备根据识别结果录入单据时的录入准确度。
附图说明
图1为一个实施例提供的一种计算机设备的内部结构示意图;
图2为一个实施例提供的一种单据录入方法的流程图;
图2A为一个实施例提供的一种预设单据的示意图;
图3为一个实施例提供的一种文字识别器的获取方法的流程图;
图4为图2实施例中S103的一种实现方式的流程图;
图4A为一个实施例提供的一种申请单的示意图;
图5为图2实施例中S104的一种实现方式的流程图;
图6为一个实施例提供的一种单据录入方法的流程图;
图7为一个实施例提供的一种单据录入装置的结构示意图;
图8为一个实施例提供的一种单据录入装置的结构示意图;
图9为一个实施例提供的一种单据录入装置的结构示意图;
图10为一个实施例提供的一种单据录入装置的结构示意图;
图11为一个实施例提供的一种单据录入装置的结构示意图;
图12为一个实施例提供的一种单据录入装置的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本申请提供的单据录入方法,可以应用于如图1所示的计算机设备中。
该计算机设备可以是终端,其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一单据录入方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
下面将通过实施例并结合附图具体地对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
图2为一个实施例提供的一种单据录入方法的流程图,该方法的执行主体为图1中的计算机设备,该方法涉及的是计算机设备录入单据的具体过程。如图2所示,该方法具体包括以下步骤:
S101、获取待录入单据图像。
其中,待录入单据图像为医生给患者检查身体时开具的检验项目申请单的图像;所述检验项目可以包括各种血样检测项目、各种肝脏功能检测项目、免疫检测项目、尿液检测项目等所有与患者相关的检验项目。
本实施例中,计算机设备可以与手机客户端通过无线网络进行连接,并通过手机客户端拍摄单据,来获取待录入单据图像;可选的,计算机设备还可以通过与之连接的扫描设备扫描单据,来获取待录入单据图像。
需要说明的是,当手机客户端拍摄单据后,可以先将该单据对应的图像数据存储在手机客户端,并将该图像数据标识为待传输的数据。手机客户端中还可以安装一个检测网络连接的服务程序,且该服务程序可以自动检测手机客户端的网络连接状态,若网络连接正常时,手机客户端可以将之前存储的标识为待传输的图像数据发送给计算机设备,若网络连接断开时,传输图像数据的过程自动中断,直到网络连接恢复正常后,手机客户端可以将之前没有传输完成的图像数据继续发送给计算机设备。
基于上述应用场景下,当计算机设备获取到手机客户端发送的待录入单据图像时,计算机设备将该单据图像存储在数据库中,并将该单据图像标识为待处理的图像,以使计算机设备可以正常处理待录入单据图像。
S102、对待录入单据图像进行单据格式类型分析,确定待录入单据图像对应的单据格式类型。
其中,单据格式类型可以根据实际应用情况分为固定单据格式的类型和不固定单据格式的类型;所述固定单据格式是指那些特殊检验项目申请单具有的格式,例如,无创,分子病理特殊项目申请单等具有固定的申请单格式。不固定单据格式是指那些常规检验项目申请单具有的格式,例如,不同医院因为开单习惯不一样,所以开具的检验项目申请单的格式也不相同。
本实施例中,当计算机设备获取到待录入单据图像,并开始对该单据图像进行处理时,可以先分析该单据图像中包含的单据格式类型,具体的,计算机设备可以采用申请单格式选择器,对该单据图像中的单据格式类型进行识别,得到具体的单据格式类型。
S103、在单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果。
其中,预设单据类型为上述S102中提到的固定单据格式的类型,具有该预设单据类型的单据即为预设单据,该预设单据上可以包括表格方框线、描述检验项目的文字、项目选择方框、待填充单元格等信息,例如,图2A所示的单据示意图为一种预设单据。文字识别器可以为不同类型的文字识别器,例如,该文字识别器可以是条码识别器、检验项目识别器、开单医院识别器、开单医生识别器、姓名识别器、性别识别器、年龄识别器等中的一种类型的识别器,而其中的开单医生识别器又可以包括手写体的开单医生识别器和印刷体的开单医生识别器;姓名识别器又可以包括手写体的姓名识别器和印刷体的姓名识别器;性别识别器又可以包括手写体的性别识别器和印刷体的性别识别器;年龄识别器又可以包括手写体的年龄识别器和印刷体的年龄识别器。
本实施例中,当待录入单据图像中的单据格式类型为预设单据类型时,计算机设备可以先从数据库中获取预设单据类型的单据,即预设单据,再在该预设单据上查找各填充单元格,从而确定各填充单元格中包含的预填充信息的类型,然后,计算机设备根据该信息的类型,采用与该信息的类型对应的文字识别器(例如,姓名填充单元格对应姓名识别器,性别填充单元格对应性别识别器),对待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果。该第一识别结果可以包括诸如条码、勾选符号、表示患者信息的文字、表示医院信息的文字、表示医生信息的文字等。
S104、在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
本实施例中,当待录入单据图像中的单据格式类型不是预设单据类型时,计算机设备可以直接选择多种文字识别器,例如,姓名识别器、性别识别器、年龄识别器等,对待录入单据图像上的每条信息进行多次识别,得到第二识别结果,该第二识别结果可以包括条码、勾选符号、表示各检验项目的文字、表示患者信息的文字、表示医院信息的文字、表示医生信息的文字等。
需要说明的是,第二识别结果相比于第一识别结果,包含有表示各检验项目的文字。这是因为,第一识别结果是针对与预设单据的格式类型相同的单据图像的识别结果,在这种应用场景下,不需要对待录入单据图像上表示检验项目的信息进行识别,所以识别的结果不包含表示检验项目的文字。而相应的,第二识别结果是针对其它类型的单据图像的识别结果,在这种应用场景下,需要对待录入单据图像上的所有信息进行识别,所以识别的结果包含表示检验项目的文字。
本实施例提供的一种单据录入方法,实现了计算机设备根据不同的单据格式类型选择不同的文字识别方法,对待录入单据图像上的信息进行识别。其中,一方面,在对与预设单据类型相同的待录入单据图像进行识别时,计算机设备可以根据预设单据类型,预知待录入单据图像上的信息类型,所以,计算机设备可以根据预知的信息类型,选择对应类型的文字识别器,对待录入单据图像上的信息进行识别,这样的识别方法由于针对性的采用文字识别器,相比于传统识别方法中采用不区分类型的文字识别器(例如,OCR文字识别器)的方法,上述识别方法的识别效率较高,且识别精度较高,进而提高了之后计算机设备根据识别结果录入单据时的录入效率,以及录入准确度。
另一方面,在对不是预设单据类型的单据进行识别时,由于选择多种文字识别器对待录入单据图像上的各信息逐一进行多次识别,相比于传统识别方法中常采用一种文字识别器(例如,OCR文字识别器)的方法,上述识别方法的识别精度较高,进而提高了之后计算设备根据识别结果录入单据时的录入准确度。
在一个实施例中,计算机设备在单据格式类型为预设单据类型时,对所述待录入单据图像上的各填充单元格中的信息进行识别之前,还需要对待录入单据图像进行第一背景去除预处理,具体的处理过程包括:去除待录入单据图像中的方框线和部分文字;其中的部分文字为表示检验项目的文字。
本实施例中,计算机设备在确定待录入单据图像中的单据类型为预设单据类型时,执行去除待录入单据图像中的方框线和部分文字这一步骤的具体过程为:计算机设备可以先从数据库中获取一张预设单据,因为该预设单据与待录入单据的格式相同,所以,计算机设备可以根据该预设单据上的方框线所在的坐标范围,对应在待录入单据图像中查找到方框线,然后执行去除操作,相应的,计算机设备可以根据该预设单据上的检验项目的文字所在的坐标范围,对应在待录入单据图像中查找到检验项目的文字,然后执行去除操作。
在一个实施例中,计算机设备在单据格式类型不是预设单据类型时,对所述待录入单据图像上的各信息逐一进行多次识别之前,还需要对待录入单据图像进行第二背景去除预处理,具体的处理过程包括:去除待录入单据图像中的方框线。
本实施例中,计算机设备在确定待录入单据图像中的单据类型不是预设单据类型时,执行去除待录入单据图像中的方框线这一步骤的具体过程与上述实施例中去除方框线的过程不相同,具体过程为:计算机设备可以采用方框线识别器对待录入单据图像中的方框线进行识别,再将识别出的方框线去除;可选的,计算机设备还可以采用识别连续直线线条的方法,识别出方框线,再将识别出的方框线去除。
需要说明的是,计算机设备在执行完上述第一背景预处理或第二背景预处理之后,计算机设备还需要将处理后的图像进行灰度化处理,得到灰度二维图像,以便之后计算机设备可以对该灰度图像进行识别操作。
可选的,在单据格式类型不是预设单据类型时,计算机设备按照上述方法去掉待录入单据图像中的方框线之前,还包括:对待录入单据图像进行方形畸变校正处理。
当用户端拍摄单据时,若单据摆放的位置产生偏移,则会造成拍摄的单据歪斜,从而使单据上的信息不清楚,例如,单据上的文字会出现歪斜,则该文字就不是规整的文字,进而对计算机设备来说,该文字为不清楚的文字,即难以识别的文字。在此种应用场景下,计算机设备在对待录入单据图像进行识别之前,计算机设备还需要对待录入单据图像进行方形畸变校正处理,以使待录入单据图像中的信息可以清楚的呈现,以减小计算机设备对待录入图像的识别难度,从而提高计算机设备对该图像的识别精度。
需要说明的是,上述方形畸变校正处理仅针对单据格式类型不是预设单据类型的应用环境。因为,若单据格式类型是预设单据类型时,由于预设单据类型对应的单据是预先确定的,且计算机设备是根据预设单据类型对应的单据上的信息,对待录入单据图像上的信息进行识别,这一过程不会受到待录入单据图像上的信息清楚度的影响,所以,该应用场景下,不需要对待录入单据图像进行方形畸变校正处理。
可选的,本申请提出的单据录入方法中涉及到的文字识别器,如上S103所述的内容可知,其可以包括多种类型的文字识别器。而这多种类型的文字识别器在实际应用中,可以通过不同类型的计算模型进行模型训练得到。在一个实施例中,图3提供了一种文字识别器的获取方法的流程图;本实施例涉及计算机设备获取不同类型的文字识别器的具体方法。如图3所示,该方法包括:
S201、跟据待录入单据上的信息类型,确定计算模型。
其中,计算模型也即训练模型,具体用于对待录入单据上的信息进行识别训练,可选的,在实际的训练过程中,计算机设备还可以采集任何单据上的信息进行识别训练,并不局限于待录入单据上的信息类型。
本实施例中的计算模型包括逻辑回归模型和人工神经网络模型,即计算模型即可以是逻辑回归模型,也可以是基于人工神经网络训练获得模型。在实际应用中,计算机设备可以根据待录入单据上的信息类型确定计算模型的类型,具体的确定过程为:当计算机设备在对单据上的信息进行识别时,若识别结果可以预先定义在一个相对有限的集合里时,例如,开单医院名称、开单医生名称、性别、检验项目等这些信息的范围较小,此种应用下,计算机设备可以将计算模型确定为逻辑回归模型;若识别结果对应的范围比较大时,例如,姓名、年龄、条码等,此种应用下,计算机设备可以通过人工神经网络进行深度学习后获得该计算模型。。
S202、采用计算模型,对待录入单据上的信息进行模型训练,得到文字识别器。
计算机设备采用计算模型,对待录入单据上的信息进行模型训练,具体的训练过程可以为:采集待录入单据上的大量信息,再将该大量信息输入到计算模型中,调整计算模型的参数,最终使计算模型能够输出预期的识别结果,进而完成训练过程,在该过程完成后,计算机设备就可以将训练好的计算模型确定为文字识别器,相应的,计算机设备后期就可以使用该文字识别器对待录入单据上的信息进行识别。
上述实施例中,由于计算机设备根据信息的不同类型,分别采用了不同的计算模型对单据上的信息进行分析,得到本实施例中使用的多种文字识别器。对于不同的识别器模块,可对应输入输出的范围,选择不同的计算模型,对于比较简单的,可选用逻辑回归算法,而针对输入输出比较复杂的文字识别器,主要采用人工神经网络进行深度学习,进过训练后应用于识别的过程综上,本申请提出的单据录入方法中涉及到的图像信息识别过程,因图像信息的类型不同,采用不同的识别器,使整个识别过程具有一定的灵活选择性,提高了识别效率和识别精度,进而提高了单据的录入效率和准确度。
图4为图2实施例中S103的一种实现方式的流程图,如图4所示,上述S103“根据预设单据上的各填充单元格中的信息类型,选择对应的文字识别器,对待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果”,包括:
S301、根据预设单据上的文字信息,确定预设单据上的各填充单元格中的预填充信息的类型。
其中,填充单元格为预设单据上待用户填充的文字框,例如,在如图4A的申请单中,方框10、11、12、13…均为填充单元格。
本实施例中,预设单据可以预先存储在计算机设备上的数据库中,以便计算机设备使用。在实际应用中,计算机设备在对待录入单据图像进行识别时,可以先从数据库中获取预设单据,再分析预设单据上各填充单元格对应的描述文字,以确定各填充单元格中包含的预填充信息的类型。例如,如图4A所示的预设单据上,填充单元格10前述的文字为姓名,则计算机设备就可以确定填充单元格10中包含的预填充文字的类型为姓名类型;填充单元格11前述的文字为性别,则计算机设备就可以确定填充单元格11中包含的预填充文字的类型为性别类型。
S302、获取预设单据上的各填充单元格的坐标范围。
本实施例中,计算机设备可以根据预设单据上的各填充单元格所在位置,确定各填充单元格的坐标范围。
S303、针对待录入单据图像,选择与预填充信息的类型对应的文字识别器,对各坐标范围内的信息进行识别。
本实施例中,当计算机设备完成了上述S301和S302,并开始对待录入单据图像进行信息识别时,可以先根据待录入单据图像上各填充单元格中可能包含的信息类型,选择与该类型匹配的文字识别器,完成对应信息的识别,这样的识别方法识别出的信息精确度较高。而在上述过程中,因为待录入单据图像对应的单据类型和预设单据的单据类型相同,所以计算机设备可以根据预设单据上各填充单元格中的信息类型,确定待录入单据图像上各填充单元格中可能包含的信息类型。
具体的识别过程为:计算机设备可以先根据S302中得到的各坐标范围,获取在各坐标范围内,待录入单据图像上对应的各信息,然后采用对应的文字识别器,对各信息进行识别,得到包括文字、或条码、或勾选符号的第一识别结果。
图5为图2实施例中S104的一种实现方式的流程图,如图5所示,上述S104“选择多种文字识别器,对待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果”,包括:
S401、选择多种文字识别器,对待录入单据图像上的各信息逐一进行多次识别,得到每条信息对应的多条识别信息;识别信息为文字识别器输出的结果。
本实施例中,当计算机设备采用多种文字识别器,对待录入单据图像上的各信息逐一进行多次识别时,计算机设备可以得到每条信息对应的多条识别信息。例如,当计算机设备采用姓名识别器、性别识别器、以及年龄识别器对一条信息进行多次识别后,计算机设备可以获取到这一条信息对应的姓名识别器输出的识别信息、性别识别器输出的性别信息、年龄识别器输出的年龄信息。
S402、将多条识别信息中信任度最高的识别信息,确定为各信息对应的第二识别结果。
其中,信任度为文字识别器输出的结果所占正确结果的概率,信任度越高说明该文字识别器识别出的信息的准确度越高,信任度越低说明该文字识别器识别出的信息的准确度越低。
本实施例中,当计算机设备获取到图像上的一条信息对应的多条识别信息时,可以再获取该多条识别信息对应的信任度,并从中提取出信任度最高的识别信息,再将该信任度最高的识别信息确定为这一条信息对应的第二识别结果。综上,计算机设备按照上述的方法,对待录入单据图像上的所有信息进行逐一识别,最后可以得到所有信息对应的第二识别结果。
图6为一个实施例提供的一种单据录入方法的流程图,该方法涉及的是计算机设备对录入的单据进行审核的具体过程。如图6所示,该方法具体包括:
S501、将第一识别结果或第二识别结果对应录入到录单系统中的单据模板上,得到录入单据。
其中,录单系统用于在提供的单据模板上录入单据,并对录入单据进行审核。
本实施例中,当计算机设备获取到第一识别结果或第二识别结果后,计算机设备可以先从录单系统中获取单据模板,再将第一识别结果或第二识别结果对应录入到单据模板上的空白单元格中,以得到录入单据。录入单据包括了患者的信息、医生的信息、医院的信息、需要检验项目的信息等单据模板上需要录入的信息。
S502、对比待录入单据图像与录入单据上的信息,进行信息匹配。
当计算机设备完成单据模板上的信息录入后,还需要根据待录入单据图像上的信息,对录入单据上的信息进行信息匹配,以对录入单据上的信息进行校验审核。在这一过程中,计算机设备还需要将待录入单据图像与录入单据在显示屏上同时展示出来,以使用户对比分析。
S503、若待录入单据图像上的信息与录入单据上的信息不匹配,根据待录入单据图像上的信息,对录入单据上的信息进行修正。
在校验录入单据的过程中,若待录入单据图像上的信息与录入单据上的信息不匹配时,用户可以对照待录入单据图像上的信息,在计算机设备上修改录入单据上的信息,并保存修改后的录入单据,完成单据的录入。
上述实施例提供的录入单据的校验过程,通过对比分析待录入单据图像(相当于原始纸质单据)与录入单据上的信息,对录入单据进行修正,进一步的提高了本申请提出的单据录入方法的准确度。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行。
在一个实施例中,如图7所示,提供了一种单据录入装置,包括:获取模块11、分析模块12、第一识别模块13和第二识别模块14,其中:
获取模块11,用于获取待录入单据图像;
分析模块12,用于对所述待录入单据图像进行单据格式类型分析,确定所述待录入单据图像对应的单据格式类型;
第一识别模块13,用于在所述单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;
第二识别模块14,用于在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
在一个实施例中,如图8所示,提供了一种单据录入装置,该装置还包括:第一预处理模块15和第二预处理模块16,其中:
第一预处理模块15,用于去掉所述待录入单据图像中的方框线和部分文字;所述部分文字为表示检验项目的文字;
第二预处理模块16,用于去除所述待录入单据图像中的方框线。
在一个实施例中,上述第二预处理模块16还具体用于对所述待录入单据图像进行方形畸变校正处理。
在一个实施例中,如图9所示,提供了一种单据录入装置,该装置还包括文字识别器获取模块17,该模块包括:
第一确定单元171,用于跟据所述待录入单据上的信息类型,确定计算模型;
训练单元172,用于采用所述计算模型,对所述待录入单据上的信息进行模型训练,得到所述文字识别器。
在一个实施例中,如图10所示,上述第一识别模块13,包括:
第二确定单元131,用于根据预设单据上的文字信息,确定所述预设单据上的各填充单元格中的预填充信息的类型。
获取单元132,用于获取所述预设单据上的各填充单元格的坐标范围;
第一识别单元133,用于针对所述待录入单据图像,选择与所述预填充信息的类型对应的文字识别器,对各所述坐标范围内的信息进行识别,得到所述第一识别结果。
在一个实施例中,如图11所示,上述第二识别模块14,包括:
第二识别单元141,用于选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到每条信息对应的多条识别信息;所述识别信息为所述文字识别器输出的信息;
第三确定单元142,用于将所述多条识别信息中信任度最高的识别信息,确定为各信息对应的第二识别结果。
在一个实施例中,如图12所示,提供了一种单据录入装置,该装置还包括:
录入模块18,用于将所述第一识别结果或所述第二识别结果对应录入到录单系统中的单据模板上,得到录入单据;
匹配模块19,用于对比所述待录入单据图像与所述录入单据上的信息,进行信息匹配;
修正模块20,用于若所述待录入单据图像上的信息与所述录入单据上的信息不匹配,根据所述待录入单据图像上的信息,对所述录入单据上的信息进行修正。
上述实施例提供的一种单据录入装置,其实现原理和技术效果与上述方法实施例类似,在此不在累赘。
关于单据录入装置的具体限定可以参见上文中对于一种单据录入方法的限定,在此不再赘述。上述单据录入装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待录入单据图像;
对所述待录入单据图像进行单据格式类型分析,确定所述待录入单据图像对应的单据格式类型;
在所述单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;
在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
上述实施例提供的一种计算机设备,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时还实现以下步骤:
获取待录入单据图像;
对所述待录入单据图像进行单据格式类型分析,确定所述待录入单据图像对应的单据格式类型;
在所述单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;
在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
上述实施例提供的一种计算机可读存储介质,其实现原理和技术效果与上述方法实施例类似,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双倍数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种单据录入方法,其特征在于,所述方法包括:
获取待录入单据图像;
对所述待录入单据图像进行单据格式类型分析,确定所述待录入单据图像对应的单据格式类型;
在所述单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;
在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
2.根据权利要求1所述的方法,其特征在于,
在所述单据格式类型为预设单据类型时,对所述待录入单据图像上的各填充单元格中的信息进行识别之前,还包括步骤:
对所述待录入单据图像进行第一背景去除预处理,所述第一背景去除预处理包括:去掉所述待录入单据图像中的方框线和部分文字;所述部分文字为表示检验项目的文字;
在所述单据格式类型不是预设单据类型时,对所述待录入单据图像上的各信息逐一进行多次识别之前,还包括步骤:对所述待录入单据图像进行第二背景去除预处理,所述第二背景去除预处理包括:去除所述待录入单据图像中的方框线。
3.根据权利要求2所述的方法,其特征在于,
在所述单据格式类型不是预设单据类型时,所述去掉所述待录入单据图像中的方框线之前,还包括:
对所述待录入单据图像进行方形畸变校正处理。
4.根据权利要求1所述的方法,其特征在于,所述文字识别器的获取方法包括:
跟据所述待录入单据上的信息类型,确定计算模型;
采用所述计算模型,对所述待录入单据上的信息进行模型训练,得到所述文字识别器。
5.根据权利要求4所述的方法,其特征在于,所述根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果,包括:
根据预设单据上的文字信息,确定所述预设单据上的各填充单元格中的预填充信息的类型;
获取所述预设单据上的各填充单元格的坐标范围;
针对所述待录入单据图像,选择与所述预填充信息的类型对应的文字识别器,对各所述坐标范围内的信息进行识别,得到所述第一识别结果。
6.根据权利要求4所述的方法,其特征在于,所述选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果,包括:
选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到每条信息对应的多条识别信息;所述识别信息为所述文字识别器输出的信息;
将所述多条识别信息中信任度最高的识别信息,确定为各信息对应的第二识别结果。
7.根据权利要求1所述的方法,其特征在于,所述得到所述第一识别结果或所述第二识别结果之后,所述方法还包括:
将所述第一识别结果或所述第二识别结果对应录入到录单系统中的单据模板上,得到录入单据;
对比所述待录入单据图像与所述录入单据上的信息,进行信息匹配;
若所述待录入单据图像上的信息与所述录入单据上的信息不匹配,根据所述待录入单据图像上的信息,对所述录入单据上的信息进行修正。
8.一种单据录入装置,其特征在于,所述装置包括:
获取模块,用于获取待录入单据图像;
分析模块,用于对所述待录入单据图像进行单据类型分析,确定所述待录入单据图像对应的单据格式类型;
第一识别模块,用于在所述单据格式类型为预设单据类型时,根据预设单据上的各填充单元格中的预填充信息的类型,选择对应的文字识别器,对所述待录入单据图像上的各填充单元格中的信息进行识别,得到第一识别结果;
第二识别模块,用于在所述单据格式类型不是预设单据类型时,选择多种文字识别器,对所述待录入单据图像上的各信息逐一进行多次识别,得到第二识别结果。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910150457.3A CN109829444A (zh) | 2019-02-28 | 2019-02-28 | 单据录入方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910150457.3A CN109829444A (zh) | 2019-02-28 | 2019-02-28 | 单据录入方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109829444A true CN109829444A (zh) | 2019-05-31 |
Family
ID=66864862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910150457.3A Pending CN109829444A (zh) | 2019-02-28 | 2019-02-28 | 单据录入方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829444A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110362802A (zh) * | 2019-07-18 | 2019-10-22 | 中国工商银行股份有限公司 | 用于将单据信息录入系统的方法、装置、计算设备、介质 |
CN110414632A (zh) * | 2019-06-27 | 2019-11-05 | 亳州职业技术学院 | 一种针对手写物流单据的信息识别存储方法 |
CN111966640A (zh) * | 2020-09-03 | 2020-11-20 | 深圳市小满科技有限公司 | 一种单据文件识别方法及其系统 |
CN112147348A (zh) * | 2019-06-28 | 2020-12-29 | 深圳迈瑞生物医疗电子股份有限公司 | 一种样本分析仪和样本测试申请方法 |
CN112306333A (zh) * | 2020-11-11 | 2021-02-02 | 天津汇商共达科技有限责任公司 | 一种数据填充的方法及装置 |
CN114707958A (zh) * | 2022-04-02 | 2022-07-05 | 永道工程咨询有限公司 | 一种基于云端网络的计价清单审核方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130121579A1 (en) * | 2011-08-15 | 2013-05-16 | Victor John Cowley | Software for text and image edit recognition for editing of images that contain text |
CN106557747A (zh) * | 2016-11-15 | 2017-04-05 | 平安科技(深圳)有限公司 | 识别保险单号码的方法及装置 |
CN109344730A (zh) * | 2018-09-06 | 2019-02-15 | 康美健康云服务有限公司 | 数据提取方法、装置及计算机可读存储介质 |
-
2019
- 2019-02-28 CN CN201910150457.3A patent/CN109829444A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130121579A1 (en) * | 2011-08-15 | 2013-05-16 | Victor John Cowley | Software for text and image edit recognition for editing of images that contain text |
CN106557747A (zh) * | 2016-11-15 | 2017-04-05 | 平安科技(深圳)有限公司 | 识别保险单号码的方法及装置 |
CN109344730A (zh) * | 2018-09-06 | 2019-02-15 | 康美健康云服务有限公司 | 数据提取方法、装置及计算机可读存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414632A (zh) * | 2019-06-27 | 2019-11-05 | 亳州职业技术学院 | 一种针对手写物流单据的信息识别存储方法 |
CN112147348A (zh) * | 2019-06-28 | 2020-12-29 | 深圳迈瑞生物医疗电子股份有限公司 | 一种样本分析仪和样本测试申请方法 |
CN110362802A (zh) * | 2019-07-18 | 2019-10-22 | 中国工商银行股份有限公司 | 用于将单据信息录入系统的方法、装置、计算设备、介质 |
CN111966640A (zh) * | 2020-09-03 | 2020-11-20 | 深圳市小满科技有限公司 | 一种单据文件识别方法及其系统 |
CN112306333A (zh) * | 2020-11-11 | 2021-02-02 | 天津汇商共达科技有限责任公司 | 一种数据填充的方法及装置 |
CN114707958A (zh) * | 2022-04-02 | 2022-07-05 | 永道工程咨询有限公司 | 一种基于云端网络的计价清单审核方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829444A (zh) | 单据录入方法、装置、计算机设备和存储介质 | |
CN110210286B (zh) | 基于眼底图像的异常识别方法、装置、设备及存储介质 | |
CN109635838B (zh) | 人脸样本图片标注方法、装置、计算机设备及存储介质 | |
CN110797101B (zh) | 医学数据处理方法、装置、可读存储介质和计算机设备 | |
CN110021439A (zh) | 基于机器学习的医疗数据分类方法、装置和计算机设备 | |
US10878570B2 (en) | Knockout autoencoder for detecting anomalies in biomedical images | |
CN111243730B (zh) | 一种基于乳腺超声影像的乳腺病灶智能分析方法及系统 | |
CN116861014B (zh) | 一种基于预训练语言模型的图像信息抽取方法及装置 | |
CN105844088B (zh) | 通用型临床试验电子数据获取系统和获取方法 | |
CN111724136A (zh) | 病案首页信息的录入方法、装置及计算机设备 | |
CN111710383A (zh) | 病历质控方法、装置、计算机设备和存储介质 | |
CN101908093A (zh) | 电子病历及基于其对医疗过程进行控制的系统和方法 | |
CN113688912A (zh) | 基于人工智能的对抗样本生成方法、装置、设备及介质 | |
CN112035619A (zh) | 基于人工智能的医疗问诊单筛选方法、装置、设备和介质 | |
CN114022738A (zh) | 训练样本获取方法、装置、计算机设备和可读存储介质 | |
CN113283388B (zh) | 活体人脸检测模型的训练方法、装置、设备及存储介质 | |
CN109492533A (zh) | 利用图像识别技术验证学历的方法、装置和计算机设备 | |
EP3477652A1 (en) | Matching a subject to resources | |
CN110705714B (zh) | 深度学习模型检测方法、深度学习平台以及计算机设备 | |
CN113837169B (zh) | 文本数据处理方法、装置、计算机设备及存储介质 | |
CN110473621A (zh) | 诊断数据显示方法、计算机设备和存储介质 | |
CN109524102B (zh) | 检查参数选择的方法及装置、计算机设备和可读存储介质 | |
CN109767340A (zh) | 血液病报销准入方法、装置、设备及可读存储介质 | |
US20240194328A1 (en) | Dual Attention Network Using Transformers for Cross-Modal Retrieval | |
US11978273B1 (en) | Domain-specific processing and information management using machine learning and artificial intelligence models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190531 |