CN116798055A

CN116798055A - 表单录入方法及装置、电子设备和计算机可读介质

Info

Publication number: CN116798055A
Application number: CN202210248770.2A
Authority: CN
Inventors: 韩东燃; 窦智丽; 马一跃; 郭凤英; 刘一星
Original assignee: Beijing University of Chinese Medicine
Current assignee: Beijing University of Chinese Medicine
Priority date: 2022-03-14
Filing date: 2022-03-14
Publication date: 2023-09-22

Abstract

本发明提供一种表单录入方法、表单录入装置、电子设备和计算机可读介质，其能够快速且准确地自动录入表单中所包含的信息。所述表单录入方法包括：步骤S1：扫描待录入表单以获取表单图像，待录入表单具有高度方向和宽度方向；步骤S2：将表单图像划分为多个单元格，并将每一个单元格的文本块图像区切割成至少一个单独的文本图像；步骤S3：对多个单独的文本图像分别识别，以获取文本图像中的文字；和步骤S4：基于识别结果，将待录入表单录入预先存储的表单模板中。

Description

表单录入方法及装置、电子设备和计算机可读介质

技术领域

本发明涉及计算机领域，尤其涉及一种表单录入方法、表单录入装置、电子设备和计算机可读介质。

背景技术

随着电子设备的发展，许多功能转移到了线上进行。在使用电子设备的过程中，用户经常需要填写各种表单。由于许多表单填写的信息经常是重复的，例如个人信息等，因此，为了减少用户的表单填写工作量，目前提出许多自动进行表单填写的相关方案。然而，在目前的表单填充方案中，通常仅支持单一应用的表单填写，例如快递应用中保存的信息，仅支持在进行快递单号查询或快递表单填写时使用。因此，使用场景单一，导致用户在其他应用中进行表单填写时，仍需要手动进行填写，适用范围窄。

OCR(Optical Character Recognition，光学字符识别)技术通常用于字符识别，其通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息，再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。企业的货物交易一般通过表单作为商品交易的记录凭证，传统的表单需要存档时，需要员工对着表单的每个单元格的内容进行人工录入，但是传统的人工录入表单耗时较长，效率不高。

在医学领域，也有很多信息采集需要用到OCR技术，如病历信息、检查结果、影像学检查结果。目前电子病历的信息都是自然语句形式，无法直接用作科研分析。因此，研究者在做科研分析时，需要逐一录入结构化系统或者转化为结构化数据，费时费力，而且容易出错。虽然OCR技术已经广泛应用，但也存在缺点，如识别错误、无法识别表格信息和图片信息等，仍然需要人工核对。

发明内容

本发明提供一种表单录入方法、表单录入装置、电子设备和计算机可读介质，其能够快速且准确地自动录入表单中所包含的信息。

根据本发明实施例的一个方面，提出一种表单录入方法，包括：步骤S1：扫描待录入表单以获取表单图像，待录入表单具有高度方向和宽度方向；步骤S2：将表单图像划分为多个单元格，并将每一个单元格的文本块图像区切割成至少一个单独的文本图像；步骤S3：对多个单独的文本图像分别识别，以获取文本图像中的文字；和步骤S4：基于识别结果，将待录入表单录入预先存储的表单模板中。

根据本发明实施例的另一个方面，提出一种表单录入装置，包括：表单扫描模块，所述表单扫描模块扫描待录入表单以获取表单图像，待录入表单具有高度方向和宽度方向；图像处理模块，所述图像处理模块将表单图像划分为多个单元格，并将每一个单元格的文本块图像区切割成至少一个单独的文本图像；识别模块，所述识别模块对多个单独的文本图像分别识别，以获取文本图像中的文字；和录入模块，所述录入模块基于识别结果将待录入表单录入预先存储的表单模板中。

根据本发明实施例的又一个方面，提出一种电子设备，包括一个或多个处理器和用于存储一个或多个程序的存储装置。当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述的表单录入方法。

根据本发明实施例的另外一个方面，提出一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述的表单录入方法。

附图说明

本发明的上述及其它方面和特征将从以下结合附图对实施例的说明清楚呈现，其中：

图1是本发明的实施例的表单录入方法的示意性流程图；

图2是本发明的实施例的表单录入装置的框结构图；以及

图3A-图3D是根据本发明的示例性实施例的表单录入示意图。

具体实施方式

下面参照附图详细描述本发明的说明性、非限制性实施例，对根据本发明的表单录入方法及装置、电子设备和计算机可读介质进行进一步说明。

在对患者就医信息的采集过程中，病历信息不仅繁多而且复杂，因此需要将采集的患者信息进行分模块填写，便于在使用过程中随时填写，随时自动记录。在本发明中，通过对包含大量信息的纸质或电子的图像(例如，B超、电子病例、处方等)进行扫描，获取表单图像或大段自然语句(如电子病例信息、处方信息等)。然后，对该表单图像的每个单元格的连续文字块进行切割获得单个文字图像，再利用OCR技术对文字进行识别，并基于识别结果将待录入表单中的信息自动填写至该表单的电子模板内，以便解决人工录入表单耗时高的问题。

在本发明中，文字识别技术不限于OCR，也可以是其他的文字识别技术。

图1显示本发明的实施例的表单录入方法的示意性流程图。所述表单录入方法包括：步骤S1：扫描待录入表单以获取表单图像，所述待录入表单具有高度方向和宽度方向；步骤S2：将表单图像划分为多个单元格，并将每一个单元格的文本块图像区切割成至少一个单独的文本图像；步骤S3：对多个单独的文本图像分别识别，以获取文本图像中的文字；和步骤S4：基于所述识别结果，将待录入表单录入预先存储的表单模板中。本发明的表单录入方法能够将表单中的信息自动录入预先存储的表单模板中，与传统的人工录入表单相比能够降低所需的时间，从而提高效率并节省成本。另外，本发明的表单录入方法由于从信息采集开始即分成单独区块分别识别文字信息，并自动录入表单模板中，因此与传统的OCR识别技术相比，能够准确地录入表单中的信息而无需人工核对。

进一步地，所述步骤S2包括：步骤S21：选定待录入表单的顶点和边线并执行矩形变换，以获得表单轮廓；步骤S22：选定分割线以将表单图像划分为多个单元格，每个单元格的边与高度方向或宽度方向平行；步骤S23：对划分后的每一个单元格进行矩形变换以获得矩形单元格；和步骤S24：切割每一个矩形单元格中的文本块图像区，以获得多个单独的文本图像。

在一个实施例中，所述步骤S22包括：确定相邻单元格之间在高度方向或宽度方向上的分割线，在相邻单元格在高度方向上相邻的情况下，分割线平行于宽度方向，在相邻单元格在宽度方向上相邻的情况下，分割线平行于高度方向；和以分割线划分相邻的单元格。

在一个实施例中，所述步骤S24包括：对于每一个矩形单元格中的文本块图像区，确定连续的文本块图像；和将文本块图像切割成至少一个单独的文本图像。可选地，所述确定连续的文本块图像的步骤可以包括将连续的文本块图像中每一个的长度与设定值相比较，并在判定文本块图像的长度大于所述设定值时将文本块图像切割成单独的文本图像。当判定文本块图像的长度大于所述设定值时，文本块图像包括至少两个字符。

此外，在本发明的一个实施例的表单录入方法中，在步骤S2中确定每一个文本图像在待录入表单中的位置，且在步骤S4中，以所述确定的位置将在步骤S3中获取的文字放置到表单模板中的对应位置。

进一步地，在一个实施例中，在步骤S2中可以基于确定的位置为每一个文本图像编号，并在步骤S4中，以所述文本图像编号将步骤S3中获取的文字放置到表单模板中的对应位置。此外，在步骤S4中，可以对编号的每一个文本图像分配关键词，并基于所述关键词将文本图像放置到表单模板中的对应位置。

在一个实施例中，步骤S3包括：对所述多个文本图像进行文字识别；将识别后的文字导入文字库并与文字库中的字符比对；和基于所述比对结果，选取与待录入表单中的文字相符的字符。进一步地，在步骤S4中，将选取的字符录入表单模板中。在一个示例中，所述文字库可以包括中文字库和英文字库，本发明的表单录入方法将步骤S2中获取的中文文字和英文文字分别导入中文字库和英文字库进行识别，并选取与待录入表单内容逻辑相符合的字符作为识别结果。

在本发明的实施例中，在步骤S1之后且在步骤S2之前，所述表单录入方法还可以包括：对表单图像进行二值化处理以获得二值化的表单图像。在图像处理中，二值化处理使图像变得简单，并且图像中的数据量大为减少，能凸显出感兴趣的目标的轮廓，从而有利于图像的进一步处理。

图2是本发明的实施例的表单录入装置的框结构图。如图2中所示，所述表单录入装置100包括：表单扫描模块10，所述表单扫描模块扫描待录入表单以获取表单图像，待录入表单具有高度方向和宽度方向；图像处理模块20，所述图像处理模块将表单图像划分为多个单元格，并将每一个单元格的文本块图像区切割成至少一个单独的文本图像；识别模块30，所述识别模块对多个单独的文本图像分别识别，以获取文本图像中的文字；和录入模块40，所述录入模块基于所述识别结果将待录入表单录入预先存储的表单模板中。

进一步地，在一个实施例中，图像处理模块20可以包括：选定模块21，所述选定模块设置成选定表单轮廓和划分多个单元格；和切割模块22，所述切割模块设置成切割每一个单元格中的文本块图像区，以获得多个单独的文本图像。在选定模块21中，选定所待录入表单的顶点和边线并执行矩形变换，以获得表单轮廓，然后选定分割线以将表单图像划分为多个单元格，每个单元格的边与高度方向或宽度方向平行，并对划分后的每一个单元格进行矩形变换以获得矩形单元格。

在一个实施例中，选定模块21设置成确定相邻单元格之间在高度方向或宽度方向上的分割线。在相邻单元格在高度方向上相邻的情况下，分割线平行于宽度方向。在相邻单元格在宽度方向上相邻的情况下，分割线平行于高度方向。选定模块21以分割线划分相邻的单元格。

在一个实施例中，切割模块22对于每一个矩形单元格中的文本块图像区确定连续的文本块图像，并将文本块图像切割成至少一个单独的文本图像。

可选地，切割模块22设置成将连续的文本块图像中每一个的长度与设定值相比较，并在判定文本块图像的长度大于所述设定值时将文本块图像切割成单独的文本图像。在一个示例中，当判定文本块图像的长度大于所述设定值时，文本块图像包括至少两个字符。

在一个实施例中，图像处理模块20确定每一个文本图像在待录入表单中的位置。录入模块40以所述确定的位置将识别模块30获取的文字放置到表单模板中的对应位置。

在一个可选实施例中，图像处理模块20基于确定的位置为每一个文本图像编号，并且录入模块40以所述文本图像编号将识别模块30获取的文字放置到表单模板中的对应位置。进一步地，录入模块40可以对编号的每一个文本图像分配关键词，并基于所述关键词将文本图像放置到表单模板中的对应位置。

在另一个实施例中，识别模块30包括：识别子模块31，所述识别子模块对多个文本图像进行文字识别；对比模块32，所述对比模块将识别后的文字导入文字库并与所述文字库中的字符比对；和选取模块33，所述选取模块基于所述比对结果选取与待录入表单中的文字相符的字符。进一步地，录入模块40将选取的字符录入表单模板中。在一个示例中，所述文字库可以包括中文字库和英文字库，本发明的表单录入装置将获取的中文文字和英文文字分别导入中文字库和英文字库进行识别，并选取与待录入表单内容逻辑相符合的字符作为识别结果。

在一个实施例中，所述表单录入装置还包括二值化处理模块23，所述二值化处理模块设置成对表单图像进行二值化处理，以获得二值化的表单图像。

在本发明的另一个实施例中，提出一种电子设备。所述电子设备包括一个或多个处理器和用于存储一个或多个程序的存储装置。当所述一个或多个程序被所述一个或多个处理器执行时，使得处理器执行上述的表单录入方法。

在本发明的又一个实施例中，提出一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行上述的表单录入方法。

接下来，将参照图3A-3D示例性地说明本发明的表单录入方法。图3A为包含患者信息的待录入表单，图3B为录入图3A中所示信息的专科门诊系统界面示意图，图3C为患者的影像学检查结果图像，以及图3D为已录入图3C中的影像学检查信息的专科门诊系统界面示意图。

参照图3A和图3B，文本病历部分可以被分割为主要症状、主症史、其他症状、一般情况、情绪情况、舌脉象、既往史、家族史、过敏史、手术史、用药史、个人史、婚姻史、生育史、辅助检查、西医诊断、中医诊断、中医辨证等。本发明的表单录入方法可以分别记录每个最终无法再切分的子文本块的坐标，并根据坐标位置进行切分以形成区块，并按照区块的顶点横纵坐标大小对区块进行编号，分别以关键词形式填充到预先存储的表单模板的对应文本框中。如图3A和3B中所示，将患者病史情况作为子文本块，以关键词将患者病史信息自动录入专科门诊系统中的病例文本框的相应位置。如图3C和3D中所示，将患者影像检查结果作为子文本块，以关键词将患者检查结果的信息自动录入专科门诊系统中的影像学检查文本框的相应位置。

以上所述仅为本发明的实施例，并不用以限制本发明，本领域技术人员可以理解，在不背离本发明的精神和原理的情况下所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种表单录入方法，包括：

步骤S1：扫描待录入表单以获取表单图像，所述待录入表单具有高度方向和宽度方向；

步骤S2：将所述表单图像划分为多个单元格，并将每一个单元格的文本块图像区切割成至少一个单独的文本图像；

步骤S3：对所述多个单独的文本图像分别识别，以获取所述文本图像中的文字；和

步骤S4：基于所述识别结果，将所述待录入表单录入预先存储的表单模板中。

2.根据权利要求1所述的表单录入方法，其中，所述步骤S2包括：

步骤S21：选定所述待录入表单的顶点和边线并执行矩形变换，以获得表单轮廓；

步骤S22：选定分割线以将所述表单图像划分为所述多个单元格，每个单元格的边与所述高度方向或所述宽度方向平行；

步骤S23：对划分后的每一个单元格进行矩形变换以获得矩形单元格；和

步骤S24：切割每一个矩形单元格中的文本块图像区，以获得所述多个单独的文本图像。

3.根据权利要求2所述的表单录入方法，其中，所述步骤S22包括：

确定相邻单元格之间在所述高度方向或所述宽度方向上的分割线，在相邻单元格在所述高度方向上相邻的情况下，所述分割线平行于所述宽度方向，在相邻单元格在所述宽度方向上相邻的情况下，所述分割线平行于所述高度方向；和

以所述分割线划分相邻的单元格。

4.根据权利要求2所述的表单录入方法，其中，所述步骤S24包括：

对于每一个矩形单元格中的所述文本块图像区，确定连续的文本块图像；和

将所述文本块图像切割成至少一个单独的文本图像。

5.根据权利要求4所述的表单录入方法，其中，所述确定连续的文本块图像的步骤包括：

将连续的文本块图像中每一个的长度与设定值相比较，并在判定文本块图像的长度大于所述设定值时将所述文本块图像切割成单独的文本图像。

6.根据权利要求5所述的表单录入方法，其中，当判定文本块图像的长度大于所述设定值时，所述文本块图像包括至少两个字符。

7.根据权利要求1所述的表单录入方法，其中：

在所述步骤S2中，确定每一个文本图像在所述待录入表单中的位置；以及

在所述步骤S4中，以所述确定的位置，将在所述步骤S3中获取的文字放置到所述表单模板中的对应位置。

8.根据权利要求7所述的表单录入方法，其中：

在所述步骤S2中，基于所述位置为每一个文本图像编号；以及

在所述步骤S4中，以所述文本图像编号将步骤S3中获取的文字放置到所述表单模板中的对应位置。

9.根据权利要求8所述的表单录入方法，其中，在所述步骤S4中，对编号的每一个文本图像分配关键词，并基于所述关键词将所述文本图像放置到所述表单模板中的对应位置。

10.根据权利要求1所述的表单录入方法，其中，所述步骤S3包括：

对所述多个文本图像进行文字识别；

将识别后的文字导入文字库并与所述文字库中的字符比对；和

基于所述比对结果，选取与所述待录入表单中的文字相符的字符。

11.根据权利要求10所述的表单录入方法，其中，在所述步骤S4中，将选取的所述字符录入所述表单模板中。

12.根据权利要求1-11中任一项所述的表单录入方法，其中，在所述步骤S1之后且在所述步骤S2之前，所述表单录入方法还包括：

对所述表单图像进行二值化处理，以获得二值化的表单图像。

13.一种表单录入装置，包括：

表单扫描模块，所述表单扫描模块扫描待录入表单以获取表单图像，所述待录入表单具有高度方向和宽度方向；

图像处理模块，所述图像处理模块将所述表单图像划分为多个单元格，并将每一个单元格的文本块图像区切割成至少一个单独的文本图像；

识别模块，所述识别模块对所述多个单独的文本图像分别识别，以获取所述文本图像中的文字；和

录入模块，所述录入模块基于所述识别结果将所述待录入表单录入预先存储的表单模板中。

14.根据权利要求13所述的表单录入装置，其中，所述图像处理模块包括：

选定模块，所述选定模块设置成选定表单轮廓和划分所述多个单元格；和

切割模块，所述切割模块设置成切割每一个单元格中的文本块图像区，以获得所述多个单独的文本图像，

其中，在所述选定模块中：

选定所述待录入表单的顶点和边线并执行矩形变换，以获得所述表单轮廓；

选定分割线以将所述表单图像划分为所述多个单元格，每个单元格的边与所述高度方向或所述宽度方向平行；以及

对划分后的每一个单元格进行矩形变换以获得矩形单元格。

15.根据权利要求14所述的表单录入装置，其中：

所述选定模块确定相邻单元格之间在所述高度方向或所述宽度方向上的分割线，在相邻单元格在所述高度方向上相邻的情况下，所述分割线平行于所述宽度方向，在相邻单元格在所述宽度方向上相邻的情况下，所述分割线平行于所述高度方向；以及

所述选定模块以所述分割线划分相邻的单元格。

16.根据权利要求14所述的表单录入装置，其中，所述切割模块对于每一个矩形单元格中的所述文本块图像区，确定连续的文本块图像，并将所述文本块图像切割成至少一个单独的文本图像。

17.根据权利要求16所述的表单录入装置，其中，所述切割模块设置成将连续的文本块图像中每一个的长度与设定值相比较，并在判定文本块图像的长度大于所述设定值时将所述文本块图像切割成单独的文本图像。

18.根据权利要求17所述的表单录入装置，其中，当判定文本块图像的长度大于所述设定值时，所述文本块图像包括至少两个字符。

19.根据权利要求13所述的表单录入装置，其中：

所述图像处理模块确定每一个文本图像在所述待录入表单中的位置；以及

所述录入模块以所述确定的位置将所述识别模块获取的文字放置到所述表单模板中的对应位置。

20.根据权利要求19所述的表单录入装置，其中：

所述图像处理模块基于所述位置为每一个文本图像编号；以及

所述录入模块以所述文本图像编号将所述识别模块获取的文字放置到所述表单模板中的对应位置。

21.根据权利要求20所述的表单录入装置，其中，所述录入模块对编号的每一个文本图像分配关键词，并基于所述关键词将所述文本图像放置到所述表单模板中的对应位置。

22.根据权利要求13所述的表单录入装置，其中，所述识别模块包括：

识别子模块，所述识别子模块对所述多个文本图像进行文字识别；

对比模块，所述对比模块将识别后的文字导入文字库并与所述文字库中的字符比对；和

选取模块，所述选取模块基于所述比对结果选取与所述待录入表单中的文字相符的字符。

23.根据权利要求22所述的表单录入装置，其中，所述录入模块将选取的所述字符录入所述表单模板中。

24.根据权利要求13-23中任一项所述的表单录入装置，还包括：

二值化处理模块，所述二值化处理模块设置成对所述表单图像进行二值化处理，以获得二值化的表单图像。

25.一种电子设备，包括：

一个或多个处理器；和

存储装置，用于存储一个或多个程序，

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1-12中任一项所述的表单录入方法。

26.一种计算机可读介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行根据权利要求1-12中任一项所述的表单录入方法。