CN116958996A

CN116958996A - Ocr信息提取方法、系统及设备

Info

Publication number: CN116958996A
Application number: CN202310908332.9A
Authority: CN
Inventors: 王辉; 王桂元; 彭彦程
Original assignee: Kaitaiming Beijing Technology Co ltd
Current assignee: Kaitaiming Beijing Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-27

Abstract

本发明提供了一种OCR信息提取方法、系统及设备。所述方法包括：将需要识别的OCR图片通过可视化模板配置系统配置为模板，并将模版转换为标准数据模型；通过信息提取的图片识别接口对接收的图片信息集合进行识别，转换为文本格式，对转换后的文本格式进行标准化处理，转为识别数据模型；从识别数据模型找到与标准数据模型字段对应的值，写入到标准数据模型中，从而实现信息提取。本发明提供的OCR信息提取方法、系统及设备能够解决现有OCR信息提取过程中成本高、效率低及适用性有限的问题。

Description

OCR信息提取方法、系统及设备

技术领域

本发明涉及OCR技术领域，具体涉及一种OCR信息提取方法、系统及设备。

背景技术

在OCR技术已经经过多年的发展，现在已经比较成熟，随着深度学习等技术的出现，OCR技术的精度和速度都有了很大的提高，目前已经可以在许多应用场景中广泛应用；OCR（Optical Character Recognition）技术是将图像中的文字进行识别并转换为文本格式的技术，但这些文本一般都是非结构化的，缺少标准的格式和组织，如果要对这些文本进行有效的数据分析和应用，就需要将其转化为结构化数据。

OCR识别后的文本被应用在多领域中，OCR信息提取就是对OCR识别后文本进行应用，OCR信息提取是通过某种技术手段来提取目标文本中的有用信息，主要是将识别后的非结构化数据转为结构化数据的过程，例如身份证号码、姓名、地址、金额等；一方面OCR信息提取主要停留在特定的领域中，主要是证件、车牌等数据结构比较简单的领域，另一方面OCR信息提取技术存在着一定的技术难度，OCR信息提取技术主要是基于机器学习通过大量的数据训练来实现的，对数据需求高，训练时间长等；随着OCR识别技术的成熟，将需要提取信息图片通过动态配置系统配置成模板，快速简单的实现将OCR识别后的文本转换为结构化数据，从而更方便地进行数据挖掘和分析、信息检索等，从中发现业务痛点，优化业务流程，提高效率。

现有OCR信息提取的过程，主要是通过模型训练来实现的，包括机器学习、深度学习以及自然语言处理等技术：基于机器学习的方法：借助机器学习的方法，对文本数据进行训练，并构建模型以实现自动解析和分类。例如，可以采用分类算法对场景文本进行分类，如身份证件、合同等；基于深度学习的方法：利用神经网络等深度学习算法，从大量的非结构化文本数据中自动学习字段的语义特征，提高文本解析和分类的准确率；结合自然语言处理技术：利用自然语言处理技术，对文本进行语义理解和分析，并结合上述方法实现字段解析和分类。

现有技术有如下的缺点：

一、成本高

1、无论是机器学习、深度学习还是自然语言处理技术都需要大量的训练数据，而且数据的质量和形式对最终模型的训练结果影响非常大；训练的数据需要标准，如手工标注数据等，这往往需要大量的人工劳动和时间成本。

2、需要专业的技术团队支持，包括图像处理工程师、数据科学家等。

3、训练机器学习模型需要花费大量的计算资源和时间，特别是当训练数据集非常大或模型比较复杂的时候。

二、效率低

1、训练模型的训练数据需要进行标注，标注数据往往都是手工的过程，手工标准数据将会耗费大量的人力时间成本，且标注容易出现错误，需要做重复的工作。

2、训练模型时间较长，需要不断的训练模型，直到模型符合指标位置。

三、适用性有限

这些方案的适用性有限，常常需要针对特定的文本类型和应用场景进行调整和优化，因此不够通用，目前OCR信息提取的应用领域主要是证件以及车牌等领域。

发明内容

本申请提供了一种OCR信息提取方法、系统及设备，能够解决现有OCR信息提取过程中成本高、效率低及适用性有限的问题。

鉴于上述问题，本申请提供了一种OCR信息提取方法、系统及设备。

第一方面，本申请提供了一种OCR信息提取方法，所述方法包括：

将需要识别的OCR图片通过可视化模板配置系统配置为模板，并将模版转换为标准数据模型；

通过信息提取的图片识别接口对接收的图片信息集合进行识别，转换为文本格式，对转换后的文本格式进行标准化处理，转为识别数据模型；

从识别数据模型找到与标准数据模型字段对应的值，写入到标准数据模型中，从而实现信息提取。

第二方面，本申请提供了一种OCR信息提取系统，所述系统包括：

配置模块，用于将需要识别的OCR图片通过可视化模板配置系统配置为模板，并将模版转换为标准数据模型；

识别模块，用于通过信息提取的图片识别接口对接收的图片信息集合进行识别，转换为文本格式，对转换后的文本格式进行标准化处理，转为识别数据模型；

写入模块，用于从识别数据模型找到与标准数据模型字段对应的值，写入到标准数据模型中，从而实现信息提取。

第三方面，本申请提供了一种电子设备，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现前文所述的一种OCR信息提取方法。

本申请中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、无需掌握过高的技术既可以实现将OCR识别的结果信息快速提取出来；

2、使用范围广，不限制特定领域，目前OCR识别后的信息提取领域都是通过机器学习或者深度学习通过大量数据训练而来，限制范围高；

3、成本低，只需要将识别的图片配置成模板，既可以快速提取信息。

附图说明

图1为本发明实施例提供的OCR信息提取方法的流程图；

图2为本发明实施例提供的OCR信息提取方法中配置过程的流程图；

图3为本发明实施例提供的OCR信息提取方法中识别过程的流程图；

图4为本发明实施例提供的识别过程中标识的流程图；

图5为本发明实施例提供的识别过程中模型转换的流程图；

图6为本发明实施例提供的OCR信息提取系统的结构图；

图7为本发明实施例提供的电子设备的结构示意图。

具体实施方式

OCR（Optical Character Recognition）技术是将图像中的文字进行识别并转换为文本格式的技术，但这些文本一般都是非结构化的，缺少标准的格式和组织，如果要对这些文本进行有效的数据分析和应用，就需要将其转化为结构化数据，将识别后的文本转为结构化数据的过程叫做信息提取。本发明通过可视化的字段模板配置系统将非结构化的文本信息转化为结构化数据，可视化字段模板配置系统可以动态配置不同类型的OCR图片，从而实现OCR识别信息提取的通用性，使用人员不需要掌握技术既可以通过可视化页面配置所需要识别的图片字段，从而快速简单的实现OCR信息提取，解决OCR识别后信息提取领域固定不通用适用性有限以及技术难度过高的问题，实现不需要太多的技术成本即可高效的将OCR识别后的文本结构化。

本发明提供了一种OCR信息提取方法、系统及设备。在本发明实施例中，提供了OCR信息提取方法。参见图1，OCR信息提取方法包括如下步骤：

S11，将需要识别的OCR图片通过可视化模板配置系统配置为模板，并将模版转换为标准数据模型。

本发明包含一个OCR识别图片的可视化的模板配置系统，可视化模板配置系统是WEB系统，包含一个用于动态配置、修改、查看和删除模板的功能，动态配置模板的功能中包含了如下组件：时间组件、文本组件、数字组件、行组件、列组件、图片组件、标题组件、表格组件等，每个组件都至少包含字段名称、值方位、正则表达式、计算公式、分隔符等属性。

将需要识别的OCR图片通过可视化模板配置系统配置为模板的过程，是将OCR图片上的各元素，例如字段、表格等元素，按照行列的排列方式通过可视化模板系统转换为模板系统中对应组件的过程，例如OCR识别图片中的第一行包含一个字段为“出险日期”为“2022-05-01 15:02:02”的信息，通过可视化配置系统拖拽时间组件到模板的第一行并设置组件的字段名称属性为“出险日期”。

将OCR识别的图片通过可视化模板配置系统配置成模板后，将对应的模板按照行列结构化的方式转为JSON数据格式，每一行中包含多个模板组件，每个模板组件都有自己的组件属性，最后面将模板转换的JSON数据格式存储到存储系统中，并生成模板JSON数据的唯一标识，唯一标识用于标记模板的JSON数据的唯一性。

S12，通过信息提取的图片识别接口对接收的图片信息集合进行识别，转换为文本格式，对转换后的文本格式进行标准化处理，转为识别数据模型。

本发明包含一个OCR识别后的信息提取系统，信息提取系统会提供一个接口用于接收需要识别的图片信息集合，通过信息提取的图片识别接口对接收的图片信息集合进行识别转换为文本格式，对转换后的文本格式就行标准化处理转为识别数据模型。

S13，从识别数据模型找到与标准数据模型字段对应的值，写入到标准数据模型中，从而实现信息提取。

信息提取是通过标准数据模型与识别数据模型进行字段映射的一个过程，从识别数据模型找到与标准数据模型字段对应的值，写入到标准数据模型中，从而实现信息提取，具体分为两个步骤实现：

先将标准数据模型的行与识别数据模型的行进行匹配，将标准数据模型的每一行与识别数据模型中的每一行中的列字段进行匹配，计算匹配度，匹配度的计算是通过标准数据模型每一行中的字段是否与识别模型中每一行的数据字段存在映射关系，存在映射关系递增+1，不存在不处理，通过最后的累加值计算出匹配度，并且记录本次计算的匹配度，下次计算发现匹配度大于本次计算匹配度就替换为最新的，如果小于就不做处理，获取匹配度最高的行，并且标准数据模型行对应。

对标准数据模型中每一行的标准列进行值匹配操作，先取出每一行映射的识别数据模型行，并与识别数据模型行中的列进行匹配，先匹配字段，字段匹配上之后根据配置属性中的正则表达式、值所在位置以及计算公式等运算出当前值所在的位置，并将值取出来保存到标准数据模型的对应列中。

完成值对应后，将标准数据模型转为标准的结构化数据，并保存结构化数据到存储系统中，生成结构化数据的唯一标识；通过唯一标识获取当前OCR图片的结构化数据，从而完成信息提取的步骤。

通过上述S11至S13的操作，也就是先识别标准数据模型，再得到识别数据模型，最后将标准数据模型与识别数据模型进行融合，实现了对OCR识别信息的快速提取，技术门槛低，限制范围小。

图2示出了OCR信息提取方法中配置过程的流程图。参见图2，将需要识别的OCR图片通过可视化模板配置系统配置为模板，并将模版转换为标准数据模型，包括：

S111，接口接收模板唯一标识。

S112，通过唯一标识从存储系统中获取模板的JSON数据。

S113，将JSON数据通过JSON库转为JSON对象。

S114，取出每一行中的模板组件以及组件属性，转为标准字段或者标准表格等，根据不同的组件做不同的转换，统一叫做标准数据列。

S115，将标准数据列按照模板配置的位置保存到对应的标准数据行中。

S116，存储标准数据模型到存储系统中，并生成标准数据模型的唯一标识。

本发明包含一个OCR识别后的信息提取系统，OCR信息提取系统主要对配置的模板进行转换、进行OCR图片识别、信息提取计算等。

信息提取系统提供一个接口用于接收模板配置系统的模板唯一标识，通过信息提取系统的模板转换方法将模板JSON数据转为标准数据模型，标准结构化数据模型包含多行，每一行中包含多个字段或者多个表格信息，具体转换步骤如图2所示。

转换后标准数据模型结构就是包含多行标准数据行，标准数据行中包含多个标准字段、标准表格等标准列。

图3示出了OCR信息提取方法中识别过程的流程图。参见图3，通过信息提取的图片识别接口对接收的图片信息集合进行识别，转换为文本格式，对转换后的文本格式进行标准化处理，转为识别数据模型，包括：

S121，信息提取接口接收需要识别的图片信息集合，对图片信息集合中的图片进行图像预处理。

信息提取接口将会接收需要识别的图片信息集合，首先对图片信息集合中的图片进行图像预处里，图片预处理包括：降噪，通过滤波、去除线、降低分辨率等方式消除图像中存在的干扰，如噪声、线干扰等；调整图像亮度和对比度，使得字符更加清晰；对于出现倾斜的图像，进行旋转校正，以便后续算法能够更好地识别字符。

信息提取系统中包含一个OCR图片识别方法接口，OCR图片识别方法接口接收预处理后的图片信息，将图像中的文字进行识别并转换为文本格式，识别返回的文本格式是一个集合，集合中的每一个元素包含识别的文本、高度、宽度、左边距以及顶边距等属性，通过信息提取系统中的方法将识别后的文本格式集合转换为标准识别集合对象。

S122，进行OCR识别结果的清洗，去除无用信息，提取需要的文本和字段，清理特殊字符和格式。

返回的OCR识别结果需要清洗是因为在OCR技术对非结构化的文本或图片进行文字识别时，会存在一定的误差或噪声，可能会识别出一些不准确或无用的文本信息。此外，OCR识别结果中可能还会包含一些格式标记、空格、换行符等无用的文本格式，这些都会干扰后续的文本解析和映射过程，降低数据的准确性和可靠性。因此，需要进行OCR识别结果的清洗，即去除无用信息、提取需要的文本和字段，清理特殊字符和格式等，以获得准确的文本数据。对文本进行过滤、去重或归并等，从而获得更加准确和干净的数据，提高数据的可靠性和有效性。

具体的清洗处理包括：

去除干扰字符，文本中可能存在一些无用或干扰性的字符，如标点符号、换行符、制表符、空格等，需要去除；

有些情况下，OCR可能漏识别了一些字符，这时需要进行字符补全操作，利用拼音（或其他语音）、字形/笔画、上下文等信息来判断缺失字符；

OCR识别中可能发生字形相似的错别字替换，需要进行纠正操作，可以利用词典、上下文等方法进行纠正；

由于OCR技术的特性，可能会识别出一些与要求不一致的字符，如数字0与字母O混淆等，这时需要进行字符替换操作。

S123，将识别结果中的部分文本标识为标准模型中字段。

OCR识别结果字段映射是将识别结果中的部分文本标识为标准模型中字段的一个过程，例如在OCR识别结果中包含文本“出险日期”，通过与标准模型中的字段进行规则映射匹配，得到标准模型中存在“出险日期”的字段，将当前OCR识别结果的出险日期标识为字段，并且与标准模型中的字段“出险日期”形成映射关系;

图4示出了识别过程中标识的流程图。参见图4，将识别结果中的部分文本标识为标准模型中字段，包括：

S41，标识OCR识别文本的数据类型，通过文本内容的语义进行判断和分类以及正则表达式的技术方法对识别的值进行数据类型处理。

S42，OCR识别结果的文本与标准数据模型中的字段名称进行匹配，匹配如果发现名称一致，对比数据类型是否一致，如果发现名称以及数据类型都一直将OCR识别结果标识为字段，并且映射标准数据模型中的字段关系。

S124，将OCR识别结果转为识别数据模型。

OCR识别结果通常是一段连续的文本，标准数据模型与OCR识别结果匹配值得时候，因为OCR识别结果是一段连续没有结构的文本，无法进行匹配，需要将OCR识别结果转为识别数据模型，将OCR识别结果转为识别数据模型的过程就是分行处理，可通过坐标信息来进行分行，OCR识别后的文本通常包含每个字符的坐标位置信息，坐标位置信息包含左边距以及顶边距等，可以利用这些坐标信息来确定每个字符所在的行，具体方法可以通过识别每行的起始和结束位置来实现，比如在文本中寻找相邻两个字符行坐标差超过某个阈值的位置即可判断为不同行，分行后，我们可以将每一行的文本组织成一行一行的数据进行后续处理。

图5示出了识别过程中模型转换的流程图。参见图5，将OCR识别结果转为识别数据模型，包括：

S51，获取OCR识别结果文本及每个字符的坐标位置信息。

S52，根据字符坐标信息，对所有字符按照从上到下、从左到右的顺序排序。

S53，按照排序后的顺序，逐个判断字符是否处于同一行，可以根据相邻字符的行坐标差值是否小于预设阈值来判断是否处于同一行。

S54，如果一个字符与前面的字符处于同一行，则将其加入同一行的结果中，否则，将其加入新的一行结果中，并更新当前行的起始和结束坐标信息。

S55，在处理完所有字符后，得到多行的OCR识别结果及每行的起始和结束坐标信息。

分行处理得到的识别数据模型按照行列的方式排列，每一行与OCR图片中的行所对应，每一行中包含的列信息与图片中的字段信息、表格信息、值信息对应，识别数据模型与标准数据模型都是按照行列的方式排列，每一行与图片的行对应，每一列与图片的列对应。

图6为本发明实施例提供的OCR信息提取系统的结构图。参见图6，OCR信息提取系统包括：配置模块61、识别模块62及写入模块63。

配置模块61用于将需要识别的OCR图片通过可视化模板配置系统配置为模板，并将模版转换为标准数据模型。

识别模块62用于通过信息提取的图片识别接口对接收的图片信息集合进行识别，转换为文本格式，对转换后的文本格式进行标准化处理，转为识别数据模型。

写入模块63用于从识别数据模型找到与标准数据模型字段对应的值，写入到标准数据模型中，从而实现信息提取。

在一些实施方式中，配置模块61包括：接收单元、获取单元、对象转换单元、属性转换单元、保存单元，及生成单元。

接收单元，用于接口接收模板唯一标识。

获取单元，用于通过唯一标识从存储系统中获取模板的JSON数据。

对象转换单元，用于将JSON数据通过JSON库转为JSON对象。

属性转换单元，用于取出每一行中的模板组件以及组件属性，转为标准字段或者标准表格等，根据不同的组件做不同的转换，统一叫做标准数据列。

保存单元，用于将标准数据列按照模板配置的位置保存到对应的标准数据行中。

生成单元，用于存储标准数据模型到存储系统中，并生成标准数据模型的唯一标识。

在一些实施方式中，转换后标准数据模型结构就是包含多行标准数据行，标准数据行中包含多个标准字段、标准表格的标准列。

在一些实施方式中，识别模块62包括：预处理单元、清洗单元、标识单元、模型转换单元。

预处理单元，用于信息提取接口接收需要识别的图片信息集合，对图片信息集合中的图片进行图像预处理；

清洗单元，用于进行OCR识别结果的清洗，去除无用信息，提取需要的文本和字段，清理特殊字符和格式；

标识单元，用于将识别结果中的部分文本标识为标准模型中字段；

模型转换单元，用于将OCR识别结果转为识别数据模型。

在一些实施方式中，图片预处理包括：降噪、滤波、去除线、降低分辨率。

在一些实施方式中，对OCR识别结果的清洗处理包括：去除干扰字符、漏识别字符的补全、错别字替换、识别要求不一致的字符替换。

在一些实施方式中，标识单元具体用于：标识OCR识别文本的数据类型，通过文本内容的语义进行判断和分类以及正则表达式的技术方法对识别的值进行数据类型处理；OCR识别结果的文本与标准数据模型中的字段名称进行匹配，匹配如果发现名称一致，对比数据类型是否一致，如果发现名称以及数据类型都一直将OCR识别结果标识为字段，并且映射标准数据模型中的字段关系。

在一些实施方式中，模型转换单元具体用于：获取OCR识别结果文本及每个字符的坐标位置信息；根据字符坐标信息，对所有字符按照从上到下、从左到右的顺序排序；按照排序后的顺序，逐个判断字符是否处于同一行，可以根据相邻字符的行坐标差值是否小于某个阈值来判断是否处于同一行；如果一个字符与前面的字符处于同一行，则将其加入同一行的结果中，否则，将其加入新的一行结果中，并更新当前行的起始和结束坐标信息；在处理完所有字符后，得到多行的OCR识别结果及每行的起始和结束坐标信息。

图7为本发明实施例提供的电子设备的结构示意图，示出了适于用来实现本发明实施方式的示例性电子设备的框图。图7显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。如图7所示，该电子设备包括处理器71、存储器72、输入装置73及输出装置74；电子设备中处理器71的数量可以是一个或多个，图7中以一个处理器71为例，电子设备中的处理器71、存储器72、输入装置73及输出装置74可以通过总线或其他方式连接，图7中以通过总线连接为例。

存储器72作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的一种分布式密钥生成恢复方法对应的程序指令/模块。处理器71通过运行存储在存储器72中的软件程序、指令以及模块，从而执行计算机设备的各种功能应用以及数据处理，即实现上述一种OCR信息提取方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种OCR信息提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，将需要识别的OCR图片通过可视化模板配置系统配置为模板，并将模版转换为标准数据模型，包括：

接口接收模板唯一标识；

通过唯一标识从存储系统中获取模板的JSON数据；

将JSON数据通过JSON库转为JSON对象；

取出每一行中的模板组件以及组件属性，转为标准字段或者标准表格等，根据不同的组件做不同的转换，统一叫做标准数据列；

将标准数据列按照模板配置的位置保存到对应的标准数据行中；

存储标准数据模型到存储系统中，并生成标准数据模型的唯一标识。

3.根据权利要求2所述的方法，其特征在于，转换后标准数据模型结构就是包含多行标准数据行，标准数据行中包含多个标准字段、标准表格的标准列。

4.根据权利要求1所述的方法，其特征在于，通过信息提取的图片识别接口对接收的图片信息集合进行识别，转换为文本格式，对转换后的文本格式进行标准化处理，转为识别数据模型，包括：

信息提取接口接收需要识别的图片信息集合，对图片信息集合中的图片进行图像预处理；

进行OCR识别结果的清洗，去除无用信息，提取需要的文本和字段，清理特殊字符和格式；

将识别结果中的部分文本标识为标准模型中字段；

将OCR识别结果转为识别数据模型。

5.根据权利要求4所述的方法，其特征在于，图片预处理包括：降噪、滤波、去除线、降低分辨率。

6.根据权利要求4所述的方法，其特征在于，对OCR识别结果的清洗处理包括：去除干扰字符、漏识别字符的补全、错别字替换、识别要求不一致的字符替换。

7.根据权利要求4所述的方法，其特征在于，将识别结果中的部分文本标识为标准模型中字段，包括：

标识OCR识别文本的数据类型，通过文本内容的语义进行判断和分类以及正则表达式的技术方法对识别的值进行数据类型处理；

OCR识别结果的文本与标准数据模型中的字段名称进行匹配，匹配如果发现名称一致，对比数据类型是否一致，如果发现名称以及数据类型都一直将OCR识别结果标识为字段，并且映射标准数据模型中的字段关系。

8.根据权利要求4所述的方法，其特征在于，将OCR识别结果转为识别数据模型，包括：

获取OCR识别结果文本及每个字符的坐标位置信息；

根据字符坐标信息，对所有字符按照从上到下、从左到右的顺序排序；

按照排序后的顺序，逐个判断字符是否处于同一行，可以根据相邻字符的行坐标差值是否小于预设阈值来判断是否处于同一行；

如果一个字符与前面的字符处于同一行，则将其加入同一行的结果中，否则，将其加入新的一行结果中，并更新当前行的起始和结束坐标信息；

在处理完所有字符后，得到多行的OCR识别结果及每行的起始和结束坐标信息。

9.一种OCR信息提取系统，其特征在于，包括：

10.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任意一项所述的一种OCR信息提取方法。