CN114373068A

CN114373068A - 一种行业场景化的ocr模型实现系统、方法及设备

Info

Publication number: CN114373068A
Application number: CN202111611363.5A
Authority: CN
Inventors: 张建雄; 杨震; 龚晟; 李洁; 彭晓春
Original assignee: Tianyi IoT Technology Co Ltd
Current assignee: Tianyi IoT Technology Co Ltd
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-19

Abstract

本发明公开了一种行业场景化的OCR模型实现系统、方法及设备，本发明通过设置行业场景化知识库、行业场景化OCR模型、行业场景化OCR理解模块以及第三方行业资源检索接口，对待识别图片进行OCR识别，根据OCR识别结果以及所述行业场景化知识库进行场景化理解处理，确定行业拟合置信度，当所述行业拟合置信度小于置信度阈值，获取行业补充资源，结合行业场景化知识库、行业场景化OCR模型、行业场景化OCR理解模块，提高不同行业场景下的识别适应性，提高识别准确性；通过第三方行业资源检索接口获取的行业补充资源有利于进一步提高识别准确性，本发明可广泛应用于文字识别领域。

Description

一种行业场景化的OCR模型实现系统、方法及设备

技术领域

本发明涉及文字识别领域，尤其是一种行业场景化的OCR模型实现系统、方法及设备。

背景技术

OCR(Optical Character Recognition，光学字符识别)是待识别对象通过字符识别方法将形状翻译成计算机文字的过程,针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。目前印刷体数字和字母符号识别、卡证识别等通用OCR技术已经相对成熟，但在深入到多行业、多场景下多形态文本检测与识别、手写体文本检测与识别等复杂场景下OCR技术仍存在缺陷，例如不同行业场景下多形态文本和手写体文本识别率低。

发明内容

有鉴于此，为了解决上述技术问题，本发明的目的是提供一种提高识别准确率的行业场景化的OCR模型实现系统、方法及设备。

本发明实施例采用的技术方案是：

一种行业场景化的OCR模型实现系统，包括：

行业场景化知识库；

行业场景化OCR模型，用于对待识别图片进行OCR识别；

行业场景化OCR理解模块，用于根据OCR识别结果以及所述行业场景化知识库进行场景化理解处理，确定行业拟合置信度；

第三方行业资源检索接口，用于当所述行业拟合置信度小于置信度阈值，获取行业补充资源。

进一步，所述行业场景化OCR理解模块，具体地用于对所述OCR识别结果以及所述行业场景化知识库进行行业特征匹配拟合处理，对行业特征匹配拟合处理结果进行场景化理解，确定行业拟合置信度。

进一步，所述第三方行业资源检索接口，具体地用于当所述行业拟合置信度小于置信度阈值，进行相关行业知识库检索、互联网搜索引擎以及社交网络搜索中的至少一种以确定多个检索文本，计算所述检索文本的文本置信度，将所述文本置信度由高至低进行排列，将排名靠前的预设数量个检索文本作为行业补充资源。

进一步，所述行业场景化的OCR模型实现系统还包括通用OCR模型，所述通用OCR模型包括通用文字识别模块、通用卡证识别模块、票据单据识别模块、车牌/标牌识别模块以及通用文档识别模块中的至少一种。

进一步，所述行业场景化的OCR模型实现系统还包括OCR/推理框架，所述OCR/推理框架用于根据所述行业补充资源对所述行业场景化OCR模型进行训练更新。

本发明实施例还提供一种行业场景化的OCR模型实现方法，应用于行业场景化的OCR模型实现系统，包括：

通过行业场景化OCR模型对待识别图片进行OCR识别；

根据OCR识别结果以及行业场景化知识库进行场景化理解处理，确定行业拟合置信度；

当所述行业拟合置信度小于置信度阈值，调用第三方行业资源检索接口获取行业补充资源。

进一步，所述根据OCR识别结果以及行业场景化知识库进行场景化理解处理，确定行业拟合置信度，包括：

对所述OCR识别结果以及所述行业场景化知识库进行行业特征匹配拟合处理；

对行业特征匹配拟合处理结果进行场景化理解，确定行业拟合置信度。

进一步，所述当所述行业拟合置信度小于置信度阈值，调用第三方行业资源检索接口获取行业补充资源，包括：

当所述行业拟合置信度小于置信度阈值，进行相关行业知识库检索、互联网搜索引擎以及社交网络搜索中的至少一种以确定多个检索文本；

计算所述检索文本的文本置信度；

将所述文本置信度由高至低进行排列，将排名靠前的预设数量个检索文本作为行业补充资源。

本发明实施例还提供一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现所述方法。

本发明实施例还提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现所述方法。

本发明的有益效果是：通过设置行业场景化知识库、行业场景化OCR模型、行业场景化OCR理解模块以及第三方行业资源检索接口，对待识别图片进行OCR识别，根据OCR识别结果以及所述行业场景化知识库进行场景化理解处理，确定行业拟合置信度，当所述行业拟合置信度小于置信度阈值，获取行业补充资源，结合行业场景化知识库、行业场景化OCR模型、行业场景化OCR理解模块，提高不同行业场景下的识别适应性，提高识别准确性；通过第三方行业资源检索接口获取的行业补充资源有利于进一步提高识别准确性。

附图说明

图1为本发明具体实施例行业场景化的OCR模型实现系统的示意图；

图2为本发明行业场景化的OCR模型实现方法的步骤流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

如图1所示，本发明实施例提供一种行业场景化的OCR模型实现系统，包括行业场景化知识库、N(N≥1)个行业场景化OCR模型、行业场景化OCR理解模块、第三方行业资源检索接口、通用OCR模型以及OCR/推理框架。

本发明实施例中，行业场景化知识库可以存储有各个行业以及各个企业的行业知识、企业知识，可以通过查询网站、书籍以及由企业进行提供等，或者通过爬虫技术、大数据技术等进行资料收集而构建而成。可选地，每一行业和企业知识中还可以根据场景进行细分分类，确定不同场景分类下的行业知识和企业知识。例如，行业和场景包括但不限于工业、医疗、物流等复杂业务场景。

本发明实施例中，行业场景化OCR模型的数量可以根据需要设置，例如可以根据不同的行业知识和企业知识、图片样本对进行模型训练，得到相应的行业场景化OCR模型，不作具体限定。具体地，行业场景化OCR模型用于对待识别图片进行OCR识别，得到包含文字的OCR识别结果。

本发明实施例中，行业场景化OCR理解模块与行业场景化知识库以及行业场景化OCR模型结合进行数据处理。可选地，行业场景化OCR理解模块用于根据OCR识别结果以及行业场景化知识库进行场景化理解处理，确定行业拟合置信度，具体地：对OCR识别结果以及行业场景化知识库进行行业特征匹配拟合处理，对行业特征匹配拟合处理结果进行场景化理解，确定行业拟合置信度。需要说明的是，行业特征匹配拟合处理包括行业特征匹配和领域拟合处理，确定OCR识别结果与各个行业以及各个企业的行业知识、企业知识进行匹配和拟合，然后通过场景化理解，判断该OCR识别结果在行业/企业中的分类，而每一个分类对应一个行业拟合置信度，该行业拟合置信度越高说明该OCR识别结果越有可能属于当前的分类。

本发明实施例中，置信度阈值可以根据实际需要设定，不作具体限定。可选地，当行业拟合置信度大于或等于置信度阈值，认为当前的行业场景化OCR模型存在识别结果，此时将OCR识别输出作为最终识别结果，实现行业场景化的OCR识别。

可选地，当行业拟合置信度小于置信度阈值，则认为当前的行业场景化OCR模型不存在识别结果，此时需要获取行业补充资源，具体地：进行相关行业知识库检索、互联网搜索引擎以及社交网络搜索中的至少一种以确定多个检索文本。需要说明的是，本发明实施例中，采用相关行业知识库检索、互联网搜索引擎以及社交网络搜索三种检索方式，其他实施例中可以采用其中的一种或者两种。具体地，在确定多个检索文本后，计算检索文本的文本置信度，例如同样地通过行业场景化OCR理解模块，根据检索文本以及行业场景化知识库进行场景化理解处理，从而确定每一检索文本的文本置信度，将文本置信度由高至低进行排列，将排名靠前的预设数量个检索文本作为行业补充资源，用于对OCR识别结果进行补充。需要说明的是，在调用第三方行业资源检索接口获取行业补充资源时，可以利用OCR识别结果为索引关键词进行检索，将行业补充资源作为最终识别结果或者将行业补充资源以及OCR识别结果作为最终识别结果，实现行业场景化的OCR识别。另外，最终识别结果返回至提供待识别图片的请求端；预设数量可以根据需要设定，不作具体限定。

可选地，通用OCR模型包括通用文字识别模块、通用卡证识别模块、票据单据识别模块、车牌/标牌识别模块以及通用文档识别模块，其他实施例中可以包括通用文字识别模块、通用卡证识别模块、票据单据识别模块、车牌/标牌识别模块以及通用文档识别模块中的其中一种或多种。

本发明实施例中，OCR/推理框架用于根据行业补充资源对行业场景化OCR模型进行训练更新，例如：将行业补充资源作为训练样本对行业场景化OCR模型进行训练更新，提升行业场景化OCR模型的识别能力。可选地，OCR/推理框架亦可以获取更新的各类信息对行业场景化OCR理解模块进行训练。

需要说明的是，行业场景化的OCR模型实现系统可以部署于服务器或者边缘服务器中，通过接收请求端(例如终端)的待识别图片确定最终识别结果并返回至请求端中。本发明实施例中的行业场景化的OCR模型实现系统结合了不同行业/企业知识、自然语言处理、深度学习等AI技术，可以应用于工业互联网、智慧医疗、智慧物流等行业等等行业信息模块在边缘侧针对场景的理解，行业标杆企业在边缘侧建立专业领域信息模块，以支撑该行业产业链对领域内应用场景的理解；基于企业私有数据建立边缘侧的场景化OCR识别模块、支持企业场景私有数据的OCR识别以满足企业信息安全的需求。

如图2所示，本发明实施例提供一种行业场景化的OCR模型实现方法，应用于上述行业场景化的OCR模型实现系统，包括步骤S100-S300：

S100、通过行业场景化OCR模型对待识别图片进行OCR识别。

S200、根据OCR识别结果以及行业场景化知识库进行场景化理解处理，确定行业拟合置信度。

可选地，步骤S200包括步骤S210-S220：

S210、对OCR识别结果以及行业场景化知识库进行行业特征匹配拟合处理。

S220、对行业特征匹配拟合处理结果进行场景化理解，确定行业拟合置信度。

本发明实施例中，行业特征匹配拟合处理包括行业特征匹配和领域拟合处理，确定OCR识别结果与各个行业以及各个企业的行业知识、企业知识进行匹配和拟合，然后通过场景化理解，判断该OCR识别结果在行业/企业中的分类(例如场景分类)，而每一个分类对应一个行业拟合置信度，该行业拟合置信度越高说明该OCR识别结果越有可能属于当前的分类。

S300、当行业拟合置信度小于置信度阈值，调用第三方行业资源检索接口获取行业补充资源。

可选地，步骤S300包括步骤S310-S330：

S310、当行业拟合置信度小于置信度阈值，进行相关行业知识库检索、互联网搜索引擎以及社交网络搜索中的至少一种以确定多个检索文本。

需要说明的是，本发明实施例中，采用相关行业知识库检索、互联网搜索引擎以及社交网络搜索三种检索方式，其他实施例中可以采用其中的一种或者两种。

S320、计算检索文本的文本置信度。

具体地，在确定多个检索文本后，计算检索文本的文本置信度，例如同样地通过行业场景化OCR理解模块，根据检索文本以及行业场景化知识库进行场景化理解处理，从而确定每一检索文本的文本置信度。

S330、将文本置信度由高至低进行排列，将排名靠前的预设数量个检索文本作为行业补充资源。

将步骤S320得到的各个检索文本的文本置信度由高至低进行排列，将排名靠前的预设数量个检索文本作为行业补充资源，用于对OCR识别结果进行补充。需要说明的是，在调用第三方行业资源检索接口获取行业补充资源时，可以利用OCR识别结果为索引关键词进行检索，将行业补充资源作为最终识别结果或者将行业补充资源以及OCR识别结果作为最终识别结果，实现行业场景化的OCR识别将行业补充资源作为最终识别结果，实现行业场景化的OCR识别。需要说明的是，最终识别结果返回至提供待识别图片的请求端；预设数量可以根据需要设定，不作具体限定。

本发明实施例的行业场景化的OCR模型实现系统和行业场景化的OCR模型实现方法，可以解决不同行业场景(包括但不限于工业物联网、智慧医疗、智慧物流等)等针对细分行业的场景化数据模型细化和适应能力问题，更加适应工业物联网场景化模型应用需求；提高在工业、医疗、物流等复杂业务场景下对待识别图片的识别准确率，适应针对不同行业应用的场景化理解需求。

上述系统实施例中的内容均适用于本方法实施例中，本方法实施例所具体实现的功能与上述系统实施例相同，并且达到的有益效果与上述系统实施例所达到的有益效果也相同。

本发明实施例还提供了一种电子设备，电子设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的行业场景化的OCR模型实现方法。本发明实施例的电子设备包括但不限于手机、平板电脑、电脑、车载电脑或者服务器。

上述方法实施例中的内容均适用于本设备实施例中，本设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

本发明实施例还提供一种计算机可读存储介质，存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现前述实施例的行业场景化的OCR模型实现方法。

本发明实施例还提供一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前述实施例的行业场景化的OCR模型实现方法。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括多指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-On ly Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序的介质。

以上，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种行业场景化的OCR模型实现系统，其特征在于，包括：

行业场景化知识库；

行业场景化OCR模型，用于对待识别图片进行OCR识别；

2.根据权利要求1所述行业场景化的OCR模型实现系统，其特征在于：所述行业场景化OCR理解模块，具体地用于对所述OCR识别结果以及所述行业场景化知识库进行行业特征匹配拟合处理，对行业特征匹配拟合处理结果进行场景化理解，确定行业拟合置信度。

3.根据权利要求1所述行业场景化的OCR模型实现系统，其特征在于：所述第三方行业资源检索接口，具体地用于当所述行业拟合置信度小于置信度阈值，进行相关行业知识库检索、互联网搜索引擎以及社交网络搜索中的至少一种以确定多个检索文本，计算所述检索文本的文本置信度，将所述文本置信度由高至低进行排列，将排名靠前的预设数量个检索文本作为行业补充资源。

4.根据权利要求1所述行业场景化的OCR模型实现系统，其特征在于：所述行业场景化的OCR模型实现系统还包括通用OCR模型，所述通用OCR模型包括通用文字识别模块、通用卡证识别模块、票据单据识别模块、车牌/标牌识别模块以及通用文档识别模块中的至少一种。

5.根据权利要求1所述行业场景化的OCR模型实现系统，其特征在于：所述行业场景化的OCR模型实现系统还包括OCR/推理框架，所述OCR/推理框架用于根据所述行业补充资源对所述行业场景化OCR模型进行训练更新。

6.一种行业场景化的OCR模型实现方法，其特征在于，应用于行业场景化的OCR模型实现系统，包括：

通过行业场景化OCR模型对待识别图片进行OCR识别；

7.根据权利要求6所述行业场景化的OCR模型实现方法，其特征在于：所述根据OCR识别结果以及行业场景化知识库进行场景化理解处理，确定行业拟合置信度，包括：

8.根据权利要求6或7所述行业场景化的OCR模型实现方法，其特征在于：所述当所述行业拟合置信度小于置信度阈值，调用第三方行业资源检索接口获取行业补充资源，包括：

计算所述检索文本的文本置信度；

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求6-8中任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求6-8中任一项所述方法。