CN113850251A - 基于ocr技术的文本纠正方法、装置、设备以及存储介质 - Google Patents
基于ocr技术的文本纠正方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN113850251A CN113850251A CN202111089125.2A CN202111089125A CN113850251A CN 113850251 A CN113850251 A CN 113850251A CN 202111089125 A CN202111089125 A CN 202111089125A CN 113850251 A CN113850251 A CN 113850251A
- Authority
- CN
- China
- Prior art keywords
- text data
- text
- character
- correction
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及文本纠正技术领域,特别涉及一种基于OCR技术的文本纠正方法、装置、设备以及存储介质,所述方法包括:获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据;对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
Description
技术领域
本发明涉及文本纠正技术领域,特别涉及是一种基于OCR技术的文本纠正方法、装置、设备以及存储介质。
背景技术
OCR(Optical Character Recognition)技术现已广泛应用于各个领域,通过识别图片中的文本数据,能够快速、方便地输入到计算机中,实现了信息处理的“电子化”。然而OCR技术并不能完全准确识别图中的文本数据,因此需要一种文本纠正方法,对OCR技术识别的文本数据进行纠正。
但是现有的技术方案存在以下缺点,一方面是基于分词、规则匹配、混淆词库匹配、最大字符串匹配等方法,需要大量的人力去维护词库及规则,提高了维护的成本。
另一方面采用深度学习的方式进行深度学习模型的训练,但直接采用深度学习模型进行纠正具有很大的不确定性,容易脱离原图片信息产生误纠,所以一般训练出来的模型结构仍需要进行召回和排序,存在训练效率低,纠正效率低且对于错误文本的纠正准确率低的问题。
发明内容
基于此,本发明的目的在于,提供一种基于OCR技术的文本纠正方法、装置、设备以及存储介质,能够对OCR技术识别出的文本数据进行纠正,通过直接使用文本纠正深度学习模型,提高了纠正的效率,通过参考OCR前十个字符的候选集合以及语言模型流畅度评价,避免了对文本数据的错误纠正,提高了文本数据的识别准确率,降低了纠正成本。该技术方案如下:
第一方面,本申请实施例提供了一种基于OCR技术的文本纠正方法,包括以下步骤:
获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,其中,所述置信度是基于OCR技术输出的每个字符的概率值,所述候选字符集是基于OCR技术输出的每个字符位置的概率值最高的前十个字符所组成候选字符集合;
根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列;
对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,同时对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;
利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
第二方面,本申请实施例提供了一种基于OCR技术的文本纠正装置,包括:
获取模块,用于获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,其中,所述置信度是基于OCR技术输出的每个字符的概率值,所述候选字符集是基于OCR技术输出的每个字符位置的概率值最高的前十个字符所组成候选字符集合;
纠正模块,用于根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列;
替换模块,用于对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,同时对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;
评价模块,用于利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
第三方面,本申请实施例提供了一种设备,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如第一方面所述基于OCR技术的文本纠正方法的步骤。
第四方面,本申请实施例提供了一种存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的基于OCR技术的文本纠正方法的步骤。
在本申请实施例中,能够对OCR技术识别出的文本数据进行纠正,通过直接使用文本纠正深度学习模型,提高了纠正的效率,通过参考OCR前十个字符的候选集合以及语言模型流畅度评价,避免了对文本数据的错误纠正,提高了文本数据的识别准确率,降低了纠正成本。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本申请第一实施例提供的基于OCR技术的文本纠正方法的流程示意图;
图2为本申请第二实施例提供的基于OCR技术的文本纠正方法的流程示意图;
图3为本申请第一实施例提供的基于OCR技术的文本纠正方法中S3的流程示意图;
图4为本申请第一实施例提供的基于OCR技术的文本纠正方法中S5的流程示意图;
图5为本申请第一实施例提供的基于OCR技术的文本纠正方法中S4的流程示意图;
图6为本申请第三实施例提供的基于OCR技术的文本纠正方法的流程示意图;
图7为本申请第三实施例提供的基于OCR技术的文本纠正方法的流程示意图;
图8为本申请第四实施例提供的基于OCR技术的文本纠正装置的结构示意图;
图9为本申请第五实施例提供的设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
请参阅图1,图1为本申请第一实施例提供的基于OCR技术的文本纠正方法的流程示意图,所述方法包括如下步骤:
S1:获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,其中,所述置信度是基于OCR技术输出的每个字符的概率值,所述候选字符集是基于OCR技术输出的每个字符位置的概率值最高的前十个字符所组成候选字符集合。
所述基于OCR技术的文本纠正方法的执行主体为基于OCR技术的文本纠正设备(以下简称纠正设备),在一个可选的实施例中,所述纠正设备可以是计算机设备,所述计算机设备可以是一台服务器,或多台计算机设备联合而成的服务器机群,用于与客户端建立网络连接。
其中,所述第一文本数据包括中文字符以及非中文字符。
在本实施例中,纠正设备通过与数据库连接,获取基于OCR技术识别图片得到的第一文本数据,并以行的形式获取所述第一文本数据的字符串序列,根据所述字符串序列以及OCR模型,获取所述字符串序列中每个字符的置信度。
S2:根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列。
所述文本预纠正深度学习模型为一种预训练语言模型,可以是bert模型、elmo模型、lstm模型或者transformer模型。
在本实施例中,纠正设备获取所述第一文本数据后,将所述第一文本数据输入至所述文本预纠正深度学习模型,获取经所述文本预纠正深度学习模型处理之后的第二文本数据。
请参阅图2,图2为本申请第二实施例提供的基于OCR技术的文本纠正方法的流程示意图,包括步骤S5~S6,所述步骤在S2步骤之前,具体如下:
S5:构建所述文本预纠正深度学习模型的训练文本库以及相似文本库;其中,所述文本预纠正深度学习模型的训练文本库包括训练文本数据,所述相似文本库包括与所述训练文本数据对应的相似文本数据。
在本实施例中,纠正设备获取所述训练文本数据以及相似文本数据,分别构建所述文本预纠正深度学习模型的训练文本库以及相似字文本库。
在一个可选的实施例中,纠正设备获取文本语料,所述文本语料包括各个不同类型的场景语料,将所述文本语料进行随机长度的断句,形成文本句子;将所述文本句子合成带有该文本句子的图片,将所述图片输入至所述OCR模型中,根据所述OCR模型识别所述图片,获取识别结果句子;将所述文本句子与所述识别结果句子进行对应,形成训练文本数据。
在一个可选的实施例中,纠正设备可以在所述图片中适当增加噪声,提高所述OCR模型识别的难度。
在一个可选的实施例中,纠正设备可以根据所述训练文本数据以及汉字字形相似度算法,获取与所述训练文本数据相对应的相似文本数据,添加到所述相似字文本库中。
S6:根据所述训练文本数据、相似文本数据对神经网络模型进行训练,获取所述文本预纠正深度学习模型。
所述神经网络模型是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,所述神经网络结构包括ResNet系列卷积神经网络结构、Transformer、Bert系列自注意力神经网络结构以及LSTM、ELMO系列序列神经网络结构等等。
在本实施例中,纠正设备将所述训练文本数据输入至所述神经网络模型,获取所述训练文本数据的每个字符的字符向量;纠正设备将与所述训练文本数据相对应的相似文本数据输入至所述神经网络模型,获取与所述训练文本数据的相对应的每个相似字符的字符向量。
纠正设备将所述训练文本数据的每个字符的字符向量以及所述与所述训练文本数据的相对应的每个相似字符的字符向量输入至所述神经网络模型,对所述神经网络模型进行训练获取所述文本预纠正深度学习模型。
请参阅图3,图3为本申请第一实施例提供的基于OCR技术的文本纠正方法中S3的流程示意图,包括步骤S201~S204,具体如下:
S201:将所述第一文本数据输入至所述文本预纠正深度学习模块,获取所述第一文本数据的第一字符向量以及第二字符向量,其中,所述第一字符向量是所述第一文本数据中每个字符的字符向量,所述第二字符向量是所述第一文本数据中每个字符相对应的相似字符的字符向量。
在本实施例中,纠正设备将所述第一文本数据输入至所述文本预纠正深度学习模型,根据所述文本预纠正深度学习模型对所述第一文本数据进行处理,获取所述第一文本数据的第一字符向量。
纠正设备根据所述第一文本数据以及所述相似文本库,获取与所述第一文本数据相对应的相似文本数据,其中,所述相似文本数据包括所述第一文本数据中,每一个字对应的若干个相似字符的数据。按照获取第一文本数据的第一字符向量的方法,得到每一个字及对应的若干的相似字符的字符向量,输入至所述文本预纠正深度学习模型进行融合,获取所述第一文本数据的第二字符向量。
S202:根据所述第一字符向量、第二字符向量以及所述文本预纠正深度学习模型,获取所述第一文本数据的纠正向量。
在本实施例中,纠正设备将所述第一文本数据的第一字符向量以及第二字符向量输入至所述文本预纠正深度学习模型,融合所述第一字符向量以及第二字符向量,获取所述第一文本数据的纠正向量。
S203:根据所述第一文本数据的纠正向量以及所述文本预纠正深度模型,对所述第一文本数据进行处理,获取预纠正后的字符串序列。
在本实施例中,纠正设备根据所述第一文本数据的纠正向量以及所述文本与纠正深度模型,对所述第一文本数据进行处理,获取所述第一文本数据中每个字符的输出概率值,取所述输出概率值中最高的字符为输出字符,根据所述输出字符,获取预纠正后的字符串序列。
S204:根据预纠正后的字符串序列以及所述第一文本数据,获取第二文本数据。
在本实施例中,纠正设备将所述预纠正后的字符串序列作为所述第一文本数据的替换文本数据,根据所述预纠正后的字符串序列,替换所述第一文本数据中相对应的字符串序列,获取第二文本数据。
S3:对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,同时对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据。
在本实施例中,纠正设备对所述预纠正后的字符串序列中OCR置信度高于预设的置信度阈值的字符进行剔除,同时对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,并对所述剔除后预纠正后的字符串序列进行解析,获取所述剔除后的预纠正后的字符串序列中每个字符的位置参数,根据所述位置参数与所述第一文本数据进行匹配,获取所述预纠正后的字符串序列中发生变化的字符以及所述发生变化的字符的位置参数。根据所述发生变化的字符的位置参数,对所述第一文本数据的相应字符替换为所述预纠正后的字符串序列中发生变化的字符,获取第三文本数据。
请参阅图4,图4为本申请第一实施例提供的基于OCR技术的文本纠正方法中S5的流程示意图,包括步骤S301~S303,具体如下:
S301:删除所述预纠正后的字符串序列中的非法字符,获取删除后的预纠正后的字符串序列。
在本实施例中,纠正设备获取所述预纠正后的字符串序列中的非法字符的位置参数,根据所述非法字符的位置参数,删除所述预纠正后的字符串序列中的非法字符,获取删除后的预纠正后的字符串序列。
S302:根据所述删除后的所述预纠正后的字符串序列中每个字符的置信度以及预设的置信度阈值,剔除所述删除后的预纠正后的字符串序列中置信度高于所述置信度阈值的字符,同时剔除预纠正后字符串序列中不存在于其候选字符集的字符,并将预纠正后的字符串序列中的相邻的字符进行组合,获取组合后的预纠正后的字符串序列。
在一个可选的实施例中,所述置信度的阈值可以通过用户进行设置,在另一个可选的实施例中,所述置信度的阈值也可以通过纠正设备统计所述OCR技术识别的正确字符的平均置信度,以所述平均置信度作为置信度阈值。
所述置信度的阈值可以通过用户进行设置,也可以通过纠正设备统计所述OCR模型识别的正确字符的平均置信度,以所述平均置信度作为置信度阈值,如果字符的置信度高于所述置信度阈值,不需要对所述字符进行处理。
所述的候选字符集为所述OCR模型在对图片进行识别后得到的每个字符位置的前十个概率最高的字符所组成的字符集,预纠正的字符不存在于候选字符集时,说明纠正字符较大地偏离原图片信息,需要将其进行剔除,不需要对所述字符进行处理和纠正。
在本实施例中,纠正设备获取所述删除后的预纠正后的字符串序列中每个字符的置信度后,分别将所述每个字符的置信度与所述预设的置信度阈值进行对比,将所述每个字符与所述的对应的字符候选集进行对比,当所述删除后的预纠正后的字符串序列中的字符的置信度高于所述置信度阈值时或者预纠正后的字符串序列中的字符不存在于所述的候选字符集中,获取所述字符在所述删除后的预纠正后的字符串序列的位置参数,根据所述位置参数,剔除所述删除后的预纠正后的字符串序列中高于所述置信度阈值的字符,以及预纠正后的字符串序列中不存在于所述的候选字符集的字符,并将预纠正后的字符串序列中的相邻的字符进行组合,获取组合后的预纠正后的字符串序列。
S303:根据所述组合后的预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据。
在本实施例中,纠正设备获取所述组合后的预纠正后的字符串序列后,对所述第一文本数据相应的字符进行替换,获取替换后的文本数据,所述替换后的文本数据为所述第三文本数据。
S4:利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
在本实施例中,纠正设备将所述第一文本数据和所述第三文本数据输入至所述预设的语言模型中,获取所述语言模型输出的所述第一文本数据以及所述第三文本数据的概率值,根据所述第一文本数据以及所述第三文本数据的概率值,对所述第一文本数据、第三文本数据进行流畅度评价,获取流畅度较高的文本数据,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
请参阅图5,图5为本申请第一实施例提供的基于OCR技术的文本纠正方法中S4的流程示意图,包括步骤S401~S402,具体如下:
S401:根据所述第一文本数据、第三文本数据以及语言模型,分别获取所述第一文本数据以及第三文本数据的困惑度;其中,所述困惑度为基于所述语言模型输出的每个字符的概率值的连乘值的对数值的相反数数值。困惑度数据大表明句子的流畅度低。
在本实施例中,纠正设备将所述第一文本数据以及第三文本数据输入至所述语言模型,分别获取所述第一文本数据以及第三文本数据的困惑度。
S402:根据所述第一文本数据、第三文本数据的困惑度以及预设的困惑度阈值,对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出。
在本实施例中,纠正设备获取所述第一文本数据以及第三文本数据的困惑度后,将第一文本数据的困惑度数值与第三文本数据的困惑度数据进行相减得到差值,再将差值与所述预设的困惑度阈值进行对比,所述困惑度差值越大,所述文本数据的流畅度越高。
根据所述第一文本数据以及第三文本数据的困惑度的与所述困惑度差值的大小,对所述第一文本数据和所述第三文本数据进行流畅度评价,获取差值大于预设的困惑度阈值的文本数据,即流畅度较高的文本数据,作为识别结果输出。
请参阅图6,图6为本申请第三实施例提供的基于OCR技术的文本纠正方法的流程示意图,包括步骤S7~S8,所述步骤在S4之前,具体如下:
S7:构建所述语言模型的训练文本库;其中,所述语言模型的训练文本库内的训练文本数据与所述文本预纠正深度学习模型的训练文本数据相同。
在本实施例中,纠正设备获取所述训练文本数据以及相似文本数据,分别构建所述语言模型的训练文本库。
S8:响应于语言模型构建指令,根据所述训练文本数据以及统计概率算法,构建所述语言模型。
纠正设备预先设置有若干个统计概率算法,其中所述统计概率算法包括一元统计概率算法、二元统计概率算法以及三元统计概率算法。
在本实施例中,纠正设备响应于所述语言模型构建指令,获取所述语言模型构建指令指定的统计概率算法,根据所述训练文本数据以及指定的统计概率算法,构建所述语言模型。
请参阅图7,图7为本申请第三实施例提供的基于OCR技术的文本纠正方法的流程示意图,还包括步骤S9~S10,具体如下:
S9:根据所述纠正文本数据以及混淆词库,对所述纠正文本数据的相应字符进行替换,获取第二纠正文本数据。
在本实施例中,纠正设备将所述纠正文本数据中的字符串序列与所述混淆词库中的字符串序列进行匹配,若所述纠正文本数据中的字符串序列与所述混淆词库中的字符串序列相同,获取所述纠正文本数据中的字符串序列的位置参数,根据所述位置参数,将所述纠正文本数据中的字符串序列替换为与所述字符串序列相对应的纠正字符串序列,获取第二纠正文本数据。
S10:利用所述语言模型对所述纠正文本数据和所述第二纠正文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出。
在本实施例中,纠正设备将所述纠正文本数据和所述二纠正文本数据输入至所述预设的语言模型中,获取所述语言模型输出的所述纠正文本数据和所述第二纠正文本数据的概率值,根据所述纠正文本数据和所述二纠正文本数据的概率值,对所述纠正文本数据、所述第二纠正文本数据进行流畅度评价,获取流畅度较高的文本数据,将流畅度较高的文本数据作为识别结果输出。
请参考图8,图8为本申请第四实施例提供的基于OCR技术的文本纠正装置的结构示意图,该装置可以通过软件、硬件或两者的结合实现基于OCR技术的文本纠正装置的全部或一部分,该装置8包括:
获取模块81,用于获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,其中,所述置信度是基于OCR技术输出的每个字符的概率值,所述候选字符集是基于OCR技术输出的每个字符位置的概率值最高的前十个字符所组成候选字符集合;
纠正模块82,用于根据所述第一文本数据以及预设的文本预纠正深度学习模型,获得第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列;
替换模块83,用于对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;
评价模块84,用于利用预设的语言模型对所述第一文本数据和所述第三文本数据进行句子流畅度评价,将句子流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
在本申请实施例中,通过获取模块,取基于OCR技术识别图片得到的第一文本数据以及所述第一文本数据中每个字符的置信度;其中,所述置信度是基于OCR技术输出的每个字符的概率值;通过纠正模块,根据所述第一文本数据以及预设的文本预纠正深度学习模型,获得第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列,实现了文本数据的初步纠正;通过替换模块,对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据,实现通过结合OCR置信度与OCR的字符候选集来避免过度纠正;通过评价模块,利用预设的语言模型对所述第一文本数据和所述第三文本数据进行句子流畅度评价,将句子流畅度较高的文本数据作为识别结果输出,获取纠正文本数据,实现了文本数据的合理纠正。能够对OCR技术识别出的文本数据进行纠正,通过端到端文本纠正深度学习模型,提高了纠正的效率,通过结合OCR置信度、OCR字符候选集以及评价困惑度的语言模型,避免了对文本数据的错误纠正,提高了文本数据的识别准确率,降低了纠正成本。
请参考图9,图9为本申请第五实施例提供的设备的结构示意图,设备9包括:处理器91、存储器92以及存储在存储器92上并可在处理器91上运行的计算机程序93;计算机设备可以存储有多条指令,指令适用于由处理器91加载并执行上述图1至图4所示实施例的方法步骤,具体执行过程可以实施例一至实施例三的具体说明,在此不进行赘述。
其中,处理器91可以包括一个或多个处理核心。处理器91利用各种接口和线路连接服务器内的各个部分,通过运行或执行存储在存储器92内的指令、程序、代码集或指令集,以及调用存储器92内的数据,执行基于OCR技术的文本纠正装置8的各种功能和处理数据,可选的,处理器91可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(ProgrambleLogic Array,PLA)中的至少一个硬件形式来实现。处理器91可集成中央处理器91(CentralProcessing Unit,CPU)、图像处理器91(Graphics Processing Unit,GPU)和调制解调器等中的一个或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责触摸显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器91中,单独通过一块芯片进行实现。
其中,存储器92可以包括随机存储器92(Random Access Memory,RAM),也可以包括只读存储器92(Read-Only Memory)。可选的,该存储器92包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器92可用于存储指令、程序、代码、代码集或指令集。存储器92可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控指令等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器92可选的还可以是至少一个位于远离前述处理器91的存储装置。
本申请实施例还提供了一种存储介质,所述存储介质可以存储有多条指令,所述指令适用于由处理器加载并执行上述实施例一至实施例三的方法步骤,具体执行过程可以参见实施例一至实施例三的具体说明,在此不进行赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/终端设备实施例仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。
本发明并不局限于上述实施方式,如果对本发明的各种改动或变形不脱离本发明的精神和范围,倘若这些改动和变形属于本发明的权利要求和等同技术范围之内,则本发明也意图包含这些改动和变形。
Claims (10)
1.一种基于OCR技术的文本纠正方法,其特征在于,包括以下步骤:
获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,其中,所述置信度是基于OCR技术输出的每个字符的概率值,所述候选字符集是基于OCR技术输出的每个字符位置的概率值最高的前十个字符所组成候选字符集合;
根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列;
对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,同时对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;
利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
2.根据权利要求1所述的基于OCR技术的文本纠正方法,其特征在于,所述根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列之前,包括步骤:
构建所述文本预纠正深度学习模型的训练文本库以及相似文本库;其中,所述文本预纠正深度学习模型的训练文本库包括训练文本数据,所述相似文本库包括与所述训练文本数据对应的相似文本数据;
根据所述训练文本数据、相似文本数据对神经网络模型进行训练,获取所述文本预纠正深度学习模型。
3.根据权利要求2所述的基于OCR技术的文本纠正方法,其特征在于,所述利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出之前,包括步骤:
构建所述语言模型的训练文本库;其中,所述语言模型的训练文本库内的训练文本数据与所述文本预纠正深度学习模型的训练文本数据相同;
根据所述训练文本数据以及统计概率算法,构建所述语言模型。
4.根据权利要求2所述的基于OCR技术的文本纠正方法,其特征在于,所述根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列,包括步骤:
将所述第一文本数据输入至所述文本预纠正深度学习模块,获取所述第一文本数据的第一字符向量以及第二字符向量,其中,所述第一字符向量是所述第一文本数据中每个字符的字符向量,所述第二字符向量是所述第一文本数据中每个字符相对应的相似字符的字符向量;
根据所述第一字符向量、第二字符向量以及所述文本预纠正深度学习模型,获取所述第一文本数据的纠正向量;
根据所述第一文本数据的纠正向量以及所述文本预纠正深度模型,对所述第一文本数据进行处理,获取预纠正后的字符串序列;
根据预纠正后的字符串序列以及所述第一文本数据,获取第二文本数据。
5.根据权利要求1所述的基于OCR技术的文本纠正方法,其特征在于,所述对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,同时对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据,包括步骤:
删除所述预纠正后的字符串序列中的非法字符,获取删除后的预纠正后的字符串序列;
根据所述删除后的所述预纠正后的字符串序列中每个字符的置信度以及预设的置信度阈值,剔除所述删除后的预纠正后的字符串序列中置信度高于所述置信度阈值的字符,同时剔除预纠正后字符串序列中不存在于其候选字符集的字符,并将预纠正后的字符串序列中的相邻的字符进行组合,获取组合后的预纠正后的字符串序列;
根据所述组合后的预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据。
6.根据权利要求1所述的基于OCR技术的文本纠正方法,其特征在于,所述利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据,包括步骤:
根据所述第一文本数据、第三文本数据以及语言模型,分别获取所述第二文本数据以及第三文本数据的困惑度;其中,所述困惑度为基于所述语言模型输出的每个字符的概率值;
根据所述第一文本数据、第三文本数据的困惑度以及预设的困惑度阈值,对所述第二文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
7.根据权利要求1至6任一项所述的基于OCR技术的文本纠正方法,其特征在于,还包括步骤:
根据所述纠正文本数据以及混淆词库,对所述纠正文本数据的相应字符进行替换,获取第二纠正文本数据;
利用所述语言模型对所述纠正文本数据和所述第二纠正文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出。
8.一种基于OCR技术的文本纠错装置,其特征在于,包括:
获取模块,用于获取基于OCR技术识别图片得到的第一文本数据、所述第一文本数据中每个字符的置信度以及第一文本数据中每个字符的前十个字符组成的候选字符集,其中,所述置信度是基于OCR技术输出的每个字符的概率值,所述候选字符集是基于OCR技术输出的每个字符位置的概率值最高的前十个字符所组成候选字符集合;
纠正模块,用于根据所述第一文本数据以及预设的文本预纠正深度学习模型,获取第二文本数据,其中所述第二文本数据包括预纠正后的字符串序列;
替换模块,用于对所述预纠正后的字符串序列中置信度高于预设的置信度阈值的字符进行剔除,同时对预纠正后字符串序列中不存在于其候选字符集的字符进行剔除,根据剔除后的所述预纠正后的字符串序列,对所述第一文本数据的相应字符进行替换,获取第三文本数据;
评价模块,用于利用预设的语言模型对所述第一文本数据和所述第三文本数据进行流畅度评价,将流畅度较高的文本数据作为识别结果输出,获取纠正文本数据。
9.一种设备,其特征在于,包括:处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序;所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于OCR技术的文本纠正方法的步骤。
10.一种存储介质,其特征在于:所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于OCR技术的文本纠正方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089125.2A CN113850251A (zh) | 2021-09-16 | 2021-09-16 | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111089125.2A CN113850251A (zh) | 2021-09-16 | 2021-09-16 | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113850251A true CN113850251A (zh) | 2021-12-28 |
Family
ID=78974425
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111089125.2A Pending CN113850251A (zh) | 2021-09-16 | 2021-09-16 | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850251A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114677689A (zh) * | 2022-03-29 | 2022-06-28 | 上海弘玑信息技术有限公司 | 一种文字图像识别纠错方法和电子设备 |
CN115471206A (zh) * | 2022-09-29 | 2022-12-13 | 深圳标普云科技有限公司 | 一种合同的管控方法及合同管理系统 |
CN115525730A (zh) * | 2022-02-27 | 2022-12-27 | 博才汇(宁波)信息科技有限公司 | 基于页面赋权的网页内容提取方法、装置及电子设备 |
CN117807990A (zh) * | 2023-12-27 | 2024-04-02 | 北京海泰方圆科技股份有限公司 | 一种文本处理方法、装置、设备及介质 |
-
2021
- 2021-09-16 CN CN202111089125.2A patent/CN113850251A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115525730A (zh) * | 2022-02-27 | 2022-12-27 | 博才汇(宁波)信息科技有限公司 | 基于页面赋权的网页内容提取方法、装置及电子设备 |
CN115525730B (zh) * | 2022-02-27 | 2024-04-19 | 山东视角数字技术有限公司 | 基于页面赋权的网页内容提取方法、装置及电子设备 |
CN114677689A (zh) * | 2022-03-29 | 2022-06-28 | 上海弘玑信息技术有限公司 | 一种文字图像识别纠错方法和电子设备 |
CN114677689B (zh) * | 2022-03-29 | 2023-07-28 | 上海弘玑信息技术有限公司 | 一种文字图像识别纠错方法和电子设备 |
CN115471206A (zh) * | 2022-09-29 | 2022-12-13 | 深圳标普云科技有限公司 | 一种合同的管控方法及合同管理系统 |
CN117807990A (zh) * | 2023-12-27 | 2024-04-02 | 北京海泰方圆科技股份有限公司 | 一种文本处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109815339B (zh) | 基于TextCNN知识抽取方法、装置、计算机设备及存储介质 | |
CN113850251A (zh) | 基于ocr技术的文本纠正方法、装置、设备以及存储介质 | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
CN115063875B (zh) | 模型训练方法、图像处理方法、装置和电子设备 | |
CN113128287B (zh) | 训练跨域人脸表情识别模型、人脸表情识别的方法及系统 | |
EP3961584A2 (en) | Character recognition method, model training method, related apparatus and electronic device | |
CN108319888B (zh) | 视频类型的识别方法及装置、计算机终端 | |
CN114612921B (zh) | 表单识别方法、装置、电子设备和计算机可读介质 | |
CN113360700B (zh) | 图文检索模型的训练和图文检索方法、装置、设备和介质 | |
CN111193657A (zh) | 聊天表情回复方法、装置及存储介质 | |
CN115438650B (zh) | 融合多源特征的合同文本纠错方法、系统、设备及介质 | |
CN112418320B (zh) | 一种企业关联关系识别方法、装置及存储介质 | |
EP4191544A1 (en) | Method and apparatus for recognizing token, electronic device and storage medium | |
CN112632227A (zh) | 简历匹配方法、装置、电子设备、存储介质和程序产品 | |
CN108090044B (zh) | 联系方式的识别方法和装置 | |
CN110348012B (zh) | 确定目标字符的方法、装置、存储介质及电子装置 | |
CN110795558B (zh) | 标签获取方法和装置、存储介质及电子装置 | |
CN114639096A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN113255331B (zh) | 文本纠错方法、装置及存储介质 | |
CN114445826A (zh) | 视觉问答方法、装置、电子设备以及存储介质 | |
CN111680497B (zh) | 会话识别模型训练方法及装置 | |
CN115631502A (zh) | 文字识别方法、装置、模型训练方法、电子设备及介质 | |
CN114118049B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN115984886A (zh) | 表格信息抽取方法、装置、设备及存储介质 | |
CN115909376A (zh) | 文本识别方法、文本识别模型训练方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |