CN113569833A

CN113569833A - 基于文本文档的文字识别方法、装置、设备及存储介质

Info

Publication number: CN113569833A
Application number: CN202110853330.5A
Authority: CN
Inventors: 曾博; 王燕蒙; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2021-10-29

Abstract

本发明涉及人工智能领域，公开了一种基于文本文档的文字识别方法、装置、设备及存储介质，用于提高文本识别效率。所述基于文本文档的文字识别方法包括：接收待识别的文本文档，并对文本文档进行预处理，得到标准化的文本图像；基于预置的光学字符识别引擎，对标准化的文本图像进行文字识别，得到标准化的文本图像对应的初始文本信息；对标准化的文本图像进行分割，得到多个文本图像片段；对多个文本图像片段和初始文本信息进行文本向量化处理，得到初始图像向量和初始文本向量；获取初始文本向量对应的标注信息，并根据标注信息确定各初始图像向量对应的目标文本信息。此外，本发明还涉及区块链技术，目标文本信息可存储于区块链节点中。

Description

基于文本文档的文字识别方法、装置、设备及存储介质

技术领域

本发明涉及机器学习领域，尤其涉及一种基于文本文档的文字识别方法、装置、设备及存储介质。

背景技术

文本文档包括票据文档、合同文档、学术文档等，通过对这些文本文档的文字识别，能够提取其中有价值的数据，用于完善信息数据库。

现有的文本文档识别技术，大多是基于光学字符识别(optical characterrecognition，OCR)对文本文档进行智能识别，再通过自然语言模型对识别的结果进行校正，从而达到文本识别的目的。但是，现有技术在文本文档识别的准确率方面往往局限于模型的能力，识别时的失误容易造成校正时的错误，可见，现有的文本文档识别方法准确率仍有待提高。

发明内容

本发明提供了一种基于文本文档的文字识别方法、装置、设备及存储介质，用于提高文本文档识别的准确率。

本发明第一方面提供了一种基于文本文档的文字识别方法，包括：

接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像；

基于预置的光学字符识别引擎，对所述标准化的文本图像进行文字识别，得到所述标准化的文本图像对应的初始文本信息；

根据所述标准化的文本图像对应的初始文本信息，对所述标准化的文本图像进行分割，得到多个文本图像片段；

将所述多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的初始图像向量，并对所述初始文本信息进行文本向量化处理，得到所述初始文本信息对应的初始文本向量；

在预置的文本图像信息库中获取所述初始文本向量对应的标注信息，并根据所述标注信息确定各初始图像向量对应的目标文本信息。

可选的，在本发明第一方面的第一种实现方式中，所述接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像，包括：

接收待识别的文本文档，并将所述文本文档转化为图像格式，得到初始化的文本图像；

对所述初始化的文本图像进行二值化处理，得到黑白图像；

遍历所述黑白图像中各像素点的灰度值，并对各像素点的灰度值进行降噪处理，得到降噪图像；

按照预置的图像校正算法，对所述降噪图像进行校正处理，得到标准化的文本图像。

可选的，在本发明第一方面的第二种实现方式中，所述光学字符识别引擎包括双向长短时记忆循环神经网络模型，所述基于预置的光学字符识别引擎，对所述标准化的文本图像进行文字识别，得到所述标准化的文本图像对应的初始文本信息，包括：

将所述文本图像输入所述双向长短时记忆循环神经网络模型的输入层进行矩阵化处理，得到所述文本图像的第一特征矩阵；

将所述第一特征矩阵输入所述双向长短时记忆循环神经网络模型的编码层进行特征提取，得到第二特征矩阵；

将所述第二特征矩阵输入所述双向长短时记忆循环神经网络模型的解码层进行特征解码，得到第三特征矩阵；

将所述第三特征矩阵输入所述双向长短时记忆循环神经网络模型的全连接层进行特征分类，得到所述文本图像对应的文本特征分类标签；

将所述文本特征分类标签设置为索引，查找预置的文本字典，得到所述标准化的文本图像对应的初始文本信息。

可选的，在本发明第一方面的第三种实现方式中，所述图像特征提取模型包括双向编码BERT模型，所述将所述多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的初始图像向量，包括：

将所述多个文本图像片段输入所述双向编码BERT模型的卷积层进行特征提取，得到各文本图像片段对应的第一特征向量；

将各第一特征向量输入所述双向编码BERT模型的激励层进行非线性映射，得到多个第二特征向量；

将各第二特征向量输入所述双向编码BERT模型的池化层进行降维处理，得到各文本图像片段对应的初始图像向量。

可选的，在本发明第一方面的第四种实现方式中，所述对所述初始文本信息进行文本向量化处理，得到所述初始文本信息对应的初始文本向量，包括：

基于预置的分词算法，对所述初始文本信息进行分词处理，得到分词结果；

基于预置的独热编码算法，对所述分词结果进行稀疏向量化处理，得到所述初始文本信息对应的稀疏向量；

基于预置的词嵌入算法，将所述初始文本信息对应的稀疏向量映射为稠密向量，得到所述初始文本信息对应的初始文本向量。

可选的，在本发明第一方面的第五种实现方式中，在所述接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像之前，所述基于文本文档的文字识别方法还包括：

获取文本文档格式的样本文件，并将所述样本文件转化为图像格式，得到样本图像；

提取所述样本文件中的样本文本信息，并对所述样本文本信息进行分词处理，得到分词结果；

基于所述分词结果，对所述样本图像进行分割处理，得到多个样本图像片段；

对所述分词结果进行文本向量化处理，得到样本文本向量，并对所述多个样本图像片段进行图像向量化处理，得到样本图像向量；

按照所述样本文本向量对应的样本文本信息，对所述样本图像向量进行序列标注，得到各样本图像片段对应的标注信息，并生成文本图像信息库。

可选的，在本发明第一方面的第六种实现方式中，所述在预置的文本图像信息库中获取所述初始文本向量对应的标注信息，并根据所述标注信息确定各初始图像向量对应的目标文本信息，包括：

在所述文本图像信息库中查找所述初始文本向量对应的目标文本向量，并获取所述目标文本向量对应的标注信息；

根据所述目标文本向量对应的标注信息，在所述文本图像信息库中获取各初始图像向量对应的目标图像向量，并分别判断各初始图像向量对应的目标图像向量与各初始图像向量之间的相似度是否小于预置阈值；

若各初始图像向量对应的目标图像向量与各初始图像向量之间的相似度小于预置阈值，则在所述目标图像向量对应的标注信息中提取各初始图像向量对应的目标文本信息。

本发明第二方面提供了一种基于文本文档的文字识别装置，包括：

接收模块，用于接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像；

识别模块，用于基于预置的光学字符识别引擎，对所述标准化的文本图像进行文字识别，得到所述标准化的文本图像对应的初始文本信息；

分割模块，用于根据所述标准化的文本图像对应的初始文本信息，对所述标准化的文本图像进行分割，得到多个文本图像片段；

向量化模块，用于将所述多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的初始图像向量，并对所述初始文本信息进行文本向量化处理，得到所述初始文本信息对应的初始文本向量；

确定模块，用于在预置的文本图像信息库中获取所述初始文本向量对应的标注信息，并根据所述标注信息确定各初始图像向量对应的目标文本信息。

可选的，在本发明第二方面的第一种实现方式中，所述接收模块具体用于：

对所述初始化的文本图像进行二值化处理，得到黑白图像；

可选的，在本发明第二方面的第二种实现方式中，所述光学字符识别引擎包括双向长短时记忆循环神经网络模型，所述识别模块具体用于：

可选的，在本发明第二方面的第三种实现方式中，所述图像特征提取模型包括双向编码BERT模型，所述向量化模块用于：

可选的，在本发明第二方面的第四种实现方式中，所述向量化模块还用于：

可选的，在本发明第二方面的第五种实现方式中，所述基于文本文档的文字识别装置还包括：

样本获取模块，用于获取文本文档格式的样本文件，并将所述样本文件转化为图像格式，得到样本图像；

样本分词模块，用于提取所述样本文件中的样本文本信息，并对所述样本文本信息进行分词处理，得到分词结果；

样本分割模块，用于基于所述分词结果，对所述样本图像进行分割处理，得到多个样本图像片段；

样本向量化模块，用于对所述分词结果进行文本向量化处理，得到样本文本向量，并对所述多个样本图像片段进行图像向量化处理，得到样本图像向量；

样本标注模块，用于按照所述样本文本向量对应的样本文本信息，对所述样本图像向量进行序列标注，得到各样本图像片段对应的标注信息，并生成文本图像信息库。

可选的，在本发明第二方面的第六种实现方式中，所述确定模块具体用于：

本发明第三方面提供了一种基于文本文档的文字识别设备，包括：存储器和至少一个处理器，所述存储器中存储有指令；所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于文本文档的文字识别设备执行上述的基于文本文档的文字识别方法。

本发明的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述的基于文本文档的文字识别方法。

本发明提供的技术方案中，接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像；基于预置的光学字符识别引擎，对所述标准化的文本图像进行文字识别，得到所述标准化的文本图像对应的初始文本信息；根据所述标准化的文本图像对应的初始文本信息，对所述标准化的文本图像进行分割，得到多个文本图像片段；将所述多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的初始图像向量，并对所述初始文本信息进行文本向量化处理，得到所述初始文本信息对应的初始文本向量；在预置的文本图像信息库中获取所述初始文本向量对应的标注信息，并根据所述标注信息确定各初始图像向量对应的目标文本信息。本发明实施例中，服务器通过对待识别的文本文档进行标注化的预处理，得到文本图像，再基于光学字符识别引擎，对文本图像进行初步的文本识别，得到初始文本信息，然后，服务器对文本图像进行分割，并对分割后的文本图像片段和初始文本信息进行向量化处理，得到初始文本向量和初始图像向量，最后，服务器根据初始文本向量获取初始图像向量的标注信息，得到目标文本信息，本发明可以提高文本文档的文字识别准确率。

附图说明

图1为本发明实施例中基于文本文档的文字识别方法的一个实施例示意图；

图2为本发明实施例中基于文本文档的文字识别方法的另一个实施例示意图；

图3为本发明实施例中基于文本文档的文字识别装置的一个实施例示意图；

图4为本发明实施例中基于文本文档的文字识别装置的另一个实施例示意图；

图5为本发明实施例中基于文本文档的文字识别设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于文本文档的文字识别方法、装置、设备及存储介质，用于提高文本识别的准确率。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体流程进行描述，请参阅图1，本发明实施例中基于文本文档的文字识别方法的一个实施例包括：

101、接收待识别的文本文档，并对文本文档进行预处理，得到标准化的文本图像；

可以理解的是，本发明的执行主体可以为基于文本文档的文字识别装置，还可以是终端或者服务器，具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

本实施例中，待识别的文本文档是具有文本格式的文本文档，例如可携带文档格式PDF文档、文字处理器应用程序WORD文档、电子表格EXCEL文档等，为了提高文本文档中的文字识别准确率，本发明结合了文本识别和图像识别技术，使基于文本文档的文字识别准确度提高。待识别的文本文档可以包括多个文本文档，服务器支持用户批量上传待识别的文本文档，并批量对待识别的文本文档进行预处理，使文本识别更高效。

本实施例中，为了得到标准化的文本图像，服务器对待识别的文本文档进行一系列的预处理操作，包括识别文本文档的文档格式，并根据识别到的文档格式对文本文档进行分页，服务器根据分页结果将文本文档转化为图像格式，其中，每一页对应一张文本图像，分页结果中包括每一页的按页递增的页码信息，可用于服务器对后续的文字识别结果进行按序拼接，从而保证了文本的有序性。

本实施例中，标准化的文本图像为图像大小、图像色彩、图像角度、图像格式、图像尺寸等符合预置格式的文本图像，服务器对文本文档的标准化与处理，能够减少后续模型的计算成本，从而提高文字的识别效率。

102、基于预置的光学字符识别引擎，对标准化的文本图像进行文字识别，得到标准化的文本图像对应的初始文本信息；

本实施例中，光学字符识别引擎(optical character recognition，OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的智能引擎。预置的光学字符识别引擎采用神经网络模型进行文字识别，光学字符识别引擎的网络结构包括：卷积神经网络CNN+双向长短时记忆循环神经网络LSTM，具体的，服务器将文本图像输入初始化的CNN提取图像特征，服务器再通过LSTM对图像特征进行序列化处理，服务器最后通过对序列的分类标注，得到文本图像中的初始文本信息，使得文字识别的效率大幅提升，也提升了模型的泛化能力。

本实施例中，光学字符识别引擎还引入了注意力机制，具体的，服务器将文本图像输入初始化的CNN进行图像特征提取后，通过注意力模型对循环神经网络RNN的状态和上一状态的注意力权重计算出新状态的注意力权重。之后服务器将CNN特征和权重输入RNN，服务器通过对CNN特征和权重编码和解码得到结果，也就是初始文本信息。由于文本图像是基于文本文档的图像，没有复杂的图像背景，因此，服务器基于预置的光学字符识别引擎的文字识别准确率较高，为后续的序列标注提供了数据保障。

103、根据标准化的文本图像对应的初始文本信息，对标准化的文本图像进行分割，得到多个文本图像片段；

本实施例中，为了提高文字识别的效率，服务器将文本图像分割为多个文本图像片段，具体的，服务器根据初始文本信息中的句子断位信息，对文本图像进行裁剪和分割，得到文本图像中各个句子的文本图像片段，例如，服务器根据初始文本信息中的句号，识别出文本图像的分割点，并按照分割点对标准化的文本图像进行分割，得到不同句子对应的文本图像片段。服务器还可以根据初始文本信息中的分段信息，进行文本图像的裁剪和分割，在此不做具体限定。

104、将多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的初始图像向量，并对初始文本信息进行文本向量化处理，得到初始文本信息对应的初始文本向量；

本实施例中，图像特征提取模型是基于双向编码(bidirectional encoderrepresentations from transformers，BERT)模型训练的视觉双向编码VisualBert模型，是基于BERT的多模态应用，服务器在训练模型的过程中便结合了图像和文本，可以进行句子和图像的关系预测，从而生成图像的向量化表示，也就是初始图像向量，而文本信息的向量化处理采用的是词嵌入向量(Word Embedding)，能够基于词与词之间的关系，将词语映射到一个较低维度的向量空间，得到初始文本向量，用于后续的文本识别。

105、在预置的文本图像信息库中获取初始文本向量对应的标注信息，并根据标注信息确定各初始图像向量对应的目标文本信息。

本实施例中，服务器在预置的文本图像信息库中获取初始文本向量对应的标注信息，并查找初始文本向量对应的目标图像向量，然后服务器根据标注信息在预置文本字典中查找初始文本向量对应的初始文本信息，最后服务器根据文本信息确定目标图像向量对应的目标文本信息，也就是文本图像片段中的具体文字。

进一步地，服务器将目标文本信息存储于区块链数据库中，具体此处不做限定。

本发明实施例中，服务器通过对待识别的文本文档进行标注化的预处理，得到文本图像，再基于光学字符识别引擎，对文本图像进行初步的文本识别，得到初始文本信息，然后，服务器对文本图像进行分割，并对分割后的文本图像片段和初始文本信息进行向量化处理，得到初始文本向量和初始图像向量，最后，服务器根据初始文本向量获取初始图像向量的标注信息，得到目标文本信息，本发明可以提高文本文档的文字识别准确率。

请参阅图2，本发明实施例中基于文本文档的文字识别方法的另一个实施例包括：

201、接收待识别的文本文档，并对文本文档进行预处理，得到标准化的文本图像；

具体的，服务器接收待识别的文本文档，并将文本文档转化为图像格式，得到初始化的文本图像；服务器对初始化的文本图像进行二值化处理，得到黑白图像；服务器遍历黑白图像中各像素点的灰度值，并对各像素点的灰度值进行降噪处理，得到降噪图像；服务器按照预置的图像校正算法，对降噪图像进行校正处理，得到标准化的文本图像。

本可选实施例中，服务器通过一系列的预处理操作，将待识别的文本文档转化为标准化的文本图像，从而进行后续的文本图像识别，其中，预处理的过程包括：图像二值化、降噪和校正，最后得到能够用于图像文本识别的标准化的文本图像。

进一步的，服务器获取文本文档格式的样本文件，并将样本文件转化为图像格式，得到样本图像；服务器提取样本文件中的样本文本信息，并对样本文本信息进行分词处理，得到分词结果；服务器基于分词结果，对样本图像进行分割处理，得到多个样本图像片段；服务器对分词结果进行文本向量化处理，得到样本文本向量，并对多个样本图像片段进行图像向量化处理，得到样本图像向量；服务器按照样本文本向量对应的样本文本信息，对样本图像向量进行序列标注，得到各样本图像片段对应的标注信息，并生成文本图像信息库。

本可选实施例中，服务器通过批量获取文本文档格式的样本文件，用于生成文本图像信息库，文本图像信息库中包括海量的样本文本信息、样本文本信息对应的样本文本向量、样本图像、样本图像片段、样本图像片段对应的样本图像向量、以及样本图像片段对应的标注信息，文本图像信息库可以用于图像向量的文本信息检索，从而进行图像文本的识别。

202、基于预置的光学字符识别引擎，对标准化的文本图像进行文字识别，得到标准化的文本图像对应的初始文本信息；

具体的，服务器将文本图像输入双向长短时记忆循环神经网络模型的输入层进行矩阵化处理，得到文本图像的第一特征矩阵；服务器将第一特征矩阵输入双向长短时记忆循环神经网络模型的编码层进行特征提取，得到第二特征矩阵；服务器将第二特征矩阵输入双向长短时记忆循环神经网络模型的解码层进行特征解码，得到第三特征矩阵；服务器将第三特征矩阵输入双向长短时记忆循环神经网络模型的全连接层进行特征分类，得到文本图像对应的文本特征分类标签；服务器将文本特征分类标签设置为索引，查找预置的文本字典，得到标准化的文本图像对应的初始文本信息。

本可选实施例中，双向长短时记忆循环神经网络模型Bi-LSTM结合了长短时记忆神经网络模型LSTM(Long Short-Term Memory)和循环神经网络模型RNN(RecurrentNeural Network)，并采用双向编码模式，使得双向长短时记忆循环神经网络模型在图像文字识别上取得了卓越的效果，服务器首先将文本图像输入模型的输入层进行矩阵化处理，以将文本图像转化为数字矩阵，得到第一特征矩阵，然后服务器将第一特征矩阵输入到编码层进行特征提取，也就是采用多中卷积因子，对第一特征矩阵进行卷积计算，得到第二特征矩阵，服务器再将第二特征矩阵输入到解码层进行特征解码，得到正向结果的第三特征矩阵，并进行反向操作，也就是服务器对第一特征矩阵进行取反之后再通过编码层和解码层，得到反向结果的第三特征矩阵，最后服务器将正向结果和反向结果的第三特征矩阵输入全连接层进行特征分类，得到文本图像对应的文本特征分类标签，服务器通过文本特征分类标签就能查找到文本图像对应的初始文本信息。

203、根据标准化的文本图像对应的初始文本信息，对标准化的文本图像进行分割，得到多个文本图像片段；

该步骤203的执行过程与步骤103的执行过程相似，具体此处不再赘述。

204、将多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的目标图像向量，并对初始文本信息进行文本向量化处理，得到初始文本信息对应的初始文本向量；

具体的，服务器将多个文本图像片段输入双向编码BERT模型的卷积层进行特征提取，得到各文本图像片段对应的第一特征向量；服务器将各第一特征向量输入双向编码BERT模型的激励层进行非线性映射，得到多个第二特征向量；服务器将各第二特征向量输入双向编码BERT模型的池化层进行降维处理，得到各文本图像片段对应的初始图像向量。

本可选实施例中，图像特征提取模型包括双向编码BERT模型，双向编码BERT模型包括卷积层、激励层和池化层，服务器将多个文本图像片段依次通过双向编码BERT模型的各个网络层之后，得到文本图像片段对应的初始图像向量，用于表示各个文本图像片段的特征序列。

可选的，服务器还可以将多个文本图像片段和初始文本信息同时输入到训练好的双模态识别ViLBERT模型，双模态识别ViLBERT模型的编码层分别对各个文本图像片段和各个文本图像片段对应的初始文本信息进行编码，得到各个文本图像片段对应的编码结果和各个文本图像片段对应的初始文本信息的编码结果，当两种模态进行编码之后，服务器再将各个编码结果通过双模态识别ViLBERT模型的共注意力机制网络进行共注意力计算，也就是各个编码结果都用自身的Query(query understanding，QU)和另一模态的编码结果的值Value和键Key进行注意力计算，得到各文本图像片段对应的初始图像向量，和初始文本信息对应的初始文本向量，其中，文本图像片段为一个模态、初始文本信息为另一个模态。

具体的，服务器基于预置的分词算法，对初始文本信息进行分词处理，得到分词结果；服务器基于预置的独热编码算法，对分词结果进行稀疏向量化处理，得到初始文本信息对应的稀疏向量；服务器基于预置的词嵌入算法，将初始文本信息对应的稀疏向量映射为稠密向量，得到初始文本信息对应的初始文本向量。

本可选实施例中，预置的分词算法包括：统计语言N-Gram算法、条件随机场CRF分词算法和最短路径分词算法，服务器通过独热编码算法(One-Hot Encoding)可以将词语转化为机器能够理解的稀疏向量，服务器再基于词嵌入算法(Word Embedding)将稀疏向量映射为高维度的稠密向量，从而得到表示初始文本信息的初始文本向量。

205、在文本图像信息库中查找初始文本向量对应的目标文本向量，并获取目标文本向量对应的标注信息；

本实施例中，服务器在文本图像信息库的样本文本向量中查找与初始文本向量对应的目标文本向量，从而获取到与初始文本向量对应的标注信息，服务器通过标注信息，查找预置的文本字典，就能获取到与目标文本向量对应的文本信息，也就是初始文本向量对应的文本信息，而服务器通过目标文本向量和目标图像向量的对应关系，即能确定目标图像向量对应的目标文本信息。

206、根据目标文本向量对应的标注信息，在文本图像信息库中获取各初始图像向量对应的目标图像向量，并分别判断各初始图像向量对应的目标图像向量与各初始图像向量之间的相似度是否小于预置阈值；

本实施例中，服务器通过目标文本向量，在文本图像信息库的样本图像向量中读取对应目标图像向量，服务器再通过计算目标图像向量和初始图像向量之间的相似度，来判断目标图像向量与初始图像向量之间的相似度是否小于预置阈值，也就是判断目标图像向量与初始图像向量之间的相似度是否小于预置阈值，若目标图像向量与初始图像向量之间的相似度小于预置阈值，说明目标图像向量对应的目标文本信息可以作为最终识别结果，否则说明目标图像向量对应的目标文本信息不能作为最终识别结果，服务器将继续在文本图像信息库中匹配目标图像向量，直至文本图像信息库中的全部样本图像向量匹配完成，或者匹配到目标图像向量为止。

207、若各初始图像向量对应的目标图像向量与各初始图像向量之间的相似度小于预置阈值，则在目标图像向量对应的标注信息中提取各初始图像向量对应的目标文本信息。

本实施例中，服务器通过目标图像向量对应的标注信息，就能在预置的文本字典中查找到标注信息所承载的目标文本信息，也就是文本图像片段中的具体文字，可选的，服务器提取到目标文本信息之后，还可以将目标文本信息和初始文本信息进行比对，当出现不相同的语句对时，服务器对不相同的语句对进行自然语言处理，确定语句对中符合自然语言表达方式的目标语句，并将目标语句作为最终的识别结果，输出给用户。

本发明实施例中，服务器根据初始文本向量在文本图像信息库获取目标文本向量，再根据目标文本向量获取目标图像向量，然后，服务器通过判断初始图像向量和目标图像向量之间的差异，来确定目标文本信息，本发明可以提高文本文档的识别效率和准确率。

上面对本发明实施例中基于文本文档的文字识别方法进行了描述，下面对本发明实施例中基于文本文档的文字识别装置进行描述，请参阅图3，本发明实施例中基于文本文档的文字识别装置一个实施例包括：

接收模块301，用于接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像；

识别模块302，用于基于预置的光学字符识别引擎，对所述标准化的文本图像进行文字识别，得到所述标准化的文本图像对应的初始文本信息；

分割模块303，用于根据所述标准化的文本图像对应的初始文本信息，对所述标准化的文本图像进行分割，得到多个文本图像片段；

向量化模块304，用于将所述多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的初始图像向量，并对所述初始文本信息进行文本向量化处理，得到所述初始文本信息对应的初始文本向量；

确定模块305，用于在预置的文本图像信息库中获取所述初始文本向量对应的标注信息，并根据所述标注信息确定各初始图像向量对应的目标文本信息。

进一步地，将目标文本信息存储于区块链数据库中，具体此处不做限定。

本发明实施例中，服务器通过对待识别的文本文档进行标注化的预处理，得到文本图像，再基于光学字符识别引擎，对文本图像进行初步的文本识别，得到初始文本信息，然后，服务器对标准化的文本图像进行分割，并对分割后的文本图像片段和初始文本信息进行向量化处理，得到初始文本向量和初始图像向量，最后，服务器根据初始文本向量获取初始图像向量的标注信息，得到目标文本信息，本发明可以提高文本文档的文字识别准确率。

请参阅图4，本发明实施例中基于文本文档的文字识别装置的另一个实施例包括：

可选的，所述接收模块301具体用于：

对所述初始化的文本图像进行二值化处理，得到黑白图像；

可选的，所述光学字符识别引擎包括双向长短时记忆循环神经网络模型，所述识别模块302具体用于：

可选的，所述图像特征提取模型包括双向编码BERT模型，所述向量化模块304用于：

将所述多个文本图像片段输入所述双向编码BERT模型的卷积层进行特征提取，得到各所述文本图像片段对应的第一特征向量；

将各所述第一特征向量输入所述双向编码BERT模型的激励层进行非线性映射，得到多个第二特征向量；

将各所述第二特征向量输入所述双向编码BERT模型的池化层进行降维处理，得到各文本图像片段对应的初始图像向量。

可选的，所述向量化模块304还用于：

可选的，所述基于文本文档的文字识别装置还包括：

样本获取模块306，用于获取文本文档格式的样本文件，并将所述样本文件转化为图像格式，得到样本图像；

样本分词模块307，用于提取所述样本文件中的样本文本信息，并对所述样本文本信息进行分词处理，得到分词结果；

样本分割模块308，用于基于所述分词结果，对所述样本图像进行分割处理，得到多个样本图像片段；

样本向量化模块309，用于对所述分词结果进行文本向量化处理，得到样本文本向量，并对所述多个样本图像片段进行图像向量化处理，得到样本图像向量；

样本标注模块310，用于按照所述样本文本向量对应的样本文本信息，对所述样本图像向量进行序列标注，得到各样本图像片段对应的标注信息，并生成文本图像信息库。

可选的，所述确定模块305具体用于：

上面图3和图4从模块化功能实体的角度对本发明实施例中的基于文本文档的文字识别装置进行详细描述，下面从硬件处理的角度对本发明实施例中基于文本文档的文字识别设备进行详细描述。

图5是本发明实施例提供的一种基于文本文档的文字识别设备的结构示意图，该基于文本文档的文字识别设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对XXX设备500中的一系列指令操作。更进一步地，处理器510可以设置为与存储介质530通信，在基于文本文档的文字识别设备500上执行存储介质530中的一系列指令操作。

基于文本文档的文字识别设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图5示出的基于文本文档的文字识别设备结构并不构成对基于文本文档的文字识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供一种基于文本文档的文字识别设备，所述计算机设备包括存储器和处理器，存储器中存储有计算机可读指令，计算机可读指令被处理器执行时，使得处理器执行上述各实施例中的所述基于文本文档的文字识别方法的步骤。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于文本文档的文字识别方法的步骤。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于文本文档的文字识别方法，其特征在于，所述基于文本文档的文字识别方法包括：

2.根据权利要求1所述的基于文本文档的文字识别方法，其特征在于，所述接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像，包括：

对所述初始化的文本图像进行二值化处理，得到黑白图像；

3.根据权利要求1所述的基于文本文档的文字识别方法，其特征在于，所述光学字符识别引擎包括双向长短时记忆循环神经网络模型，所述基于预置的光学字符识别引擎，对所述标准化的文本图像进行文字识别，得到所述标准化的文本图像对应的初始文本信息，包括：

4.根据权利要求1所述的基于文本文档的文字识别方法，其特征在于，所述图像特征提取模型包括双向编码BERT模型，所述将所述多个文本图像片段输入训练好的图像特征提取模型进行图像向量化处理，得到各文本图像片段对应的初始图像向量，包括：

5.根据权利要求1所述的基于文本文档的文字识别方法，其特征在于，所述对所述初始文本信息进行文本向量化处理，得到所述初始文本信息对应的初始文本向量，包括：

6.根据权利要求1所述的基于文本文档的文字识别方法，其特征在于，在所述接收待识别的文本文档，并对所述文本文档进行预处理，得到标准化的文本图像之前，所述基于文本文档的文字识别方法还包括：

7.根据权利要求6所述的基于文本文档的文字识别方法，其特征在于，所述在预置的文本图像信息库中获取所述初始文本向量对应的标注信息，并根据所述标注信息确定各初始图像向量对应的目标文本信息，包括：

8.一种基于文本文档的文字识别装置，其特征在于，所述基于文本文档的文字识别装置包括：

9.一种基于文本文档的文字识别设备，其特征在于，所述基于文本文档的文字识别设备包括：存储器和至少一个处理器，所述存储器中存储有指令；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于文本文档的文字识别设备执行如权利要求1-7中任意一项所述的基于文本文档的文字识别方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-7中任一项所述基于文本文档的文字识别方法。