CN112307820A

CN112307820A - 文本识别方法、装置、设备和计算机可读介质

Info

Publication number: CN112307820A
Application number: CN201910689053.1A
Authority: CN
Inventors: 潘能超
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2019-07-29
Filing date: 2019-07-29
Publication date: 2021-02-02
Anticipated expiration: 2039-07-29
Also published as: CN112307820B

Abstract

本申请实施例提供了一种文本识别方法、装置、设备和计算机可读介质。该方法包括：通过预先训练好的第一文本识别模型对待识别文本进行处理得到第一概率矩阵；根据第一概率矩阵确定第一识别结果；确定第一识别结果中中文字符的占比以及是否存在特殊字符；若中文字符的占比不小于预设阈值或存在特殊字符，将第一识别结果作为最终识别结果；若中文字符的占比小于预设阈值且不存在特殊字符，通过预先训练好的第二文本识别模型对待识别文本进行处理得到第二概率矩阵，根据第一概率矩阵和第二概率矩阵确定最终识别结果。通过对得到的概率矩阵进行处理以得到最终识别结果，提高对待识别文本的识别精度，实现对不同类别数据识别时具有良好的识别效果。

Description

文本识别方法、装置、设备和计算机可读介质

技术领域

本申请实施例涉及图像处理技术领域，尤其涉及一种文本识别方法、装置、设备和计算机可读介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)是电子设备通过对字符进行检测，确定其形状，然后通过字符识别方法将形状翻译成计算机文字的过程。随着平台式扫描仪的广泛应用，以及我国信息自动化和办公自动化的普及，大大推动了OCR技术的发展，在很多领域及场景OCR技术得到了广泛的应用，如车牌识别、支票识别、图书朗读等。

目前，常用的识别方法是模板匹配法，其是将输入的文字与给定的各类别的标准文字(模板)进行相关匹配，计算输入文本与各模板之间的相似程度。该方法在被识别类别数增加时，文字模板的数量也随之增加，极大降低了识别的正确率，致使识别的精度不高，识别效果较差。

发明内容

有鉴于此，本发明实施例所解决的技术问题之一在于提供一种文本识别方法、装置、设备和计算机可读介质，通过利用不同的文本识别模型对待识别文本进行处理，提高对待识别文本的识别精度，以实现对不同类别字符识别时达到很好的识别效果。

为达上述目的及其他相关目的，本申请实施例提供一种文本识别方法，包括：通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；根据所述第一概率矩阵，确定第一识别结果；确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在特殊字符，将所述第一识别结果作为最终识别结果；若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和所述第二概率矩阵，确定最终识别结果。

可选地，在本申请的任一实施例中，所述通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵包括：通过预先训练好的第一文本识别模型对所述待识别文本进行识别，得到第一概率矩阵。

可选地，在本申请的任一实施例中，所述根据所述第一概率矩阵，确定第一识别结果包括：对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果。

可选地，在本申请的任一实施例中，所述对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果包括：针对每一帧，选取所述第一概率矩阵中对应该帧的概率值最大的字符为识别字符；对选取的各帧对应的识别字符进行合并，得到所述第一识别结果。

可选地，在本申请的任一实施例中，所述确定所述第一识别结果中中文字符的占比包括：分别对所述第一识别结果中的所述中文字符的数量以及英文字符的数量进行统计；根据所述中文字符的数量以及所述英文字符的数量计算所述第一识别结果中所述中文字符的占比。

可选地，在本申请的任一实施例中，所述若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和所述第二概率矩阵，确定最终识别结果包括：若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行识别，得到第二概率矩阵；根据所述第一概率矩阵和所述第二概率矩阵，确定第三概率矩阵；根据所述第三概率矩阵，确定文本字符串；对所述文本字符串进行拆分，得到拆分结果；若所述拆分结果中的英文字符串存在于预先构造的第一字典树，将所述拆分结果作为所述最终识别结果。

可选地，在本申请的任一实施例中，所述根据所述第一概率矩阵和所述第二概率矩阵，确定第三概率矩阵包括：对所述第一概率矩阵与所述第二概率矩阵进行加权求和，得到所述第三概率矩阵。

可选地，在本申请的任一实施例中，所述根据所述第三概率矩阵，确定文本字符串包括：对所述第三概率矩阵进行每帧最大值处理，得到所述文本字符串。

可选地，在本申请的任一实施例中，所述对所述文本字符串进行拆分，得到拆分结果包括：以空格、标点为间隙对所述文本字符串进行拆分，得到所述拆分结果。

可选地，在本申请的任一实施例中，所述若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵；根据所述第一概率矩阵和所述第二概率矩阵，确定所述最终识别结果还包括：若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行识别，得到第二概率矩阵；根据所述第一概率矩阵和第二概率矩阵，确定第三概率矩阵；根据所述第三概率矩阵，确定文本字符串；对所述文本字符串进行拆分，得到拆分结果；若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，则对所述英文字符串进行矫正，得到英文矫正结果；根据所述英文矫正结果和拆分结果，确定所述最终识别结果。

可选地，在本申请的任一实施例中，所述若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，则对所述英文字符串进行矫正，得到英文矫正结果包括：若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词组成，对所述多个无空格单词进行矫正，得到所述英文矫正结果；若基于所述第一字典树判断所述英文字符串无法拆分，则基于所述第一字典树，判断所述英文字符串在第一预设编辑距离内是否存在第一候选单词集，其中，所述第一候选单词集中包括至少一个第一候选单词，所述第一预设编辑距离用于度量所述英文字符串与所述第一候选单词之间的相似度；若基于所述第一字典树，所述英文字符串在所述第一预设编辑距离内存在第一候选单词集，则所述英文字符串为单个错误单词组成，对所述单个错误单词进行矫正，得到所述英文矫正结果；若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，则基于预先构造的第二字典树，对所述英文字符串进行拆分，得到错误结果，对所述错误结果进行矫正，得到所述英文矫正结果，其中，所述错误结果为错误字符和正确单词组成。

可选地，在本申请的任一实施例中，所述若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词组成，对所述多个无空格单词进行矫正，得到英文矫正结果还包括：若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词组成；对所述多个无空格单词进行分割，得到多个分割结果；将词数最少的所述分割结果作为所述英文矫正结果。

可选地，在本申请的任一实施例中，所述若基于所述第一字典树，所述英文字符串在第一预设编辑距离内存在第一候选单词集，确定所述英文字符串为单个错误单词组成，对所述单个错误单词进行矫正，得到所述英文矫正结果包括：若基于所述第一字典树，所述英文字符串在第一预设编辑距离内存在第一候选单词集，确定所述英文字符串为单个错误单词组成；根据所述第三概率矩阵，确定所述单个错误单词的第四概率矩阵，其中，所述第四概率矩阵为所述单个错误单词在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；基于所述第一候选单词集中的所述第一候选单词，对所述第四概率矩阵进行解码，得到第一损失函数值，其中，所述第一损失函数值通过连接时序分类损失函数进行计算；将最小的所述第一损失函数值对应的所述第一候选单词作为所述单个错误单词的所述英文矫正结果。

可选地，在本申请的任一实施例中，所述若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，则基于预先构造的第一字典树，对所述英文字符串进行拆分，得到错误结果，对所述错误结果进行矫正，得到所述英文矫正结果还包括：若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，基于预先构造的第二字典树，对所述英文字符串进行拆分，得到错误结果，其中，所述错误结果由错误字符串和正确单词组成；确定与所述错误字符串在第二预设编辑距离内的至少一个第二候选单词集，其中，所述第二候选单词集包括至少一个第二候选单词，所述第二预设编辑距离用于度量所述字母字符串与所述第二候选单词之间的相似度；对所述错误结果中的所述错误字符串用所述第二候选单词进行替换，得到替换结果；根据所述第三概率矩阵，确定所述错误字符串的第五概率矩阵，其中，所述第五概率矩阵为所述错误字符串在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；基于所述替换结果，对所述第五概率矩阵进行解码，得到第二损失函数值，其中，所述第二损失函数值通过连接时序分类损失函数进行计算；将最小的所述第二损失函数值对应的所述替换结果作为所述英文矫正结果。

可选地，在本申请的任一实施例中，所述根据所述英文矫正结果和拆分结果，确定所述最终识别结果包括：对所述拆分结果中的所述英文字符串用所述英文矫正结果进行替换处理，得到所述最终识别结果；或者对所述英文矫正结果与所述拆分结果中的中文拆分结果进行合并处理，得到所述最终识别结果。

本申请实施例还提供一种文本识别装置，包括：中文识别单元，用于通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；中文结果单元，用于根据所述第一概率矩阵，确定第一识别结果；分析单元，用于确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；识别输出单元，用于若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在特殊字符，将所述第一识别结果作为最终识别结果；若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和所述第二概率矩阵，确定最终识别结果。

本申请实施例还提供一种文本识别设备，包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一实施例中所述的文本识别方法。

本申请实施例还提供一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述任一实施例中所述的文本识别方法。

由上可知，本申请实施例所提供的文本识别方法，通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；根据第一概率矩阵，确定第一识别结果；确定第一识别结果中中文字符的占比，以及第一识别结果中是否存在特殊字符；若中文字符的占比不小于预设阈值或者第一识别结果中存在特殊字符，将第一识别结果作为最终识别结果；若中文字符的占比小于预设阈值且第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对待识别文本进行处理，得到第二概率矩阵，根据第一概率矩阵和第二概率矩阵，确定最终识别结果。该方法利用预先训练好的不同的文本识别模型对待识别文本进行识别，通过对得到的第一概率矩阵和第二概率矩阵进行处理，实现概率矩阵的替换，根据替换后的概率矩阵得到最终识别结果，提高对待识别文本的识别精度，实现对不同类别字符识别时具有很好的识别效果。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1为根据本申请第一实施例所示的文本识别方法的流程示意图；

图2为根据本申请第二实施例所示的文本识别方法的流程示意图；

图3为根据本申请第三实施例所示的文本识别方法的流程示意图；

图4为根据本申请第四实施例所示的文本识别方法的流程示意图；

图5为根据本申请第五实施例所示的文本识别装置的结构示意图；

图6为根据本申请第六实施例所示的文本识别装置的结构示意图；

图7为根据本申请第七实施例所示的文本识别装置的结构示意图；

图8为根据本申请第八实施例所示的文本识别装置的结构示意图；

图9为根据本申请第九实施例所示的文本识别设备的结构示意图；

图10为根据本申请第十实施例所示的文本识别设备的硬件结构。

具体实施方式

实施本发明实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本领域的人员更好地理解本发明实施例中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明实施例一部分实施例，而不是全部的实施例。基于本发明实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本发明实施例保护的范围。

下面结合本发明实施例附图进一步说明本发明实施例具体实现。

图1为根据本申请第一实施例所示的文本识别方法的流程示意图。如图1所示，该实施例的文本识别方法包括：

步骤S101、通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；

在步骤101中，所述第一概率矩阵的列为对所述待识别文本进行识别时的帧；所述第一概率矩阵的行为字符类别；每一行表征同种字符类别在不同帧上的概率；每一列表征同一帧在不同字符类别上的概率。需要说明的是，每一列上所有概率值的和为1，即待识别字符识别为不同字符类别的所有概率值的和为1。

该实施例中，利用样本训练数据，通过深度学习算法进行训练得到第一文本识别模型，通过第一文本识别模型对待识别文本进行处理，实现对待识别文本中的中文字符进行精确识别。其中，用于训练第一文本识别模型的样本训练数据中大部分为中文字符(可以少量英文字符)，通过样本训练数据训练完成的第一文本识别模型可以提供较高的识别精度与效率，实现对中文字符的精确、快速识别。

在此，并不对识别文本进行限制，所述待识别文本可以为图片文本、票据。其中，图片文本的格式可以为bmp、jpg、png、tif、gif、pcx、tga、exif、fpx、svg、psd、cdr、pcd、dxf、ufo、eps、ai、raw、WMF、webp等。

具体的，所述通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一识别结果包括：通过预先训练好的第一文本识别模型对所述待识别文本进行识别，得到第一概率矩阵。

该实施例中，通过所述预先训练好的第一文本识别模型对待识别文本进行字符信息的采集、分析、分类，以对所述待识别文本进行处理。其中，字符信息的采集是通过将待识别文本中的字符灰度转换为电信号输入到处理器中；字符信息的分析是对转换后的电信号消除各种不利因素(如均匀性、污染等)造成的噪音干扰，进行大小、粗细等标准化处理；字符信息的分类是对去除噪音干扰并标准化处理后的信息进行分类，以对识别到的字符及其类别进行统计分析，得到第一概率矩阵。

步骤S102、根据所述第一概率矩阵，确定第一识别结果；

具体的，根据所述第一概率矩阵，确定第一识别结果包括：对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果。

该实施例中，由于第一文本识别模型将待识别文本中的每个字符识别为一帧，所以第一概率矩阵的列数为第一文本识别模型识别时的帧数；第一概率矩阵的行数为第一文本识别模型识别到的字符种类数量，也即待识别文本中共包含的字符类别。需要说明的是，每一个不同的字符均代表一个字符类别。

具体的，对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果包括：针对每一帧，选取所述第一概率矩阵中对应该帧的概率值最大的字符为识别字符；对选取的各帧对应的识别字符进行合并，得到所述第一识别结果。

该实施例中，通过第一文本识别模型对待识别文本进行识别时，每个待识别的字符的识别结果可能不止一个，针对每个待识别的字符，将识别到的所有字符均作为该待识别的字符的候选字符，形成候选字符集。在确定待识别的字符的识别结果时，对候选字符集中每一个候选字符在第一概率矩阵中对应的概率值进行比对，选取第一概率矩阵中概率值最大的候选字符作为待识别字符的识别字符(即识别结果)。其中，概率值表征了将待识别字符识别为候选字符时的概率。通过对每一列选取的识别字符进行合并处理，以得到第一识别结果。

步骤S103、确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；

具体的，所述确定所述第一识别结果中中文字符的占比包括：分别对所述第一识别结果中的所述中文字符的数量以及英文字符的数量进行统计；根据所述中文字符的数量以及所述英文字符的数量计算所述第一识别结果中所述中文字符的占比。

该实施例中，利用中文计数器对第一识别结果中的中文字符进行统计，利用英文计数器对第一识别结果中的英文字符进行统计。如：对第一识别结果中的字符逐个进行统计时，遇到中文字符，则中文计数器加1，遇到英文字符，则英文计数器加1，直至第一识别结果中的字符统计完毕。然后，根据统计的字符总的数量和中文字符的数量计算第一识别结果中中文字符的比例，其中，字符总的数量等于中文字符的数量与英文字符的数量之和。

该实施例中，通过对第一识别结果中的每一个字符循环遍历，确认其是否属于特殊字符。特殊字符是相对于传统符号或常用符号，使用频率较少或难以输入的符号。如：注音符号、数学符号、拼音符号、图文符号、方块符号、箭头、全角字符、线框符号、音乐符号等。

步骤S104、若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在特殊字符，将所述第一识别结果作为最终识别结果。

该实施例中，计算中文字符在第一识别结果中的占比，若中文字符的占比不小于预设阈值，说明待识别文本中主要为中文字符或纯中文字符，通过第一文本识别模型能够对其进行精确识别，因而，将第一识别结果作为最终识别结果。其中，预设阈值可根据经验确定，也可以基于深度神经网络模型对文本识别结果进行学习、训练得到，或者是通过对文本识别结果进行统计分析得到。

该实施例中，确认第一识别结果中存在特殊字符，认为待识别文本中英文字符作为单词出现的概率较低，通过第一文本识别模型对待识别文本进行识别时具有很好的识别精度，能够得到很好的识别结果，可以将第一识别结果作为最终识别结果。比如：一张数学试卷中，包含有较多的加减乘除符号、阿拉伯数字等特殊字符，英文字符(如sin、cos、tan、max、min等)多以非单词形式出现，仅通过第一文本识别模型进行识别就可以得到准确的识别结果。

图2为根据本申请第二实施例所示的文本识别方法的流程示意图。如图2所示，该实施例的文本识别方法包括：

步骤S201、通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；

步骤S202、根据所述第一概率矩阵，确定第一识别结果；

步骤S203、确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；

该实施例中，步骤S201、步骤S202、步骤S203分别类似于上述第一实施例中的步骤S101、步骤S102、步骤S103，在此不再一一赘述。

步骤S204、若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和所述第二概率矩阵，确定所述最终识别结果。

在步骤204中，所述第二概率矩阵的列为对所述待识别文本进行识别时的帧；所述第二概率矩阵的行为字符类别；每一行表征同种字符类别在不同帧上的概率；每一列表征同一帧在不同字符类别上的概率。需要说明的是，每一列上所有概率值的和为1，即每一帧待识别字符识别为不同字符类别的所有概率值的和为1。

该实施例中，若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，则说明待识别文本中中文字符的数量较少，大量存在的是英文字符。通过第一文本识别模型对待识别文本进行识别时识别精度不够，不能够得到很好的识别结果。需要通过第二文本识别模型对待识别文本进行识别，以完成对待识别文本中英文字符的高精度识别。比如，一张英文试卷中，几乎没有中文字符和特殊字符，因而需要通过第二文本识别模型对其进行识别。

通过第一文本识别模型对待识别文本进行识别，得到对于中文字符识别精确的第一概率矩阵；而对于英文字符就需要通过预先训练好的第二文本识别模型对待识别文本进行识别。此处，第二文本识别模型通过训练能够对待识别文本中的英文字符进行精确处理，由此得到对于英文字符识别精确的第二概率矩阵，然后再将第一概率矩阵和第二概率矩阵进行处理，如对第一概率矩阵和第二概率矩阵进行加权求和得到新的概率矩阵，根据新的概率矩阵得到待识别文本精确的识别结果。

具体的，所述第一文本识别模型、所述第二文本识别模型均为卷积循环神经网络模型。该实施例中，基于CRNN(Convolutional Recurrent Neural Network，卷积循环神经网络)卷积循环神经网络的第一文本识别模型、第二文本识别模型在识别多种语言类别时，不需要对样本数据进行字符分割、可识别任意长度的文本序列，且模型参数少、速度快，能够同时保证对各种语言类别进行识别的精度，对识别结果进行矫正，提高了文本识别的准确率。

具体的，通过英文训练数据对所述第二文本识别模型进行训练。该实施例中，第二文本识别模型利用英文训练数据，通过深度学习算法进行训练，通过英文训练数据训练完成的第二文本识别模型能够对英文字符进行精确识别。通过第二文本识别模型对待识别文本进行处理，主要是能够对待识别文本中的英文字符进行精确识别。

图3为根据本申请第三实施例所示的文本识别方法的流程示意图。如图3所示，该实施例的文本识别方法包括：

步骤S301、通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；

步骤S302、根据所述第一概率矩阵，确定第一识别结果；

步骤S303、确定所述第一识别结果中中文字符的占比，以及所述第一识别结果中是否存在特殊字符；

步骤S304、若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行识别，得到第二概率矩阵；

该实施例中，步骤S301、步骤S302以及步骤S303分别类似于上述第二实施例中的S201、S202、S203；步骤S304与上述第二实施例中得到第二概率矩阵的步骤类似，在此不再一一赘述。

步骤S305、根据所述第一概率矩阵和第二概率矩阵，确定第三概率矩阵；

具体的，所述根据所述第一概率矩阵和第二概率矩阵，确定第三概率矩阵包括：对所述第一概率矩阵与所述第二概率进行加权求和，得到所述第三概率矩阵。

该实施例中，第一文本识别模型对中文字符的识别准确率较高，由第一文本识别模型对待识别文本进行识别，中文字符具有高的识别准确度；第二文本识别模型对英文字符的识别准确度较高，由第二文本识别模型对待识别文本进行识别，英文字符具有高的识别准确度。结合二者的优势，将第一概率矩阵与第二概率矩阵进行加权求和，得到第三概率矩阵。由于第一概率矩阵中，中文字符具有高的识别准确度；第二概率矩阵中英文字符具有高的识别准确度，所以在进行加权求和时得到的第三概率矩阵中待识别的字符(包括中文字符和英文字符)的识别准确率较高。

进一步的，对所述第一概率矩阵的中文字符的概率与所述第二概率中对应的中文字符的概率进行加权求和，得到所述第三概率矩阵。

该实施例中，对待识别文本中的中文字符在第一概率矩阵中的概率赋以确定的第一权重，同时对该字符在第二概率矩阵中的概率赋以确定的第二权重，将该字符在第一概率矩阵中的概率值乘以第一权重，在第二概率矩阵中的概率值乘以第二权重，然后进行加权求和，得到该字符在第三概率矩阵中的概率值。

如下公式(1)所示：

prob(i)＝w₁*prob_mix(i)+w₂*prob_eng(i)(1)

其中，prob(i)表示第三概率矩阵；w₁表示第一权重；w₂表示第二权重；prob_mix表示第一概率矩阵；prob_eng表示第二概率矩阵；i表示概率矩阵中的帧序号；prob_mix(i)表示第i帧的字符类别在第一概率矩阵中的概率；prob_eng(i)表示第i帧的字符类别在第二概率矩阵中的概率。

该实施例中，第一文本识别模型对待识别文本中中文字符识别概率较高，相对第二文本识别模型其对英文字符识别概率较低；第二文本识别模型中对中文字符识别概率较低，对英文字符识别概率较高。通过不同的文本识别模型对待识别文本识别时，针对中文字符赋予不同的权重，以输出准确的识别结果。如：第一文本识别模型对中文字符的识别概率较高，第二文本识别模型对中文字符的识别概率较低，那么第一权重赋予一个较大的值，第二权重赋予一个较小的值，输出的第三概率矩阵中，中文字符的识别准确率就高；比如，使w₁等于1，使w₂等于0，表示第一文本识别模型对待识别文本中中文字符识别准确，将其输出得到的第三概率矩阵中，对应中文字符的识别结果的准确率就高，从而得到识别准确率高的最终识别结果。或者，也可以将w₁设为高斯分布，使w₂与w₁之和为1，这样对第一概率矩阵和第二概率矩阵赋予权重，能够得到更加精确的最终识别结果，字符识别错误的概率大大降低。

假设待识文本的真实文本为“I have a猫”，利用第一文本识别模型对该文本进行识别时，中文字符“猫”识别准确的概率较高，而第二文本识别模型对该文本进行识别时，中文字符“猫”识别准确的概率很低(有可能是乱码)。那么我们就对第一权重w₁赋予一个较大的值(如w₁＝1)，第二权重w₂赋予一个较小的值(如w₂＝0)，通过公式(1)计算出来的中文字符“猫”在第三概率矩阵中的概率值就相对提高了，也即中文字符“猫”的识别准确率提高。

步骤S306、根据所述第三概率矩阵，确定文本字符串；

具体的，对所述第三概率矩阵进行每帧最大值处理，得到文本字符串。步骤S306与上述第二实施例中对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果类似，在此不再一一赘述。

步骤S307、对所述文本字符串进行拆分，得到拆分结果；

具体的，所述对所述文本字符串进行拆分，得到拆分结果包括：以空格、标点为间隙对所述文本字符串进行拆分，得到所述拆分结果。

该实施例中，并不对文本字符串的分割方式进行限制，在步骤S307中，将文本字符串以空格、标点为间隙拆分成单独的单词或单个汉字。当然，还可以按照其它方式对文本字符串进行拆分，如分隔符(|)或(、)。

步骤S308、若所述拆分结果中的英文字符串存在于预先构造的第一字典树，将所述拆分结果作为所述最终识别结果。

该实施例中，对主要包括中文字符和英文字符的待识别文本进行识别，得到的文本字符串当然也主要包含中文字符部分和英文字符部分。其中，中文字符部分是准确的识别结果或者通过修正得到的准确识别结果，具体实施在此不再进行说明，该实施例仅对英文字符部分的英文字符串进行判断。若英文字符串存在于预先构造的第一字典树，则说明对待识别文本的英文字符部分识别正确。也就是说，中文字符部分和英文字符部分的识别均为正确的，即拆分结果正确，此时，可以直接将拆分结果作为最终识别结果输出。

该实施例中，将英文字符串在预先构造的第一字典树中进行查询、比较，看拆分的单词是否能够从第一字典树中找到，若从第一字典树中查询到拆分出来的单词，认为拆分出来的单词是正确的识别结果。如果拆分出来的所有单词都可以从第一字典树中查询到，那么拆分结果就是正确的，即对整个待识别文本进行识别的结果就是正确的。需要说明的是，第一字典树是一种用于文本词频统计、排序和保存大量的字符串(但不限于字符串)的单词查找树，利用第一字典树可以有效的减少查询时间，最大限度的减少无效的字符串比较。

图4为根据本申请第四实施例所示的文本识别方法的流程示意图。如图4所示，在该实施例的文本识别方法中，包括：

步骤S401、通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；

步骤S402、根据所述第一概率矩阵，确定第一识别结果；

步骤S403、确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；

步骤S404、若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行识别，得到第二概率矩阵；

步骤S405、根据所述第一概率矩阵和第二概率矩阵，确定第三概率矩阵；

步骤S406、根据所述第三概率矩阵，确定文本字符串；

步骤S407、对所述文本字符串进行拆分，得到拆分结果；

该实施例中，步骤S401至步骤S407分别类似于上述第三实施例中的步骤S301至步骤S307，在此不再一一赘述。

步骤S408、若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，则对所述英文字符串进行矫正，得到英文矫正结果；

该实施例中，根据第三概率矩阵得到的文本字符串中即包含有中文字符部分，也包含有英文字符部分，对文本字符串进行拆分，得到以单词和汉字组成的拆分结果。在判断其中的英文字符的识别结果是否正确时，需要对拆分结果中的英文字符串是否存在于预先构造的字典树进行查询、比较，根据查询、比较的结果对英文字符串进行矫正，以得到英文矫正结果，也即英文字符正确的识别结果。需要说明的是，字典树是一种用于文本词频统计、排序和保存大量的字符串(但不限于字符串)的单词查找树，在第一字典树中，长度为1的单词只有a、i、b、c、d，利用字典树可以有效的减少查询时间，最大限度的减少无效的字符串比较。

具体的，若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词组成；对所述多个无空格单词进行分割，得到多个分割结果；将词数最少的所述分割结果作为所述英文矫正结果。

若英文字符串不存在于预先构造的第一字典树中，说明英文字符串存在错误，或者说英文单词识别错误，不能作为识别结果输出。此时，通过第一字典树，看英文字符串是否能够进行拆分，如果能够拆分，说明英文字符串为多个单词组成，但多个单词之间无空格，需要对多个单词进行矫正，以得到英文矫正结果。

将多个无空格单词看作是一个字符串，从字符串开始的位置逐步往后循环，直至其构成的字符串存在于预先设置的第一字典树中，返回该字符串组成的单词，如此循环，直到字符串为空，得到一个切分结果。由于多个单词之间无空格，在切分时，字母之间存在多种组合情形，因而，得到的切分结果就可能具有多个。通常情况下，对多个无空格单词组成的字符串进行切分，能够得到至少一个切分结果，在此，选择词数最少的切分结果作为英文矫正结果。

具体的，若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；若基于所述第一字典树判断所述英文字符串无法拆分，则基于所述第一字典树，判断所述英文字符串在第一预设编辑距离内是否存在第一候选单词集，其中，所述第一候选单词集中包括至少一个第一候选单词，所述第一预设编辑距离用于度量所述英文字符串与所述第一候选单词之间的相似度；若基于所述第一字典树，所述英文字符串在第一预设编辑距离内存在第一候选单词集，则确定所述英文字符串为单个错误单词组成；根据所述第三概率矩阵，确定所述单个错误单词的第四概率矩阵，其中，所述第四概率矩阵为所述单个错误单词在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；基于所述第一候选单词集中的所述第一候选单词，对所述第四概率矩阵进行解码，得到第一损失函数值，其中，所述第一损失函数值通过连接时序分类损失函数进行计算；将最小的所述第一损失函数值对应的所述第一候选单词作为所述英文矫正结果。

该实施例中，第一编辑距离是英文字符串与第一候选单词之间相似度的度量方式。将一个字符串变为另一个字符串有三种基本操作：增加某个字符、删除某个字符或替换某个字符为另一个字符。在这里，将一个字符串变为另外一个字符串所需要操作步骤的最小值就是编辑距离；增加一个字符、删除一个字符或用一个字符替换一个字符均认为是一个操作步骤。

确定与单个错误单词在第一预设编辑距离内的第一候选单词，也就是通过在单个错误单词中执行增加某个字符、删除某个字符或替换某个字符为另一个字符的操作，将单个错误单词变为第一候选单词。在此，需要说明的，由于对单个错误单词执行的操作不同，第一候选单词可能具有多个。为避免增加工作量，将单个错误单词变为第一候选单词，也不可能进行无限制的增加/删除/替换字符的操作，需要根据实际的工作量、效率等要求确定最多执行增加/删除/替换字符操作的次数。因此设置一最大执行操作的步骤次数值，当执行的操作步骤次数达到该数值时，停止执行增加/删除/替换字符的操作，将已经完成操作得到的单词作为第一候选单词。

根据第三概率矩阵，确定单个错误单词对应的第四概率矩阵。在这里，第四概率矩阵为单个错误单词在第三概率矩阵中的开始帧与结尾帧之间的概率矩阵。即单个错误单词的第一个字母在第三概率矩阵中所在的帧与单个错误单词的最后一个字母在第三概率矩阵中所在的帧之间的行和列构成了单个错误单词的概率矩阵，即第四概率矩阵。

确定出错误单词对应的第四概率矩阵后，对第四概率矩阵按照第一候选单词进行解码，得到第一损失函数值，其中，第一损失函数值通过连接时序分类损失函数进行计算。由于在将错误单词变为第一候选单词时，第一候选单词可能具有多个，因而，通过连接时序分类损失函数计算出的第一损失函数值就可能具有多个。选取最小的第一损失函数值对应的第一候选单词作为错误单词的矫正结果，将英文字符串中所有的错误单词均用其最小的第一损失函数值对应的第一候选单词替换后即可得到正确的英文矫正结果。

具体的，若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；若基于所述第一字典树判断所述英文字符串无法拆分，则基于所述第一字典树，判断所述英文字符串在第一预设编辑距离内是否存在第一候选单词集，其中，所述第一候选单词集中包括至少一个第一候选单词，所述第一预设编辑距离用于度量所述英文字符串与所述第一候选单词之间的相似度；若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，则基于预先构造的第二字典树，对所述英文字符串进行拆分，得到错误结果，其中，所述错误结果由错误字符串和正确单词组成；确定与所述错误字符串在第二预设编辑距离内的第二候选单词集，其中，所述第二候选单词集包括至少一个第二候选单词，所述第二预设编剧距离用于度量所述错误字符串与所述第二候选单词之间的相似度；对所述错误结果中的所述错误字符串用所述第二候选单词进行替换，得到替换结果；根据所述第三概率矩阵，确定所述错误字符串的第五概率矩阵，其中，所述第五概率矩阵为所述错误字符串在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；基于所述替换结果，对所述第五概率矩阵进行解码，得到第二损失函数值，其中，所述第二损失函数值通过连接时序分类损失函数进行计算；将最小的所述第二损失函数值对应的所述替换结果作为所述英文矫正结果。

该实施例中，基于第二字典树对英文字符串进行拆分，得到由错误字符串和正确单词组成的错误结果。其中，第二字典树与上述第一字典树的区别在于，在第一字典树中，设定长度为1的单词只有a、i、b、c、d；而在第二字典树中，设定长度为1的单词包括所有26个英文字母。通过上述对单个错误单词进行替换的方法获取第二候选单词集，然后将第二候选单词对错误字符串进行替换得到替换结果，在此不再一一赘述。

根据第三概率矩阵，确定错误字符串的第五概率矩阵与上述实施例中根据第三概率矩阵，确定单个错误单词的第四概率矩阵相似，在此不再一一赘述。得到第二损失函数值的方法与上述实施例中得到第一损失函数值的方法相同，选取最小的第二损失函数值对应的替换结果作为英文矫正结果。比如：文本“weareromchina”的英文字符串，基于第二字典树进行拆分，能够得到“we are rom china”、“we are r o m china”、“wear e r o mchina”、“wear e rom china”等多个由错误字符串和正确单词组成的错误结果。对连续的单个字母进行合并得到错误字符串，比如对“r o m”合并得到“rom”；找到该错误字符串在第二预设编辑距离内的第二候选单词集(第二候选单词集中包含多个第二候选单词)，将第二候选单词在错误结果中进行替换。如找到错误字符串“rom”的两个第二候选单词“room”和“from”，将“room”和“from”在错误结果中进行替换得到“we are room china”和“we arefrom china”。分别计算第五概率矩阵并按照这个替换结果进行解码的第二损失函数值，选取最小的第二损失函数值对应的替换结果作为英文矫正结果。

步骤S409、根据所述英文矫正结果和拆分结果，确定所述最终识别结果。

具体的，所述根据所述英文矫正结果和拆分结果，确定所述最终识别结果包括：对所述拆分结果中所述英文字符串用所述英文矫正结果进行替换处理，得到所述最终识别结果；或者对所述英文矫正结果与所述拆分结果中的中文拆分结果进行合并处理，得到所述最终识别结果。

图5为根据本申请第五实施例所示的文本识别装置的结构示意图。如图5所示，该实施例的文本识别装置包括：中文识别单元501，用于通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；中文结果单元502，用于根据所述第一概率矩阵，确定第一识别结果；分析单元503，用于确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；识别输出单元504，用于若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在特殊字符，将所述第一识别结果作为最终识别结果。

具体的，所述中文识别单元501进一步配置为：通过预先训练好的第一文本识别模型对所述待识别文本进行识别，得到第一概率矩阵。

具体的，所述中文结果单元502进一步配置为：对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果。

进一步的，针对每一帧，选取所述第一概率矩阵中对应该帧的概率值最大的字符为识别字符；对选取的各帧对应的识别字符进行合并，得到所述第一识别结果。

具体的，所述分析单元503进一步配置为：分别对所述第一识别结果中的所述中文字符的数量以及英文字符的数量进行统计；根据所述中文字符的数量以及所述英文字符的数量计算所述第一识别结果中所述中文字符的占比。

进一步的，所述分析单元503进一步配置为：通过对所述第一识别结果中的每一个字符循环遍历，确认其是否属于特殊字符。

该实施例的文本识别装置的工作原理及操作参照上述第一实施例所示的文本识别方法的流程的描述，在此不再一一赘述。

图6为根据本申请第六实施例所示的文本识别装置的结构示意图。如图6所示，该实施例中的文本识别装置包括：中文识别单元601，用于通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；中文结果单元602，用于根据所述第一概率矩阵，得到第一识别结果；字符判断单元603，用于确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；识别输出单元604，若所述中文字符的占比不小于所述预设阈值或者所述第一识别结果中存在特殊字符，将所述第一识别结果作为最终识别结果；若所述第一识别结果中不存在特殊字符且中文字符的占比小于所述预设阈值，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和第二概率矩阵，确定最终识别结果。

该实施例的文本识别装置的工作原理及操作参照上述第二实施例所示的文本识别方法的流程的描述，在此不再一一赘述。

图7为根据本申请第七实施例所示的文本识别装置的结构示意图。如图7所示，该实施例的文本识别装置包括：中文识别单元701，用于通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；中文结果单元702，用于根据所述第一概率矩阵，确定第一识别结果；分析单元703，用于确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；英文识别单元704，用于若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行识别，得到第二概率矩阵；矩阵单元705，用于根据所述第一概率矩阵和第二概率矩阵，确定所述第三概率矩阵；字符串单元706，用于根据所述第三概率矩阵，确定文本字符串；拆分单元707，用于对所述文本字符串进行拆分，得到拆分结果；识别输出单元708，用于若所述拆分结果中的英文字符串存在于预先构造的第一字典树，将所述拆分结果作为所述最终识别结果。

具体的，所述矩阵单元705进一步配置为：对所述第一概率矩阵与所述第二概率进行加权求和，得到所述第三概率矩阵。

进一步的，所述矩阵单元705进一步配置为：对所述第一概率矩阵的中文字符的概率与所述第二概率中对应的中文字符的概率进行加权求和，得到所述第三概率矩阵。

具体的，所述字符串单元706进一步配置为：对所述第三概率矩阵进行每帧最大值处理，得到文本字符串。

具体的，所述拆分单元707进一步配置为：以空格、标点为间隙对所述文本字符串进行拆分，得到所述拆分结果。

该实施例的文本识别装置的工作原理及操作参照上述第三实施例所示的文本识别方法的流程的描述，在此不再一一赘述。

图8为根据本申请第八实施例所示的文本识别装置的结构示意图。如图8所示，该实施例的文本识别装置包括：中文识别单元801，用于通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；中文结果单元802，用于根据所述第一概率矩阵，确定第一识别结果；分析单元803，用于确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；英文识别单元804，用于若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行识别，得到第二概率矩阵；矩阵单元805，用于根据所述第一概率矩阵和第二概率矩阵，确定所述第三概率矩阵；字符串单元806，用于根据所述第三概率矩阵，确定文本字符串；拆分单元807，用于对所述文本字符串进行拆分，得到拆分结果；矫正单元808，用于若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，则对所述英文字符串进行矫正，得到英文矫正结果；识别输出单元809，用于根据所述英文矫正结果和拆分结果，确定所述最终识别结果。

具体的，所述矫正单元808进一步配置为：若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词组成；对所述多个无空格单词进行分割，得到多个分割结果；将词数最少的所述分割结果作为所述英文矫正结果。

具体的，所述矫正单元808进一步配置为：若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；若基于所述第一字典树判断所述英文字符串无法拆分，则基于所述第一字典树，判断所述英文字符串在第一预设编辑距离内是否存在第一候选单词集，其中，所述第一候选单词集中包括至少一个第一候选单词，所述第一预设编辑距离用于度量所述英文字符串与所述第一候选单词之间的相似度；若基于所述第一字典树，所述英文字符串在第一预设编辑距离内存在第一候选单词集，则确定所述英文字符串为单个错误单词组成；根据所述第三概率矩阵，确定所述单个错误单词的第四概率矩阵，其中，所述第四概率矩阵为所述单个错误单词在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；基于所述第一候选单词集中的所述第一候选单词，对所述第四概率矩阵进行解码，得到第一损失函数值，其中，所述第一损失函数值通过连接时序分类损失函数进行计算；将最小的所述第一损失函数值对应的所述第一候选单词作为所述英文矫正结果。

具体的，所述矫正单元808进一步配置为：若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；若基于所述第一字典树判断所述英文字符串无法拆分，则基于所述第一字典树，判断所述英文字符串在第一预设编辑距离内是否存在第一候选单词集，其中，所述第一候选单词集中包括至少一个第一候选单词，所述第一预设编辑距离用于度量所述英文字符串与所述第一候选单词之间的相似度；若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，则基于预先构造的第二字典树，对所述英文字符串进行拆分，得到错误结果，其中，所述错误结果由错误字符串和正确单词组成；确定与所述错误字符串在第二预设编辑距离内的第二候选单词集，其中，所述第二候选单词集包括至少一个第二候选单词，所述第二预设编剧距离用于度量所述错误字符串与所述第二候选单词之间的相似度；对所述错误结果中的所述错误字符串用所述第二候选单词进行替换，得到替换结果；根据所述第三概率矩阵，确定所述错误字符串的第五概率矩阵，其中，所述第五概率矩阵为所述错误字符串在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；基于所述替换结果，对所述第五概率矩阵进行解码，得到第二损失函数值，其中，所述第二损失函数值通过连接时序分类损失函数进行计算；将最小的所述第二损失函数值对应的所述替换结果作为所述英文矫正结果。

具体的，所述识别输出单元809进一步配置为：对所述拆分结果中所述英文字符串用所述英文矫正结果进行替换处理，得到所述最终识别结果；或者对所述英文矫正结果与所述拆分结果中的中文拆分结果进行合并处理，得到所述最终识别结果。

该实施例的文本识别装置的工作原理及操作参照上述第四实施例所示的文本识别方法的流程的描述，在此不再一一赘述。

本申请实施例所提供的文本识别方法和装置，通过第一文本识别模型对待识别文本进行识别，得到第一概率矩阵；根据第一概率矩阵，确定第一识别结果；计算第一识别结果中的中文字符的占比，以及确定第一识别结果中是否存在特殊字符，以确定第一识别结果是否准确，进而决定是否需要使用第二文本识别模型对待识别文本进行识别。若中文字符在第一识别结果中的占比不小于预设阈值或第一识别结果中存在特殊字符，则可以直接将第一识别结果作为最终识别结果输出；若中文字符在第一识别结果中占比小于预设阈值且第一识别结果中不存在特殊字符，需要使用第二文本识别模型对待识别文本进行识别，得到第二概率矩阵，对第一概率矩阵和第二概率矩阵进行加权求和，得到第三概率矩阵。然后根据第三概率矩阵，得到最终识别结果。如此，利用预先训练好的不同的文本识别模型对待识别文本进行识别，通过对得到的概率矩阵进行处理，以得到最终识别结果，提高对待识别文本的识别精度，实现对不同类别字符识别时具有良好的识别效果。

图9为根据本申请第九实施例所示的文本识别设备的结构示意图；该设备可以包括：

一个或多个处理器901；

计算机可读介质902，可以配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一实施例中所述的文本识别方法。

图10为根据本申请第十实施例所示的文本识别设备的硬件结构；如图10所示，该设备的硬件结构可以包括：处理器1001，通信接口1002，计算机可读介质1003和通信总线1004；

其中处理器1001、通信接口1002、计算机可读介质1003通过通信总线1604完成相互间的通信；

可选的，通信接口1002可以为通信模块的接口，如GSM模块的接口；

其中，处理器1001具体可以配置为：通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；根据所述第一概率矩阵，确定第一识别结果；确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在特殊字符，将所述第一识别结果作为最终识别结果；若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和所述第二概率矩阵，确定最终识别结果。

处理器1001可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在各种实施例中，由参照附图的描述。然而，某些实施例可以在不使用一个或多个这些特定的细节，或结合其它已知的方法和结构。在以下描述中，阐述了很多具体的细节，例如具体的结构，尺寸和工艺等，以提供对本发明的全面理解本发明。在其它实例中，公知的半导体加工工艺和制造技术没有特别详细地描述，以避免模糊本发明中。遍及本说明书“一个实施例”是指特定特征，结构，配置中，或该实施例中所描述的特征被包括在本发明的至少一个实施例中。因此，出现的短语“在一个实施方案中”在本说明书中不同地方本发明不一定指相同的实施例。此外，具体的特征，结构，配置，或特性可以以任何合适的方式组合在一个或多个实施例中。

术语“生成”，“在”，“对”，“在”和“在”由于在用于本文时可以指相对于另一层层的相对位置。一个层“生成”，“在”，或“在”另一个层或者粘合“对”另一层可以直接接触的另一层上或可以有一个或多个插进层。一个层“在”层可以直接接触的层或可以有一个或多个插进层。

在进行以下具体实施方式之前，陈述在本专利文件全文中所使用的某些词语和短语的定义可能是有益的：用语“包括(include)”和“包括(comprise)”及其变型，意为包括而非限制；用语“或(or)”是包括性的，意为和/或；短语“与…关联(associated with)”和“与之相关(associated therewith)”及其变型可意为包括、被包括在内、“与…相互连接”、包含、被包含在内、“连接至…”或“与…连接”、“联接至…”或“与…联接”、“可与…通信”、“与…配合”、交错、并列、接近于、“被约束到…”或“用…约束”、具有、“具有…的性质”等；以及用语“控制器”意为控制至少一个操作的任何设备、系统或其部件，这种设备可实现在硬件、固件或软件中，或者实现在硬件、固件和软件中的至少两种中的一些组合中。应注意到，与任何特定控制器有关的功能可被局域地或远程地集中或分散。在本专利文件全文中提供对于某些词语和短语的定义，本领域技术人员应理解，在许多情况下(即使不是大多数情况)，这种定义适用于现有技术以及适用于如此限定的词语和短语的将来的使用。

在本公开中，表述“包括(include)”或“可包括(may include)”指代相应功能、操作或元件的存在，而不限制一个或多个附加功能、操作或元件。在本公开中，诸如“包括(include)”和/或“具有(have)”的用语可理解为表示某些特性、数字、步骤、操作、组成元件、元件或其组合，而不可理解为排除一个或多个其它特性、数字、步骤、操作、组成元件、元件或其组合的存在或附加的可能性。

在本公开中，表述“A或B”、“A或/和B中的至少一个”或者“A或/和B的一个或多个”可包括所列项目所有可能的组合。例如，表述“A或B”、“A和B中的至少一个”或者“A或B中的至少一个”可包括：(1)至少一个A，(2)至少一个B，或者(3)至少一个A和至少一个B。

在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅用于将元件与其它元件区分开的目的。例如，第一用户设备和第二用户设备表示不同的用户设备，虽然两者均是用户设备。例如，在不背离本公开的范围的前提下，第一元件可称作第二元件，类似地，第二元件可称作第一元件。

当一个元件(例如，第一元件)称为与另一元件(例如，第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如，第二元件)或“连接至”另一元件(例如，第二元件)时，应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如，第三元件)间接连接至该另一个元件。相反，可理解，当元件(例如，第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时，则没有元件(例如，第三元件)插入在这两者之间。

如本文中使用的表述“配置为”可与以下表述可替换地使用：“适合于”、“具有...的能力”、“设计为”、“适于”、“制造为”或“能够”。用语“配置为”可不必意为在硬件上“专门设计为”。可替代地，在一些情况下，表述“配置为…的设备”可意为该设备与其它设备或部件一起“能够…”。例如，短语“适于(或配置为)执行A、B和C的处理器”可意为仅用于执行相应操作的专用处理器(例如，嵌入式处理器)或可通过执行存储在存储设备中的一个或多个软件程序执行相应操作的通用处理器(例如，中央处理器(CPU)或应用处理器(AP))。

在本公开中所使用的用语仅用于描述特定的实施方式而不旨在限制本公开。除非在上下文中明确另有所指，否则如在本文中所使用的单数形式也可包括复数形式。

除非另有限定，否则本文中使用的全部用语(包括技术用语和科学用语)具有与本公开所属领域的技术人员所通常理解的意思相同的意思。除非在本公开中明确限定，否则如在通常使用的词典中所限定的这种用语可被解释为具有与在相关技术领域的语境中的意思相同的意思，而不应被解释为具有理想化或过于形式的意思。在一些情况下，即使在本公开中限定的用语也不应被解释为排除本公开的实施方式。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现该实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，所述计算机可读记录介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如，机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)等，该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请实施例的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

本领域的技术人员应明白，本发明实施例的实施例可提供为方法、装置(设备)、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims

1.一种文本识别方法，其特征在于，包括：

通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；

根据所述第一概率矩阵，确定第一识别结果；

确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；

若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在特殊字符，将所述第一识别结果直接作为最终识别结果；

若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵；根据所述第一概率矩阵和所述第二概率矩阵，确定最终识别结果。

2.根据权利要求1所述的文本识别方法，其特征在于，所述通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵包括：通过预先训练好的第一文本识别模型对所述待识别文本进行识别，得到所述第一概率矩阵。

3.根据权利要求1所述的文本识别方法，其特征在于，所述根据所述第一概率矩阵，得到第一识别结果包括：对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果。

4.根据权利要求3所述的文本识别方法，其特征在于，所述对所述第一概率矩阵进行每帧最大值处理，得到所述第一识别结果包括：

针对每一帧，选取所述第一概率矩阵中对应帧的概率值最大的字符为识别字符；

对选取的各帧对应的识别字符进行合并，得到所述第一识别结果。

5.根据权利要求1所述的文本识别方法，其特征在于，所述确定所述第一识别结果中中文字符的占比包括：

分别对所述第一识别结果中的所述中文字符的数量以及英文字符的数量进行统计；

根据所述中文字符的数量以及所述英文字符的数量计算所述第一识别结果中所述中文字符的占比。

6.根据权利要求1-5任一所述的文本识别方法，其特征在于，所述若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和所述第二概率矩阵，确定最终识别结果包括：

若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行识别，得到第二概率矩阵；

根据所述第一概率矩阵和第二概率矩阵，确定第三概率矩阵；

根据所述第三概率矩阵，确定文本字符串；

对所述文本字符串进行拆分，得到拆分结果；

若所述拆分结果中的英文字符串存在于预先构造的第一字典树，将所述拆分结果作为所述最终识别结果。

7.根据权利要求6所述的文本识别方法，其特征在于，所述根据所述第一概率矩阵和第二概率矩阵，确定第三概率矩阵包括：对所述第一概率矩阵与所述第三概率矩阵进行加权求和，得到所述第三概率矩阵。

8.根据权利要求6所述的文本识别方法，其特征在于，所述根据所述第三概率矩阵，得到文本字符串包括：对所述第三概率矩阵进行每帧最大值处理，得到所述文本字符串。

9.根据权利要求6所述的文本识别方法，其特征在于，所述对所述文本字符串进行拆分，得到拆分结果包括：以空格、标点为间隙对所述文本字符串进行拆分，得到所述拆分结果。

10.根据权利要求6所述的文本识别方法，其特征在于，

在所述对所述文本字符串进行拆分，得到拆分结果的步骤之后，所述方法还包括：

若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，则对所述英文字符串进行矫正，得到英文矫正结果；

根据所述英文矫正结果和拆分结果，得到所述最终识别结果。

11.根据权利要求10所述的文本识别方法，其特征在于，所述若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，则对所述英文字符串进行矫正，得到英文矫正结果包括：

若所述拆分结果中的英文字符串不存在于预先构造的第一字典树，基于所述第一字典树判断所述英文字符串是否可以拆分；

若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词，对所述多个无空格单词进行矫正，得到所述英文矫正结果；

若基于所述第一字典树判断所述英文字符串无法拆分，则基于所述第一字典树，判断所述英文字符串在第一预设编辑距离内是否存在第一候选单词集，其中，所述第一候选单词集中包括至少一个第一候选单词，所述第一预设编辑距离用于度量所述英文字符串与所述第一候选单词之间的相似度；

若基于所述第一字典树，所述英文字符串在第一预设编辑距离内存在第一候选单词集，则确定所述英文字符串为单个错误单词组成，对所述单个错误单词进行矫正，得到所述英文矫正结果；

若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，则基于预先构造的第二字典树，对所述英文字符串进行拆分，得到错误结果，对所述错误结果进行矫正，得到所述英文矫正结果，其中，所述错误结果为错误字符串和正确单词组成。

12.根据权利要求11所述的文本识别方法，其特征在于，所述若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词组成，对所述多个无空格单词进行矫正，得到所述英文矫正结果包括：

若基于所述第一字典树判断所述英文字符串可以拆分，则确定所述英文字符串为多个无空格单词组成；

对所述多个无空格单词进行分割，得到多个分割结果；

将词数最少的所述分割结果作为所述英文矫正结果。

13.根据权利要求11所述的文本识别方法，其特征在于，所述若基于所述第一字典树，所述英文字符串在第一预设编辑距离内存在第一候选单词集，确定所述英文字符串为单个错误单词组成，对所述单个错误单词进行矫正，得到所述英文矫正结果包括：

若基于所述第一字典树，所述英文字符串在第一预设编辑距离内存在第一候选单词集，确定所述英文字符串为单个错误单词组成；

根据所述第三概率矩阵，确定所述单个错误单词的第四概率矩阵，其中，所述第四概率矩阵为所述单个错误单词在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；

基于所述第一候选单词集中的所述第一候选单词，对所述第四概率矩阵进行解码，得到第一损失函数值，其中，所述第一损失函数值通过连接时序分类损失函数进行计算；

将最小的所述第一损失函数值对应的所述第一候选单词作为所述英文矫正结果。

14.根据权利要求11所述的文本识别方法，其特征在于，若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，则基于预先构造的第二字典树，对所述英文字符串进行拆分，得到错误结果，对所述错误结果进行矫正，得到所述英文矫正结果包括：

若基于所述第一字典树，所述英文字符串在第一预设编辑距离内不存在第一候选单词集，基于预先构造的第二字典树，对所述英文字符串进行拆分，得到错误结果，其中，所述错误结果由错误字符串和正确单词组成；

确定与所述错误字符串在第二预设编辑距离内的第二候选单词集，其中，所述第二候选单词集包括至少一个第二候选单词，所述第二预设编辑距离用于度量所述错误字符串与所述第二候选单词之间的相似度；

对所述错误结果中的所述错误字符串用所述第二候选单词进行替换，得到替换结果；

根据所述第三概率矩阵，确定所述错误字符串的第五概率矩阵，其中，所述第五概率矩阵为所述错误字符串在所述第三概率矩阵中的开始帧与结尾帧之间的概率矩阵；

基于所述替换结果，对所述第五概率矩阵进行解码，得到第二损失函数值；其中，所述第二损失函数值通过连接时序分类损失函数进行计算；

将最小的所述第二损失函数值对应的所述替换结果作为所述英文矫正结果。

15.根据权利要求10所述的文本识别方法，其特征在于，所述根据所述英文矫正结果和拆分结果，得到所述最终识别结果包括：对所述拆分结果中的所述英文字符串用所述英文矫正结果进行替换处理，得到所述最终识别结果；或者对所述英文矫正结果与所述拆分结果中的中文拆分结果进行合并处理，得到所述最终识别结果。

16.一种文本识别装置，其特征在于，包括：

中文识别单元，用于通过预先训练好的第一文本识别模型对待识别文本进行处理，得到第一概率矩阵；

中文结果单元，用于根据所述第一概率矩阵，得到第一识别结果；

分析单元，用于确定所述第一识别结果中中文字符的占比，以及确定所述第一识别结果中是否存在特殊字符；

识别输出单元，用于若所述中文字符的占比不小于预设阈值或者所述第一识别结果中存在所述特殊字符，将所述第一识别结果作为最终识别结果；

若所述中文字符的占比小于所述预设阈值且所述第一识别结果中不存在所述特殊字符，通过预先训练好的第二文本识别模型对所述待识别文本进行处理，得到第二概率矩阵，根据所述第一概率矩阵和所述第二概率矩，确定最终识别结果。

17.一种文本识别设备，包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-15中任一所述的文本识别方法。

18.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-15中任一所述的文本识别方法。