CN114565913A - 文本识别方法及其装置、设备、介质、产品 - Google Patents

文本识别方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN114565913A
CN114565913A CN202210204646.6A CN202210204646A CN114565913A CN 114565913 A CN114565913 A CN 114565913A CN 202210204646 A CN202210204646 A CN 202210204646A CN 114565913 A CN114565913 A CN 114565913A
Authority
CN
China
Prior art keywords
image
text
single character
line text
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210204646.6A
Other languages
English (en)
Inventor
兴百桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202210204646.6A priority Critical patent/CN114565913A/zh
Publication of CN114565913A publication Critical patent/CN114565913A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本申请公开一种文本识别方法及其装置、设备、介质、产品,所述方法包括:获取待识别图像;调用行文本检测模型检测所述待识别图像,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,然后调用行文本识别模型识别所述行文本图像,获得其中相应的行文本数据;调用单字符检测模型检测所述待识别图像,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,然后调用单字符识别模型识别所述单字符图像,获得其中相应的单字符数据;根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果。本申请可实现高精准度的文本识别。

Description

文本识别方法及其装置、设备、介质、产品
技术领域
本申请涉及自然语言处理领域,尤其涉及一种文本识别方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
近年来,AI(人工智能)技术蓬勃发展,在机器视觉、自然语言处理、音频处理等领域均取得了较大的成效,在自然语言处理领域中,自然场景文字识别是指从携带有字符序列的图像中识别出字符序列的过程。
在电商领域中,电商平台用户基数较大,因此,这些电商平台用户完成商品交易后会涉及到连带生成总计数量庞大的交易单据和支付凭证,这些交易单据和支付凭证需交由电商平台审核,然而,采用人工审核的方式人力成本较高而且效率较低,所以,现有技术中,通常借助传统的卷积循环神经网络模型识别出交易单据和支付凭证中的文本,再将其交由电商平台系统审核。
现有技术中采用神经网络模型进行文本识别场景有很多,例如票据种类繁多的场景、各式各样的拍摄场景、图像质量不一的场景等,然而,现有技术中采用神经网络模型对这些场景中的部分场景的图片进行文本识别,所取得的识别结果的识别效果不佳,具体而言,一方面是对该图片中的文本识别有部分遗漏,另一方面是识别出的该图片中的文本部分有误。有鉴于此,为了实现高精度和高准确度的文本识别,本申请人做出相应的探索。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种文本识别方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种文本识别方法,包括如下步骤:
获取待识别图像;
调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,然后调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据;
调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,然后调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据;
根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者。
进一步的实施例中,调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,包括如下步骤:
对所述待识别图像进行图像预处理;
将图像预处理后的待识别图像输入预训练至收敛的行文本检测模型,检测出待识别图像中文本区域,构造出该文本区域相对应的多边形行文本框;
根据所述多边形行文本框从所述待识别图像中截取获得相应的行文本图像,并获得其在所述待识别图像中的坐标位置。
进一步的实施例中,调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据,还包括如下步骤:
对所述行文本图像进行图像预处理;
将所述预处理后的行文本图像输入预训练至收敛的行文本识别模型进行特征提取,获得其相应的图像特征序列;
采用全连接层对所述图像特征序列进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的行文本数据。
进一步的实施例中,调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,包括如下步骤:
对所述待识别图像进行预处理,根据预设规格进行切割,获得多个分割图像,相邻的两个分割图像之间保留部分像素重合;
将所述各个分割图像输入预训练至收敛的单字符检测模型,获得单字符框及其在所述分割图像中的坐标信息;
根据所述单字符框在所述分割图像中的坐标信息,获得该单字符框在所述待识别图像中的坐标位置;
根据所述单字符框从所述待识别图像中截取获得相应的单字符图像,其中,将相邻分割图像中重合部分被所述单字符检测模型重复检测出的单字符框进行去重。
进一步的实施例中,调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据,包括如下步骤:
对所述单字符图像进行图像预处理;
将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息;
采用全连接层对所述图像特征信息进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的单字符数据。
较佳的实施例中,将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息之前,所述单字符识别模型的训练过程,包括如下步骤:
采用预设的训练数据集的训练样本对所述单字符识别模型实施第一阶段训练至收敛状态;
采用经第一阶段训练的所述单字符识别模型对所述训练数据集中的训练样本进行推理,对各个训练样本提取图像特征信息后经全连接层映射到分类空间,确定训练样本相对应的类别;
统计推理过程中所述全连接层各个神经元映射到所述分类空间各个类别相对应的被激活总次数,将每个神经元映射到每个当前类别的被激活总次数与其映射到所有其他类别的被激活总次数的和值之比确定为该神经元映射到该当前类别的控制权重,获得各个神经元映射到各个类别的权重参数集;
对所述单字符识别模型的全连接层应用所述权重参数集进行权重初始化,采用所述的训练数据集的训练样本对其进行第二阶段训练,将其训练至收敛状态。
进一步的实施例中,根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者,包括如下步骤:
根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射,获得其中映射位置重合的行文本数据中的文本和单字符数据中的文本,以及其中映射位置错开的行文本数据中的文本或单字符数据中的文本;
比较所述映射位置重合的行文本数据中的文本和单字符数据中的文本之间的置信度,保留两者中置信度较高的一方的文本用于替换另一方的文本获得映射位置重合部分的目标识别文本,以映射位置错开的行文本数据中的文本或单字符数据中的文本作为映射位置错开部分的目标识别文本;
融合所述映射位置重合部分的目标识别文本和所述映射位置错开部分的目标识别文本构建所述待识别图像中文本部分的目标识别结果。
适应本申请的目的之一而提供的一种文本识别装置,包括:图片获取模块、行文本检测识别模块、单字符检测识别模块,以及识别融合模块,其中,图像获取模块,用于获取待识别图像;行文本检测识别模块,用于调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,然后调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据;单字符检测识别模块,用于调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,然后调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据;识别融合模块,用于根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者。
进一步的实施例中,所述行文本检测识别模块,包括:图像处理子模块,用于对所述待识别图像进行图像预处理;模型检测子模块,用于将图像预处理后的待识别图像输入预训练至收敛的行文本检测模型,检测出待识别图像中文本区域,构造出该文本区域相对应的多边形行文本框;图像截取子模块,用于根据所述多边形行文本框从所述待识别图像中截取获得相应的行文本图像,并获得其在所述待识别图像中的坐标位置。
进一步的实施例中,所述行文本检测识别模块,包括:图像处理子模块,用于对所述行文本图像进行图像预处理;特征提取子模块,用于将所述预处理后的行文本图像输入预训练至收敛的行文本识别模型进行特征提取,获得其相应的图像特征序列;特征分类子模块,用于采用全连接层对所述图像特征序列进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的行文本数据。
进一步的实施例中,所述单字符检测识别模块,包括:图像处理子模块,用于对所述待识别图像进行预处理,根据预设规格进行切割,获得多个分割图像,相邻的两个分割图像之间保留部分像素重合;模型检测子模块,用于将所述各个分割图像输入预训练至收敛的单字符检测模型,获得单字符框及其在所述分割图像中的坐标信息;图像坐标获取子模块,用于根据所述单字符框在所述分割图像中的坐标信息,获得该单字符框在所述待识别图像中的坐标位置;图像截取子模块,用于根据所述单字符框从所述待识别图像中截取获得相应的单字符图像,其中,将相邻分割图像中重合部分被所述单字符检测模型重复检测出的单字符框进行去重。
进一步的实施例中,所述单字符检测识别模块,包括:图像处理子模块,用于对所述单字符图像进行图像预处理;特征提取子模块,用于将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息;特征分类子模块,用于采用全连接层对所述图像特征信息进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的单字符数据。
进一步的实施例中,所述特征提取子模块,包括:一阶段训练模块,用于采用预设的训练数据集的训练样本对所述单字符识别模型实施第一阶段训练至收敛状态;模型推理模块,用于采用经第一阶段训练的所述单字符识别模型对所述训练数据集中的训练样本进行推理,对各个训练样本提取图像特征信息后经全连接层映射到分类空间,确定训练样本相对应的类别;权重参数模块,用于统计推理过程中所述全连接层各个神经元映射到所述分类空间各个类别相对应的被激活总次数,将每个神经元映射到每个当前类别的被激活总次数与其映射到所有其他类别的被激活总次数的和值之比确定为该神经元映射到该当前类别的控制权重,获得各个神经元映射到各个类别的权重参数集;二阶段训练模块,用于对所述单字符识别模型的全连接层应用所述权重参数集进行权重初始化,采用所述的训练数据集的训练样本对其进行第二阶段训练,将其训练至收敛状态。
进一步的实施例中,所述识别融合模块,包括:坐标映射子模块,用于根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射,获得其中映射位置重合的行文本数据中的文本和单字符数据中的文本,以及其中映射位置错开的行文本数据中的文本或单字符数据中的文本;识别文本确定子模块,用于比较所述映射位置重合的行文本数据中的文本和单字符数据中的文本之间的置信度,保留两者中置信度较高的一方的文本用于替换另一方的文本获得映射位置重合部分的目标识别文本,以映射位置错开的行文本数据中的文本或单字符数据中的文本作为映射位置错开部分的目标识别文本;识别文本融合子模块,用于融合所述映射位置重合部分的目标识别文本和所述映射位置错开部分的目标识别文本构建所述待识别图像中文本部分的目标识别结果。
适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的文本识别方法的步骤。
适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的文本识别方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。
根据本申请的典型实施例及其变通实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
首先,本申请能够实现高精度的文本识别。具体而言,对待识别图像的检测识别分为两路执行,其中,第一路为调用预训练至收敛的行文本检测模型和行文本识别模型,检测待识别图像中的文本从而识别获得行文本数据以及相应获得其对应的行文本坐标;第二路为调用预训练至收敛的单字符检测模型和单字符识别模型,检测待识别图像中的文本从而识别获得单字符数据以及相应获得其对应的单字符坐标;进一步,对两路识别结果进行映射融合而构成最终对待识别图像中文本部分的识别结果,使得其中的一路执行对待识别图像的检测识别过程中检测遗漏和/或识别遗漏的识别结果,能够由相应的另一路对待识别图像的检测识别取得的识别结果进行补缺,提升文本识别的鲁棒性和可靠性,而且大大提升文本识别精度。
其次,本申请能够实现高准确度的文本识别。具体而言,由于映射融合两路对待识别图像的检测识别分别取得的识别结果而构成最终对待识别图像中文本部分的识别结果的过程中,保留映射重合的两路对待识别图像的检测识别分别取得的识别结果中置信度较高者作为该最终的识别结果,使得文本识别的准确度得以大大提升。
此外,本申请实现的高精度、高准确度的文本识别的运行效率较高,具体而言,单字符检测识别过程相对应的第二路较之行文本检测识别过程相对应的第一路具有更高的运行效率,由此,整体处理效率取决于行文本检测识别过程相对应的第一路的运行效率,可见所述即使存在两个实施检测识别的支路,整个技术方案的执行效率依然十分高效,在此基础上还能确保具备更高精度、高准确度的文本识别优势,因而取得了整体检测识别优势。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的文本识别方法的典型实施例的流程示意图;
图2为本申请实施例中检测待识别图像中的行文本的流程示意图;
图3为本申请实施例中识别待识别图像中的行文本的流程示意图;
图4为本申请实施例中检测待识别图像中的单字符的流程示意图;
图5为本申请实施例中识别待识别图像中的单字符的流程示意图;
图6为本申请实施例中单字符识别模型训练过程的流程示意图;
图7为本申请实施例中映射融合识别出的单字符数据和行文本数据构建待识别图像的识别结果的流程示意图;
图8为本申请的文本识别装置的原理框图;
图9为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种文本识别方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如在本申请的电商平台应用场景中,一般部署在服务器中实施,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的文本识别方法在其典型实施例中,包括如下步骤:
步骤S1100、获取待识别图像;
所述待识别图像为交易单据图片和/或支付凭证图片,该交易单据图片和支付凭证图片一般由电商平台用户对交易单据和支付凭证进行拍摄或者截图所得,该交易单据和/或支付凭证是电商平台用户发生商品交易后相应生成。
根据电商平台的商品交易的业务链条,在商品交易后,电商平台用户需将其拍摄所得的所述该识别图像提交至电商平台的服务器,使得该服务器获得该待识别图像对其进行审核,由此,电商平台的服务器获取电商平台用户在其终端设备的客户端上提交的所述待识别图像,对其进行文本识别以从中获得图像中的文本用于审核。
步骤S1200、调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,然后调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据;
一种实施例中,调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,该检测方法为基于候选框的文本检测,具体而言,提取该待识别图像的像素特征,利用该像素特征,用设定若干个default boxes(默认框,也称anchor锚框)产生一些对应的候选文本框,对该些候选文本框进行一系列的调整、筛选,进一步,调用NMS(非极大值抑制)算法得到最终的文本边界框即所述行文本框及其对应在该待识别图像的坐标位置,所述默认框可由本领域技术人员先验知识或实验经验灵活变通设置,所述行文本检测模型可以是R2CNN、TextBoxes++、SegLink、RFCN、CTPN、EAST等等,此处由本领域技术人员按需择优调用,由此,根据该行文本框对应在该待识别图像的坐标位置截取所述待识别图像,获得相应的行文本图像及其行文本图像坐标,所述行文本图像中包含一个或多个文本,然后调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,所述识别为文本行识别,具体而言,在卷积主干网络中提取该行文本图像的视觉特征获得字符特征序列,将其输入至顺序编码器聚合部分或整个该字符特征序列的特征获得编码字符特征序列,再将其输入至解码器进行转录获得相应的文本即所述行文本数据,所述行文本识别模型可以是CNN+RNN+CTC、基于Attention的CNN+RNN等等,此处由本领域技术人员按需择优调用。
步骤S1300、调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,然后调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据;
特此说明,较佳的实施方式中,本步骤可与上一步骤S1200并行执行,即本步骤与上一步骤S1200同时对所述待识别图像进行检测识别操作。
一种实施例中,调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,该检测方法为针对文本的目标检测,具体而言,提取该待识别图像的像素特征,利用该像素特征,用设定若干个default boxes(默认框,也称anchor锚框)产生一些对应的候选文本框,对该些候选文本框进行一系列的调整、筛选,进一步,调用NMS(非极大值抑制)算法得到最终的文本边界框即所述单字符框及其对应在该待识别图像的坐标位置,所述默认框可由本领域技术人员根据先验知识或实验经验灵活变通设置,所述单字符检测模型可以是SSD,YOLO,Faster-RCNN等等目标检测模型,此处由本领域技术人员按需择优调用,并且本领域技术人员应知晓,此处单字符检测模型可结合文本检测的特点而进行改进以提升该单字符检测模型对图像中的文本特征的感知,使得该单字符检测模型能够适用于本步骤对所述待识别图像的检测,由此,根据该单字符框对应在该待识别图像的坐标位置截取所述待识别图像,获得相应的单字符图像及其单字符图像坐标,所述单字符图像中仅包含单个文本,然后调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,所述识别为单字符识别,具体而言,在卷积主干网络中提取该单字符图像的视觉特征获得字符特征序列,将其输入至顺序编码器聚合部分或整个该字符特征序列的特征获得编码字符特征序列,再将其输入至解码器进行转录获得相应的文本即所述单字符数据,所述单字符识别模型可以是CNN+RNN+CTC、基于Attention的CNN+RNN等等,此处由本领域技术人员按需择优调用。
步骤S1400、根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者。
根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射,其中,确定坐标位置相同的行文本数据中的文本和单字符数据中的文本,可以理解,行文本数据中的文本和单字符数据中的文本是分别调用预训练至收敛的行文本检测模型和行文本识别模型、单字符检测模型和单字符识别模型对同一前述坐标位置的所述待识别图像中的文本的两个识别结果,该两个识别结果分别对应两个置信度,该置信度为该识别结果为某文本的概率,由此,比较该两个置信度,保留两者中置信度较高者的识别结果作为对所述待识别图像中对应该相同的坐标位置的文本的识别结果,进一步,确定坐标位置不相同的行文本数据中的文本或单字符数据中的文本作为对所述待识别图像中对应该不同的坐标位置的文本的识别结果,将其与该待识别图像中对应该相同的坐标位置的文本的识别结果进行融合构造成所述待识别图像中文本部分的目标识别结果。
根据本申请的典型实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
首先,本申请能够实现高精度的文本识别。具体而言,对待识别图像的检测识别分为两路执行,其中,第一路为调用预训练至收敛的行文本检测模型和行文本识别模型,检测待识别图像中的文本从而识别获得行文本数据以及相应获得其对应的行文本坐标;第二路为调用预训练至收敛的单字符检测模型和单字符识别模型,检测待识别图像中的文本从而识别获得单字符数据以及相应获得其对应的单字符坐标;进一步,对两路识别结果进行映射融合而构成最终对待识别图像中文本部分的识别结果,使得其中的一路执行对待识别图像的检测识别过程中检测遗漏和/或识别遗漏的识别结果,能够由相应的另一路对待识别图像的检测识别取得的识别结果进行补缺,提升文本识别的鲁棒性和可靠性,而且大大提升文本识别精度。
其次,本申请能够实现高准确度的文本识别。具体而言,由于映射融合两路对待识别图像的检测识别分别取得的识别结果而构成最终对待识别图像中文本部分的识别结果的过程中,保留映射重合的两路对待识别图像的检测识别分别取得的识别结果中置信度较高者作为该最终的识别结果,使得文本识别的准确度得以大大提升。
此外,本申请实现的高精度、高准确度的文本识别的运行效率较高,具体而言,单字符检测识别过程相对应的第二路较之行文本检测识别过程相对应的第一路具有更高的运行效率,由此,整体处理效率取决于行文本检测识别过程相对应的第一路的运行效率,可见所述即使存在两个实施检测识别的支路,整个技术方案的执行效率依然十分高效,在此基础上还能确保具备更高精度、高准确度的文本识别优势,因而取得了整体检测识别优势。
请参阅图2,进一步的实施例中,步骤S1200、调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,包括如下步骤:
步骤S1210、对所述待识别图像进行图像预处理;
所述图像预处理包含但不限于像素亮度变化、几何变化、局部领域预处理、图像复原,所述像素亮度变化包含亮度校正、灰度级变化,所述几何变化包含像素坐标变换、亮度插值,所述局部领域预处理包含平滑处理、边缘检测处理、线性变换处理、非线性变换处理,此处本领域技术人员可按需灵活变通选取。
对所述待识别图像进行图像预处理,使得抑制该待识别图像中无关的信息或者增强该待识别图像中对于后续处理重要的图像特征。
步骤S1220、将图像预处理后的待识别图像输入预训练至收敛的行文本检测模型,检测出待识别图像中文本区域,构造出该文本区域相对应的多边形行文本框;
一种实施例中,所述行文本检测模型为TextFuseNet模型,将图像预处理后的待识别图像输入预训练至收敛的TextFuseNet模型,通过语义分割分支提取全局级别的特征,并且通过检测分支和mask分支分别提取字符级别和单词级别的特征,在获得该字符级别、单词级别、全局级别三种层次的特征后,进一步,调用多路径特征融合体系结构融合三者特征,生成更具代表性的特征表示,以检测出该待识别图像中文本区域,获得包围该文本区域的多点行文本框,将所述多点行文本框转换为四点行文本框,该四点行文本框的四个点为矩形对应的四个顶点,由此,进一步,构造出该该四点框对应的矩形行文本框即所述多边形行文本框。
步骤S1230、根据所述多边形行文本框从所述待识别图像中截取获得相应的行文本图像,并获得其在所述待识别图像中的坐标位置。
根据所述矩形行文本框从所述待识别图像中选中相应的文本区域,以截取矩形长条的行文本图像,并获得以坐标表示的该行文本图像在所述待识别图像中的位置作为所述行文本图像坐标。
本实施例中,调用TextFuseNet模型检测所述待识别图像中文本区域,在此过程中,融合字符级别的、单词级别的、全局级别的特征转化为检测结果,使得能够实现准确度较高的文本检测,并且提升文本检测的鲁棒性和可靠性。
请参阅图3,进一步的实施例中,步骤S1200、调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据,还包括如下步骤:
步骤S1240、对所述行文本图像进行图像预处理;
为了后续步骤能够提取所述行文本图像中更丰富的特征而对所述行文本图像进行图像预处理。
所述图像预处理为通过数据增强变换原有的行文本图像生成新的行文图像使得扩充用于输入模型的数据源,该数据增强包含水平或垂直翻转、多角度旋转、比例缩放、裁剪、平移、插值、高斯噪声、对比度变换、Fancy PCA等操作,此处可由本领域技术人员按需灵活变通选取。
步骤S1250、将所述预处理后的行文本图像输入预训练至收敛的行文本识别模型进行特征提取,获得其相应的图像特征序列;
一种实施例中,所述行文本检测模型为CRNN+CTC模型,将所述预处理后的行文本图像输入预训练至收敛的CRNN+CTC模型,通过该CRNN+CTC模型的卷积层中使用CNN从所述行文本图像中识提取所述图像特征序列,将其输入至该CRNN+CTC模型的循环层中使用RNN对该图像特征序列进行预测,获得其相对应的标签(真实值)分布。
步骤S1260、采用全连接层对所述图像特征序列进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的行文本数据。
进一步,通过该CRNN+CTC模型的转录层中的全连接层对所述图像特征序列进行全连接,以及使用CTC对该图像特征序列相对应的标签分布进行去重整合等操作,将该图像特征序列中的图像特征相应的映射至预设的分类空间,根据确定的该图像特征序列相对应的标签而获得其相对应的行文本数据。
本实施例中,调用CRNN+CTC模型识别所述行文本图像而获得其中文本即行文本数据,在此过程中,既提取了鲁棒特征,又通过序列识别避免了传统算法中难度极高的字符切分,同时序列化识别也嵌入时序依赖,使得可以处理任意长度的序列,大大提升文本识别的鲁棒性。
请参阅图4,进一步的实施例中,步骤S1300、调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,包括如下步骤:
步骤S1310、对所述待识别图像进行预处理,根据预设规格进行切割,获得多个分割图像,相邻的两个分割图像之间保留部分像素重合;
为了便于后续步骤对所述待识别图像进行检测而对所述待识别图像进行预处理,根据预设规格将该待识别图像切割分成多个分割图像,相邻的分割图像之间保留推荐保留部分像素的重合,所述保留部分像素值可由本领域技术人员按需灵活设置,此处推荐设置为40像素,所述预设规格可由本领域技术人员根据所述单字符检测模型而设定固定值,此处推荐设置为640像素。
步骤S1320、将所述各个分割图像输入预训练至收敛的单字符检测模型,获得单字符框及其在所述分割图像中的坐标信息;
一种实施例中,所述单字符检测模型为YOLO-V5模型,将所述各个分割图像输入预训练至收敛的YOLO-V5模型,在该YOLO-V5模型的输入端部分,对该各个分割图像进行Mosaic数据增强处理而获得随机缩放、随机裁剪、随机排布的方式进行拼接而成的图像,在该YOLO-V5模型的Backbone部分,提取该Mosaic数据增强处理的图像相应的图像像素特征,利用该图像像素特征,对初始设定长宽的anchor(锚框)进行自适应锚框计算而获得对应的候选文本框,所述初始设定长宽值,可由本领域技术人员根据先验知识或实验经验灵活变通设置,对该些候选文本框进行一系列的调整、筛选,进一步,调用NMS(非极大值抑制)算法得到最终的文本边界框即所述单字符框,并获得以坐标表示的该单字符框在所述分割图像中的位置即所述坐标信息。
步骤S1330、根据所述单字符框在所述分割图像中的坐标信息,获得该单字符框在所述待识别图像中的坐标位置;
不难理解,所述分割图像来源于对所述待识别图像的分割,因此,所述分割图像在所述待识别图像都有其对应的坐标位置,由此,借由所述单字符框在所述分割图像中的坐标,即可获得该单字符框在所述待识别图像中的坐标位置。
步骤S1340、根据所述单字符框从所述待识别图像中截取获得相应的单字符图像,其中,将相邻分割图像中重合部分被所述单字符检测模型重复检测出的单字符框进行去重。
由于相邻分割图像中重合部分可能被所述单字符检测模型重复检测其中的文本而生成相同的单字符框,因此需要对该些相同单字符框进行去重,进而,根据其和所述单字符检测模型检测所述分割图像的非重合部分而生成的单字符框从所述待识别图像中截取获得相应的单字符图像,并且可以理解,所述单字符图像对应的在所述待识别图像中对应的所述单字符图像坐标,其为所述单字符框在所述待识别图像中的坐标位置。
本实施例中,通过对所述待识别图像进行预处理而切割出相应的所述切割图像,其中,相邻切割图像中有部分重合,该对所述待识别图像中的文本颗粒度更细的切割,减少最终检测结果的缺漏,使得最终的检测结果不仅依靠所述单字符检测模型的文本检测能力,还可以借助更细粒度的图像起到全面兼顾的作用,因此,能够一定程度上提升文本检测的精度。
请参阅图5,进一步的实施例中,步骤S1300、调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据,包括如下步骤:
步骤S1350、对所述单字符图像进行图像预处理;
为了后续步骤能够提取所述行文本图像中更丰富的特征而对所述单字符图像进行图像预处理。
具体图像预处理方式,可参考步骤S1240,本步骤不作赘述。
步骤S1360、将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息;
一种实施例中所述单字符识别模型为传统Lenet5模型,该Lenet模型网络结构中主要包含5层网络,具体为3层卷积层、2层池化层、1层全连接层,其中,该3层卷积层之间分别与1个池化层相连接,另外最后的卷积层与1层全连接层相连。
将所述图像预处理后的单字符图像输入预训练至收敛的所述Lenet5模型,由该Lenet5模型中的3层卷积层进行特征提取,该卷积层采用的都是5x5大小的卷积核/过滤器,且卷积核每次滑动一个像素,一个特征图谱/特征平面使用同一个卷积核,另外与卷积层连接的池化层是下采样层,用来降低数据的维度,压缩卷积层输入的特征平面图像,由此,获得相应的深层图像特征即所述图像特征信息。
步骤S1370、采用全连接层对所述图像特征信息进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的单字符数据。
所述全连接层中包含84个神经元,每一个神经元都和上一层卷积层的神经元相连接,计算输入向量和权重向量之间的点积,再加上一个偏置,结果通过sigmoid函数输出,其为该全连接层与分类空间之间的连接方式。
所述预设的分类空间中包含对应可识别文本即分类标签对应的多个节点,并且该各个节点与上一层输入值之间的相似度有其对应的相似度计算方式,例如高斯径向基函数、欧几里得径向基函数,该欧几里得径向基函数的输出结果越接近于0,表征输入值与节点之间的相近距离越小对应两者相似度越高,此处相似度计算公式、可识别文本,可由本领域技术人员按需灵活设置变通。
所述全连接层对所述深层图像特征进行全连接计算出其对应的所述sigmoid函数输出结果,将其与预设的分类空间中的节点相应的计算相似度,确定其中相对应的相似度最高的文本即分类标签,而将其作为所述单字符数据。
本实施例中,通过Lenet5模型一定程度解决单字符识别算法的耗时长、特征提取复杂、识别率低等问题,实现了鲁棒性好、泛化能力强、高精准度的文本识别。另外Lenet5模型在手写字体文本识别领域能够取得较为优异的识别效果,适合本申请的单据图片和/或支付凭证图片中手写字体的文本识别的应用场景。
请参阅图6,较佳的实施例中,步骤S1360、将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息之前,所述单字符识别模型的训练过程,包括如下步骤:
步骤S1351、采用预设的训练数据集的训练样本对所述单字符识别模型实施第一阶段训练至收敛状态;
推荐的实施例中,所述单字符识别模型为传统Lenet模型,从所述预设的训练数据集中取出不同的各类别的所有训练样本,将其输入所述Lenet模型中执行第一阶段训练,首先,执行向前传播阶段,计算获得相应的实际输出Op,在此阶段,训练样本从输入层经过逐级的变换,传送到输出层。这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是计算(实际上就是输入与每层的权值矩阵相点乘,得到最后的输出结果):Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n)),其次,执行反向传播阶段,计算该实际输出Op与相应的理想输出Yp的差,即计算模型损失值,据此,以极小化误差的方法反向传播调整权重矩阵。根据以上过程不断调用训练样本对模型实施训练,不断修正模型中的权重参数,最终,在此第一阶段训练将该Lenet模型训练至收敛状态。
步骤S1352、采用经第一阶段训练的所述单字符识别模型对所述训练数据集中的训练样本进行推理,对各个训练样本提取图像特征信息后经全连接层映射到分类空间,确定训练样本相对应的类别;
进一步的对所述第一阶段训练至收敛的单字符识别模型中相应的各层参数固化,再次将所述训练数据集中的各个训练样本一一输入至所述Lenet模型进行推理,获得由该Lenet模型的卷积层和池化层提取各个训练样本对应的深层图像特征即所述图像特征信息,从而将其输入至该Lenet模型的全连接层进行特征映射,以深层图像特征与分类空间中的节点之间的相似度,确定所述深层图像特征在此特征映射过程中对应的所述节点以获得节点相对应的分类标签,从而以其确定训练样本相对应的类别。
步骤S1353、统计推理过程中所述全连接层各个神经元映射到所述分类空间各个类别相对应的被激活总次数,将每个神经元映射到每个当前类别的被激活总次数与其映射到所有其他类别的被激活总次数的和值之比确定为该神经元映射到该当前类别的控制权重,获得各个神经元映射到各个类别的权重参数集;
本申请实测的一种实施例中,所述全连接层采用84个神经元,每一个神经元都和上一层卷积层的神经元相连接,并且该全连接层的每一个神经元又与所述分类空间中的各个节点相连接,另外,在该全连接层的输出有激活函数,此处激活函数及其对应的其中的参数设置可由本领域技术人员灵活变通,示范性举例,该激活函数为双曲正切函数:
f(a)=A tanh(Sa)
其中,A为增幅,其对应的经验值为1.7159;S为原点处的倾斜率。
由此,统计所述推理过程中所述各个类别的训练样本在所述Lenet模型执行前向传播时,该Lenet模型的所述全连接层各个神经元映射到所述分类空间各个类别相对应的被激活总次数,具体而言,预设激活阈值为0.6,此处本领域技术人员先验知识或实验经验灵活变通设置,若全连接层中的神经元对应的所述激活函数的输出结果大于该预设阈值,则确定该神经元为激活状态,否则则确定该神经元为非激活状态,据此,统计所述全连接层中84个神经元对应的激活次数,例如第一个神经元在类别1、类别2等类别分别对应的各个训练样本中被激活总次数。由此,将每个神经元映射到每个当前类别的被激活总次数与其映射到所有其他类别的被激活总次数的和值之比确定为该神经元映射到该当前类别的控制权重,获得所述全连接的各个神经元映射到所述分类空间的各个节点即所述各个类别的权重参数集,所述控制权重对应的示范性公式举例:
Figure BDA0003530944440000191
其中:神经元映射到该当前类别的控制权重为f(n),n为训练数据集的训练样本的类别总数,i为当前训练数据集的训练样本的类别,Wi为每个神经元映射到每个当前类别的被激活总次数,
Figure BDA0003530944440000192
为每个神经元映射到每个所有其他类别的被激活总次数。
步骤S1354、对所述单字符识别模型的全连接层应用所述权重参数集进行权重初始化,采用所述的训练数据集的训练样本对其进行第二阶段训练,将其训练至收敛状态。
根据所述权重参数集为对该Lenet模型的全连接层中的各个神经元进行权重初始化,并且以其更改所述全连接层与分类空间之间的连接方式,具体而言,将基础的该全连接层与分类空间之间的连接方式Y=f(WX+b)中的权重X该更改为所述控制权重f(n),并且以其相应的将该来连接方式更改成Y=f(f(n)*x+b)。进一步,初始化设置该连接方式中的b为0,并以该f(n)为所述全连接层与分类空间之间连接参数W权值的初始值,据此,再次采用所述训练数据集的训练样本对其进行第二阶段训练,将该Lenet模型训练至收敛状态,最终,以获得经由上述改进并预训练至收敛的Lenet模型。
本实施例中,先对单字符识别模型进行初次训练至收敛,然后将其投入对训练样本的推理预测,再利用推理过程中产生的神经元被激活总次数进行数据统计,根据统计结果重新改进该单字符识别模型中的神经元与输出层之间的连接方式,使该模型重新被训练至收敛状态,其中,单字符识别模型是利用激活神经元在各类训练样本中出现的频率进行初始化并训练至收敛的,这种初始化方式,相当于对该各类深层图像特征感知比较强的神经元初始赋予较大的权值,而相对的对该各类深层图像特征感知比较强的神经元初始赋予较小甚至是为0的权值,在此基础上,对所述连接方式的改变,促使该各类深层图像特征感知比较强的神经元能够获得比较大的注意力实现类似attention机制,使得大大提升该单字符识别模型的文本识别的准确度和泛化能力。
请参阅图7,进一步的实施例中,步骤S1400、根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者,包括如下步骤:
步骤S1410、根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射,获得其中映射位置重合的行文本数据中的文本和单字符数据中的文本,以及其中映射位置错开的行文本数据中的文本或单字符数据中的文本;
根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射,以构建对所述待识别图像中文本部分的完整识别结果。
所述行文本数据中的文本和所述单字符数据中的文本是分别调用预训练至收敛的行文本检测模型和行文本识别模型、单字符检测模型和单字符识别模型对同一前述坐标位置的所述待识别图像中的文本的两个识别结果,因此,该两个识别结果可能出现映射位置重合和映射位置错开,示范性举例,如对所述待识别图像中文本部分为“一种”进行识别,所述单字符数据中的文本为“一”、所述行文本数据中的文本为“一种”,那么此处映射位置重合的行文本数据中的文本和单字符数据中的文本为“一”、此处映射位置错开的行文本数据中的文本或单字符数据中的文本即为行文本数据中的文本为“一种”。据此,获得其中映射位置重合的行文本数据中的文本和单字符数据中的文本,以及获得行文本数据中的文本和单字符数据中的文本。
步骤S1420、比较所述映射位置重合的行文本数据中的文本和单字符数据中的文本之间的置信度,保留两者中置信度较高的一方的文本用于替换另一方的文本获得映射位置重合部分的目标识别文本,以映射位置错开的行文本数据中的文本或单字符数据中的文本作为映射位置错开部分的目标识别文本;
进一步,比较所述映射位置重合的行文本数据中的文本和单字符数据中的文本之间的置信度,该置信度为分别调用行文本识别模型和单字符识别模型相应的归一化函数输出的比值,其表征分类标签与相应的模型识别出的字符之间的相似度,据此,保留其中置信度较高的一方的文本以替换另一方的文本作为该映射位置重合的目标识别文本。对于映射位置错开的行文本数据中的文本或单字符数据中的文本而言,为相应的行文本识别模型和单字符识别模型中某一方模型无法识别或检索相应的待识别图像中文本部分,而其被另一方模型检索和识别出相应的文本,据此,以被模型检索并识别出的行文本数据中的文本或单字符数据中的文本作为作为映射位置错开部分的目标识别文本。
步骤S1430、融合所述映射位置重合部分的目标识别文本和所述映射位置错开部分的目标识别文本构建所述待识别图像中文本部分的目标识别结果。
融合所述映射位置重合部分的目标识别文本和所述映射位置错开部分的目标识别文本,借此以完成对所述待识别图像中文本部分的检索并识别出的目标识别结果而将其构建。
本实施例中,通过映射融合相应的行文本数据和单字符数据,一方面可以完善对待识别图像中文本的检索和识别,使得最终的目标识别结果的缺漏率得以一定程度上的降低,检索和识别过程的颗粒度更细,实现高精度的文本识别;另一方面,在此过程中优选准确度更高的识别结果作为最终的识别结果,有助于实现高准确度的文本识别。
请参阅图8,适应本申请的目的之一而提供的一种文本识别装置,是对本申请的文本识别方法的功能化体现,该装置包括:图片获取模块1100、行文本检测识别模块1200、单字符检测识别模块1300,以及识别融合模块1400,其中,图像获取模块1100,用于获取待识别图像;行文本检测识别模块1200,用于调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,然后调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据;单字符检测识别模块1300,用于调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,然后调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据;识别融合模块1400,用于根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者。
进一步的实施例中,所述行文本检测识别模块1200,包括:图像处理子模块,用于对所述待识别图像进行图像预处理;模型检测子模块,用于将图像预处理后的待识别图像输入预训练至收敛的行文本检测模型,检测出待识别图像中文本区域,构造出该文本区域相对应的多边形行文本框;图像截取子模块,用于根据所述多边形行文本框从所述待识别图像中截取获得相应的行文本图像,并获得其在所述待识别图像中的坐标位置。
进一步的实施例中,所述行文本检测识别模块1200,包括:图像处理子模块,用于对所述行文本图像进行图像预处理;特征提取子模块,用于将所述预处理后的行文本图像输入预训练至收敛的行文本识别模型进行特征提取,获得其相应的图像特征序列;特征分类子模块,用于采用全连接层对所述图像特征序列进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的行文本数据。
进一步的实施例中,所述单字符检测识别模块1300,包括:图像处理子模块,用于对所述待识别图像进行预处理,根据预设规格进行切割,获得多个分割图像,相邻的两个分割图像之间保留部分像素重合;模型检测子模块,用于将所述各个分割图像输入预训练至收敛的单字符检测模型,获得单字符框及其在所述分割图像中的坐标信息;图像坐标获取子模块,用于根据所述单字符框在所述分割图像中的坐标信息,获得该单字符框在所述待识别图像中的坐标位置;图像截取子模块,用于根据所述单字符框从所述待识别图像中截取获得相应的单字符图像,其中,将相邻分割图像中重合部分被所述单字符检测模型重复检测出的单字符框进行去重。
进一步的实施例中,所述单字符检测识别模块1300,包括:图像处理子模块,用于对所述单字符图像进行图像预处理;特征提取子模块,用于将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息;特征分类子模块,用于采用全连接层对所述图像特征信息进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的单字符数据。
进一步的实施例中,所述特征提取子模块,包括:一阶段训练模块,用于采用预设的训练数据集的训练样本对所述单字符识别模型实施第一阶段训练至收敛状态;模型推理模块,用于采用经第一阶段训练的所述单字符识别模型对所述训练数据集中的训练样本进行推理,对各个训练样本提取图像特征信息后经全连接层映射到分类空间,确定训练样本相对应的类别;权重参数模块,用于统计推理过程中所述全连接层各个神经元映射到所述分类空间各个类别相对应的被激活总次数,将每个神经元映射到每个当前类别的被激活总次数与其映射到所有其他类别的被激活总次数的和值之比确定为该神经元映射到该当前类别的控制权重,获得各个神经元映射到各个类别的权重参数集;二阶段训练模块,用于对所述单字符识别模型的全连接层应用所述权重参数集进行权重初始化,采用所述的训练数据集的训练样本对其进行第二阶段训练,将其训练至收敛状态。
进一步的实施例中,所述识别融合模块1400,包括:坐标映射子模块,用于根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射,获得其中映射位置重合的行文本数据中的文本和单字符数据中的文本,以及其中映射位置错开的行文本数据中的文本或单字符数据中的文本;识别文本确定子模块,用于比较所述映射位置重合的行文本数据中的文本和单字符数据中的文本之间的置信度,保留两者中置信度较高的一方的文本用于替换另一方的文本获得映射位置重合部分的目标识别文本,以映射位置错开的行文本数据中的文本或单字符数据中的文本作为映射位置错开部分的目标识别文本;识别文本融合子模块,用于融合所述映射位置重合部分的目标识别文本和所述映射位置错开部分的目标识别文本构建所述待识别图像中文本部分的目标识别结果。
为解决上述技术问题,本申请实施例还提供计算机设备。如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种文本识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的文本识别方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的文本识别装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的文本识别方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,首先,分别调用预训练至收敛的行文本检测模型和行文本识别模型、单字符检测模型和单字符识别模型对所述待识别图像文本部分相应的行文本检测识别和单字符检测识别,进而融合两者的检测识别结果获得对所述待识别图像文本部分的识别结果,其中,由于融合过程中优选该两者的检测识别结果之中置信度较高者作为最终识别结果,同时,在此融合过程中,结合该两者的检测识别结果以达到减少最终识别结果的缺漏,使得大大提升文本识别的准确度和精度。另外,尽管该行文本检测识别和单字符检测识别相应分两路同时开始执行,而相对应的整体执行效率取决于行文本检测识别对应的一路的执行效率仍然十分高效。
其次,可采用本申请优化改进的所述单字符识别模型用于对待识别图像文本部分进行单字符识别,该单字符识别模型通过统计神经元对应的各类样本的激活次数而优化该神经元对应的权重值,并以此相应的更改神经元与输出层之间的连接方式,最终实现attention机制,使得大大提升感知相应的深层图像特征比较强的神经元的注意力,因此,能够实现高精准度的单字符识别。
此外,本申请实现的文本识别技术方案可适用于电商领域的多种文本识别应用场景,其中,尤其适用于电商平台用户对交易单据和支付凭证进行拍摄或者截图所得的图像,能够高效、高精准度地识别出该图像文本部分。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种文本识别方法,其特征在于,包括如下步骤:
获取待识别图像;
调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,然后调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据;
调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,然后调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据;
根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者。
2.根据权利要求1所述的字符识别方法,其特征在于,调用预训练至收敛的行文本检测模型对所述待识别图像进行检测,以相应的行文本框截取待识别图像获得行文本图像及其行文本图像坐标,包括如下步骤:
对所述待识别图像进行图像预处理;
将图像预处理后的待识别图像输入预训练至收敛的行文本检测模型,检测出待识别图像中文本区域,构造出该文本区域相对应的多边形行文本框;
根据所述多边形行文本框从所述待识别图像中截取获得相应的行文本图像,并获得其在所述待识别图像中的坐标位置。
3.根据权利要求1所述的字符识别方法,其特征在于,调用预训练至收敛的行文本识别模型对所述行文本图像进行识别,获得其中相应的行文本数据,还包括如下步骤:
对所述行文本图像进行图像预处理;
将所述预处理后的行文本图像输入预训练至收敛的行文本识别模型进行特征提取,获得其相应的图像特征序列;
采用全连接层对所述图像特征序列进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的行文本数据。
4.根据权利要求1所述的字符识别方法,其特征在于,调用预训练至收敛的单字符检测模型对所述待识别图像进行检测,以相应的单字符框截取待识别图像获得单字符图像及其单字符图像坐标,包括如下步骤:
对所述待识别图像进行预处理,根据预设规格进行切割,获得多个分割图像,相邻的两个分割图像之间保留部分像素重合;
将所述各个分割图像输入预训练至收敛的单字符检测模型,获得单字符框及其在所述分割图像中的坐标信息;
根据所述单字符框在所述分割图像中的坐标信息,获得该单字符框在所述待识别图像中的坐标位置;
根据所述单字符框从所述待识别图像中截取获得相应的单字符图像,其中,将相邻分割图像中重合部分被所述单字符检测模型重复检测出的单字符框进行去重。
5.根据权利要求1所述的字符识别方法,其特征在于,调用预训练至收敛的单字符识别模型对所述单字符图像进行识别,获得其中相应的单字符数据,包括如下步骤:
对所述单字符图像进行图像预处理;
将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息;
采用全连接层对所述图像特征信息进行全连接并映射到预设的分类空间,以确定其对应的分类标签而获得其相对应的单字符数据。
6.根据权利要求5所述的字符识别方法,其特征在于,将所述图像预处理后的单字符图像输入预训练至收敛的单字符识别模型进行特征提取,获得其相应的图像特征信息之前,所述单字符识别模型的训练过程,包括如下步骤:
采用预设的训练数据集的训练样本对所述单字符识别模型实施第一阶段训练至收敛状态;
采用经第一阶段训练的所述单字符识别模型对所述训练数据集中的训练样本进行推理,对各个训练样本提取图像特征信息后经全连接层映射到分类空间,确定训练样本相对应的类别;
统计推理过程中所述全连接层各个神经元映射到所述分类空间各个类别相对应的被激活总次数,将每个神经元映射到每个当前类别的被激活总次数与其映射到所有其他类别的被激活总次数的和值之比确定为该神经元映射到该当前类别的控制权重,获得各个神经元映射到各个类别的权重参数集;
对所述单字符识别模型的全连接层应用所述权重参数集进行权重初始化,采用所述的训练数据集的训练样本对其进行第二阶段训练,将其训练至收敛状态。
7.根据权利要求1中所述的字符识别方法,其特征在于,根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射融合以获得所述待识别图像中文本部分的目标识别结果,其中,位置相同的行文本数据中的文本和单字符数据中的文本之间保留两者中的置信度较高者,包括如下步骤:
根据所述行文本图像坐标和所述单字符图像坐标相应将所述行文本数据和所述单字符数据进行映射,获得其中映射位置重合的行文本数据中的文本和单字符数据中的文本,以及其中映射位置错开的行文本数据中的文本或单字符数据中的文本;
比较所述映射位置重合的行文本数据中的文本和单字符数据中的文本之间的置信度,保留两者中置信度较高的一方的文本用于替换另一方的文本获得映射位置重合部分的目标识别文本,以映射位置错开的行文本数据中的文本或单字符数据中的文本作为映射位置错开部分的目标识别文本;
融合所述映射位置重合部分的目标识别文本和所述映射位置错开部分的目标识别文本构建所述待识别图像中文本部分的目标识别结果。
8.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至7任意一项中所述方法的步骤。
CN202210204646.6A 2022-03-03 2022-03-03 文本识别方法及其装置、设备、介质、产品 Pending CN114565913A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210204646.6A CN114565913A (zh) 2022-03-03 2022-03-03 文本识别方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210204646.6A CN114565913A (zh) 2022-03-03 2022-03-03 文本识别方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN114565913A true CN114565913A (zh) 2022-05-31

Family

ID=81717261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210204646.6A Pending CN114565913A (zh) 2022-03-03 2022-03-03 文本识别方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN114565913A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114972947A (zh) * 2022-07-26 2022-08-30 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置
CN114972947B (zh) * 2022-07-26 2022-12-06 之江实验室 一种基于模糊语义建模的深度场景文本检测方法和装置

Similar Documents

Publication Publication Date Title
Borisyuk et al. Rosetta: Large scale system for text detection and recognition in images
US11367271B2 (en) Similarity propagation for one-shot and few-shot image segmentation
US9953425B2 (en) Learning image categorization using related attributes
US9536293B2 (en) Image assessment using deep convolutional neural networks
He et al. Visual semantics allow for textual reasoning better in scene text recognition
CN111210443A (zh) 基于嵌入平衡的可变形卷积混合任务级联语义分割方法
JP2008537198A (ja) 人工知能を使用した外来のアプリケーションユーザインタフェースからの情報のインテリジェントインポート
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN114549913B (zh) 一种语义分割方法、装置、计算机设备和存储介质
CN112329760A (zh) 基于空间变换网络端到端印刷体蒙古文识别翻译的方法
CN111160348A (zh) 自然场景的文本识别方法、存储装置和计算机设备
CN113159023A (zh) 基于显式监督注意力机制的场景文本识别方法
WO2022161302A1 (zh) 动作识别方法、装置、设备、存储介质及计算机程序产品
CN115222998B (zh) 一种图像分类方法
JP2022161564A (ja) テキスト画像の文字を認識する機械学習モデルを訓練するシステム
CN114973222A (zh) 基于显式监督注意力机制的场景文本识别方法
CN114863440A (zh) 订单数据处理方法及其装置、设备、介质、产品
CN114817633A (zh) 视频分类方法、装置、设备及存储介质
CN114565913A (zh) 文本识别方法及其装置、设备、介质、产品
CN111340051A (zh) 图片处理方法、装置及存储介质
Davoudi et al. Ancient document layout analysis: Autoencoders meet sparse coding
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN115205884A (zh) 票据信息提取方法及其装置、设备、介质、产品
CN115862015A (zh) 文字识别系统的训练方法及装置、文字识别方法及装置
WO2022248676A1 (en) Continual learning neural network system training for classification type tasks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination