CN110942061A

CN110942061A - 文字识别方法、装置、设备和计算机可读介质

Info

Publication number: CN110942061A
Application number: CN201911019483.9A
Authority: CN
Inventors: 丁笑天
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2019-10-24
Filing date: 2019-10-24
Publication date: 2020-03-31

Abstract

本发明公开了文字识别方法、装置、设备和计算机可读介质，涉及计算机技术领域。该方法的一具体实施方式包括：利用光学字符识别OCR，获取待匹配图像中多个文本块和多个文本块位置；所述多个文本块包括文字模板中多个关键词，所述多个文本块之间以直线连接，按照所述文本块位置确定所述文本块之间的线段信息和角度信息；基于所述文本块之间的线段信息和角度信息，生成所述待匹配图像的特征向量；所述待匹配图像的特征向量与所述文字模板的特征向量之间的距离小于预设距离阈值，则按照所述文字模板中关键词的识别区域，提取所述待匹配图像中待识别区域的文字。该实施方式能够保障与文字模板匹配成功，进而识别文字。

Description

文字识别方法、装置、设备和计算机可读介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种文字识别方法、装置、设备和计算机可读介质。

背景技术

光学字符识别(Optical Character Recognition，OCR)技术，能够对包含文字的图像进行识别，将其中的文字转化为可检索的信息。即，搜索影像件中的文字区域，并将其识别为计算机能够表示的文字信息。

OCR技术通常应用在舆情监控、文档检索、字幕识别、截图识别、网络图片识别、文献资料检索、无纸化办公和稿件编辑校对等领域。在公司办公过程中集成OCR识别技术之后，不仅仅是提高了办事效率，也方便电子化存储和管理，包括后期查阅检索、编辑管理等。

目前，OCR技术随着深度学习神经网络的发展，可以基于模板匹配以识别图像中文字。

在实现本发明过程中，发明人发现现有技术中至少存在如下问题：模板匹配中，要求图像无缩放并且文字是尽可能水平的。当待匹配图像与文字模板相比，带有缩放或者旋转时，会出现不能匹配的情况，导致无法识别文字。

发明内容

有鉴于此，本发明实施例提供一种文字识别方法、装置、设备和计算机可读介质，当待识别图像与文字模板相比，带有缩放或者旋转时，能够保障与文字模板匹配成功，进而识别文字。

为实现上述目的，根据本发明实施例的一个方面，提供了一种文字识别方法，包括：

利用光学字符识别OCR，获取待匹配图像中多个文本块和多个文本块位置；

所述多个文本块包括文字模板中多个关键词，所述多个文本块之间以直线连接，按照所述文本块位置确定所述文本块之间的线段信息和角度信息；

基于所述文本块之间的线段信息和角度信息，生成所述待匹配图像的特征向量；

所述待匹配图像的特征向量与所述文字模板的特征向量之间的距离小于预设距离阈值，则按照所述文字模板中关键词的识别区域，提取所述待匹配图像中待识别区域的文字。

所述方法还包括：

预设文字模板中关键词区域和识别区域，所述关键词区域包括预设关键词，所述关键词区域和所述识别区域相对应；

多个所述关键词区域之间以直线连接，确定所述关键词区域之间的角度信息和线段信息；

基于所述关键词区域之间的角度信息和线段长度，生成所述文字模板的特征向量。

所述预设文字模板中关键词区域和识别区域之前，包括：

按照所述待匹配图像中多个文本块的数量，确定所述预设文字模板中关键词区域的数量。

所述线段信息包括第一直线距离与第二直线距离的比值，所述第一直线距离是第一文本块至第二文本块的距离，所述第二直线距离是第二文本块至第三文本块的距离；

所述角度信息包括所述第一直线与所述第二直线之间的角度。

所述基于所述文本块之间的线段信息和角度信息，生成所述待匹配图像的特征向量，包括：

基于所述文本块之间的线段信息和角度信息，计算得到所述文本块的特征向量；

依次排列所述文本块的特征向量，生成包括所述文本块的待匹配图像的特征向量。

所述多个关键词的数量大于预设阈值。

所述关键词在所述待匹配图像中多个文字块中出现，

将所述多个文字块中重复出现的关键词，分别与在所述待匹配图像中其他文字块中的关键词组合，作为所述多个关键词。

所述按照所述文字模板中关键词的识别区域，提取所述待匹配图像中待识别区域的文字，包括：

由所述文字模板到所述待匹配图像的变换矩阵，将所述文字模板中关键词的识别区域映射到所述待匹配图像的待识别区域；

提取所述待匹配图像的待识别区域中的文字。

根据本发明实施例的第二方面，提供了一种文字识别装置，包括：

识别模块，用于利用光学字符识别OCR，获取待匹配图像中多个文本块和多个文本块位置；

信息模块，用于所述多个文本块包括文字模板中多个关键词，所述多个文本块之间以直线连接，按照所述文本块位置确定所述文本块之间的线段信息和角度信息；

向量模块，用于基于所述文本块之间的线段信息和角度信息，生成所述待匹配图像的特征向量；

提取模块，用于所述待匹配图像的特征向量与所述文字模板的特征向量之间的距离小于预设距离阈值，则按照所述文字模板中关键词的识别区域，提取所述待匹配图像中待识别区域的文字。

设置模块，用于预设文字模板中关键词区域和识别区域，所述关键词区域包括预设关键词，所述关键词区域和所述识别区域相对应；

所述信息模块，用于多个所述关键词区域之间以直线连接，确定所述关键词区域之间的角度信息和线段信息；

所述向量模块，用于基于所述关键词区域之间的角度信息和线段长度，生成所述文字模板的特征向量。

所述设置模块，还用于按照所述待匹配图像中多个文本块的数量，确定所述预设文字模板中关键词区域的数量。

所述向量模块，具体用于基于所述文本块之间的线段信息和角度信息，计算得到所述文本块的特征向量；

所述多个关键词的数量大于预设阈值。

所述关键词在所述待匹配图像中多个文字块中出现，

所述信息模块，具体用于将所述多个文字块中重复出现的关键词，分别与在所述待匹配图像中其他文字块中的关键词组合，作为所述多个关键词。

所述提取模块，具体用于由所述文字模板到所述待匹配图像的变换矩阵，将所述文字模板中关键词的识别区域映射到所述待匹配图像的待识别区域；

提取所述待匹配图像的待识别区域中的文字。

根据本发明实施例的第三方面，提供了一种文字识别电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现如上述的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为利用OCR获取待匹配图像中多个文本块和多个文本块位置；多个文本块包括文字模板中多个关键词，多个文本块之间以直线连接，按照文本块位置确定文本块之间的线段信息和角度信息；基于文本块之间的线段信息和角度信息，生成待匹配图像的特征向量；待匹配图像的特征向量与文字模板的特征向量之间的距离小于预设距离阈值，则按照文字模板中关键词的识别区域，提取待匹配图像中待识别区域的文字。

待匹配图像与文字模板相比，带有缩放或者旋转时，由于待匹配图像的特征向量由线段信息和角度信息确定，线段信息和角度信息并不会因缩放或旋转发生改变，因此采用特征向量匹配文字模板，能够保障与文字模板匹配成功，进而识别文字。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的文字识别的方法的主要流程的示意图；

图2是根据本发明实施例的生成文字模板的特征向量的流程示意图；

图3是根据本发明实施例的生成文字模板的特征向量的示意图；

图4是根据本发明实施例的生成匹配图像的特征向量的示意图；

图5是根据本发明实施例的匹配图像的示意图；

图6是根据本发明实施例的火车票的示意图；

图7是根据本发明实施例的文字识别装置的主要结构的示意图；

图8是本发明实施例可以应用于其中的示例性系统架构图；

图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

目前OCR技术随着深度学习神经网络的发展，常用手机拍摄以及扫描仪扫描图像中的单字识别正确率能够达到95％以上。借助于计算机硬件的发展，OCR技术能够在不到3秒内完成一整幅图像中所有文字的定位和识别，大大加快了文字识别的处理流程。

然而，目前OCR引擎输出的一般是图像中文本块位置和内容，并不包含结构化信息。结构化信息包括文本块的实际含义。如：对于一张发票拍摄图像来说，需要识别票据类型是什么，发票金额为多少，发票代码为多少等。

在深度学习神经网络兴起之前，为了得到结构化的OCR识别结果，一种途径是首先提取图像中的特征，以确定图像中的一个或多个目标类型及其位置，并组织结构化输出。如：对于一张扫描文件中的几张火车票来说，首先根据特征定位其在图像中的位置，然后对火车票区域进行OCR识别，最终根据文字内容和位置，得到结构化输出。

特征提取常用的算法包括尺度不变特征变换(Scale-invariant featuretransform，SIFT)、方向梯度直方图(Histogram of Oriented Gradient，HOG)、加速稳健特征(Speeded Up Robust Features，SURF)、ORB(Oriented FAST and Rotated BRIEF)等。这些方法基本流程是首先使用不同算法生成样例图像以及目标图像的特征向量，然后通过暴力匹配或快速匹配算法进行特征匹配。但它们在实际使用中效果并不好，对于无纹理图像特别容易造成误匹配。

另外一种途径是首先识别图像中的文字，然后根据文字内容及其位置匹配图像中的一个或多个目标，也就是基于文字的模板匹配。

目前方案中针对版式固定、文字内容较少、结构化字段抽取难度较低的一些证件类影像实现了基于文字的模板匹配的自动结构化字段抽取，例如：身份证，并取得了不错的效果。具体包括：

1、定义模板。

在一张待识别图像上定义模板的关键词区域和识别区域。其中，关键词区域指识别过程中，位置和内容都固定不变的字段A、B、C、D…。如：身份证中的“姓名”、“身份证号”…等几个字段。识别区域指需要识别的键名称或者值可能出现的位置及字段属性等。

2、模板匹配

使用OCR识别待识别图像中的所有文字内容，然后查找所定义的关键词段A、B、C、D…是否出现，以及它们出现的位置。如果出现的关键词段A→B→C→D…的位置偏移向量，与模板所定义的关键词段A→B→C→D…的位置偏移向量差值在一个阈值范围之内，则认为匹配成功。然后提取识别区域中出现的文本，并根据模板中的键、值定义，组织最终结构化输出。

在上述模板匹配中，要求图像无缩放并且文字是尽可能水平的。当待识别图像与模板图像相比，带有缩放或者旋转时，会出现不能匹配的情况，进而导致无法识别文字。

为了解决当待识别图像与文字模板相比，带有缩放或者旋转时，出现不能匹配的情况，进而导致无法识别文字。可以采用以下本发明实施例中的技术方案。

参见图1，图1是根据本发明实施例的文字识别方法主要流程的示意图，基于文本块之间的线段信息和角度信息，生成待匹配图像的特征向量。待匹配图像的特征向量并不会随缩放或者旋转而变化，因此按照待匹配图像的特征向量与文字模板的特征向量，可以识别待匹配图像的文字。如图1所示，具体包括以下步骤：

S101、利用OCR获取待匹配图像中多个文本块和多个文本块位置。

利用OCR可以获取待匹配图像中的多个文本块和上述多个文本块位置。待匹配图像是需要与文字模板匹配以识别文字的图像。可以理解的是，待匹配图像中包括多个文字。作为一个示例，待匹配图像可以是单据图像、车票图像或表格图像等。

在本发明实施例中，文本块可以是包括一个或多个文字的图形，示例性的，可以是包括一个或多个文字的矩形。在待匹配图像中利用OCR可以获取多个文本块位置。示例性的，可以以待匹配图像中的像素点位置标记文本块位置。示例性，文本块的左上角坐标(横轴坐标：第3像素，纵轴坐标：第10像素)。

S102、多个文本块包括文字模板中多个关键词，多个文本块之间以直线连接，按照文本块位置确定文本块之间的线段信息和角度信息。

在本发明实施例中，文字模板可以理解为描述待匹配图像的特征。下面结合附图说明文字模板，文字模板可以特征向量表征。

参见图2，图2是根据本发明实施例的生成文字模板的特征向量的流程示意图。下面结合附图2详细说明生成文字模板的特征向量的具体过程。

S201、预设文字模板中关键词区域和识别区域，关键词区域包括预设关键词，关键词区域和识别区域相对应。

首先，选择一张包含有待识别目标的、拍摄或扫描较为清晰、平整无褶皱的图像，然后对于该图像使用旋转矩形框(r-box)或四边形，定义文字模板中的关键词区域和识别区域。

其中，关键词指待识别区域内，位置和内容都固定不变的字段。如：身份证中的“姓名”、“身份证号”等。关键词区域即关键词所在的区域。识别区域指需要识别的键名称或者键值所在的位置及字段属性等。字段属性包括但不限于：字体大小，字段格式是数字、字符及其长度等。

S202、多个关键词区域之间以直线连接，确定关键词区域之间的角度信息和线段信息。

对于每个关键词K_A，使用直线连接K_A与其他关键词K_B、K_C、K_D、K_E……K_N等的旋转矩形框/四边形的中心点，或者旋转矩形框/四边形上的自定义位置。其中，上述旋转矩形框/四边形即关键词区域。连接的关键词数量需要大于等于3个。作为一个示例，可选择4至10个关键词。

从连接关键词K_A的其他关键词K_B、K_C、K_D、K_E…等依照预设规则，如：排列组合规则，首先选取两个关键词例如K_B和K_C，然后计算K_B、K_A、K_C对应关键词区域之间连接线的夹角，以及线段K_BK_A的距离与线段K_AK_C的距离的比值。

作为一个示例，直线连接K_B、K_A和K_C对应的关键词区域。将K_B、K_A和K_C对应的关键词区域连接线之间夹角的角度作为角度信息。线段K_BK_A的距离为L1；线段K_AK_C的距离为L2，将L1/L2作为线段信息。

接下再选取两个关键词例如K_B和K_D，计算K_B、K_A、K_D对应的关键词区域之间连接线的夹角，以及线段K_AK_B的距离与线段K_AK_D的距离的比值。

依此类推，直到依照预设规则将连接关键词K_A的所有关键词区域之间角度信息和线段信息处理完毕。

切换下一关键字，如K_B，首先使用直线连接K_B与其他关键字K_A、K_C、K_D、K_E…等等的旋转矩形框/四边形的中心点，或者旋转矩形框/四边形上的自定义位置。依照上述相同预设规则，计算连接关键字K_B的所有关键字区域之间的角度信息和线段长度。

依照上述流程，将所有关键字处理完毕。

S203、基于关键词区域之间的角度信息和线段长度，生成文字模板的特征向量。

将计算得到所有关键字区域之间的线段信息和角度信息，进行预处理，以统一数值值域区间。例如，可以将角度信息以弧度表示，或使用归一化，使其和线段信息均处于0至1值域区间。

将预处理完毕的所有关键字区域之间的线段信息和角度信息，依照一定规则转换为向量数值。

例如，可以使用简单排布的规则，依次将关键字K_A、K_B、K_C、K_D、K_E…K_N等的线段信息和角度信息，作为向量元素存入一个向量中。如：关键字K_A、K_B、K_C、K_D、K_E…K_N中对应的每个关键字区域计算出6个角度信息和6个线段信息，那么可以生成一个N×12维的特征向量。

在上述实施例中，文字模板中包括多个关键词区域，每个关键词区域对应一个12维特征向量。依次排列文字模板中包括所有关键词区域的特征向量，生成文字模板的特征向量。

参见图3，图3是根据本发明实施例的生成文字模板的特征向量的示意图。图3中包括5个关键词，分别是关键词A、B、C、D和E。

那么，以计算关键字A区域线段信息和角度信息为例。首先连接其他4个关键字区域与关键字A区域的中心点，当然也可以规定连接其他位置。然后，分别计算BAC、BAE、BAD、CAE、CAD、EAD的角度并归一化作为角度信息；分别计算L1/L2、L1/L3、L1/L4、L2/L3、L2/L4、L3/L4的值并归一化作为线段信息。

关键字区域A计算出的向量V_A为[norm(θ1)，norm(θ2)，norm(θ3)，norm(θ4)，norm(θ5)，norm(θ6)，norm(L1/L2)，norm(L1/L3)，norm(L1/L4)，norm(L2/L3)，norm(L2/L4)，norm(L3/L4)]。依次计算关键字区域得出的最终特征向量V＝[V_A，V_B，V_C，V_D，V_E]。其中，V是5×12维的特征向量。

在本发明的一个实施例中，文字模板的特性向量可以预先生成，并存储在模板库中。

在文字识别中，待匹配图像中包括多个文本块，每个文本块包括一个关键词。待匹配图像中多个文本块中的关键词，与文字模板中多个关键词相同。其中，相同关键词的数量大于预设阈值，则认为该文字模板可以用于识别待匹配图像；反之，相同关键词的数量小于等于预设阈值，则认为该文字模板不能用于识别待匹配图像。

作为一个示例，可以在模板库中人工选择文字模板进行匹配，或遍历模板库中每个文字模板以进行匹配。可以理解的是，待匹配图像的多个文本块包括文字模板中多个关键词，且多个关键词的数量大于预设阈值的情况下，才可以执行S102至S105。

待匹配图像中多个文本块之间以直线连接，按照文本块位置确定文本块之间的线段信息和角度信息。需要说明的是，文本块之间的线段信息和角度信息的确定方式，与关键词区域之间的线段信息和角度信息的确定方式相同，具体可以参见S202。

S103、基于文本块之间的线段信息和角度信息，生成待匹配图像的特征向量。

待匹配图像中包括多个文本块，每个文本块均有对应的线段信息和角度信息，那么待匹配图像的特征向量由文本块的线段信息和角度信获得。

参见图4，图4是根据本发明实施例的生成匹配图像的特征向量的示意图，具体包括：

S401、基于文本块之间的线段信息和角度信息，计算得到文本块的特征向量。

每个文本块均有对应的线段信息和角度信息，可以进行一些预处理，以统一数值值域区间。

将预处理完毕的所有关键字区域之间的线段信息和角度信息，依照一定规则转换为向量数值，并将上述向量数值存入一个向量中。该向量为文本块的特征向量。类似于关键词区域的特征向量，文本框的特征向量具体计算过程，可以参见S203。

S402、依次排列文本块的特征向量，生成包括文本块的待匹配图像的特征向量。

待匹配图像包括多个文本块，依次排列上述文本块的特征向量，则生成待匹配图像的特征向量。示例性的，按照文本块的标号排列文本块的特征向量，生成待匹配图像的特征向量。

在上述实施例中，待匹配图像中包括多个文本块，每个文本块对应一个多维特征向量。依次排列待匹配图像中包括所有文本块的特征向量，生成待匹配图像的特征向量。

S104、待匹配图像的特征向量与文字模板的特征向量之间的距离小于预设距离阈值，则按照文字模板中关键词的识别区域，提取待匹配图像中待识别区域的文字。

待匹配图像可以待匹配图像的特征向量表征，文字模板可以文字模板的特征向量表征。可以通过上述两个特征向量之间的距离与预设距离阈值的关系，判断待匹配图像是否与文字模板匹配。

示例性的，待匹配图像的特征向量与文字模板的特征向量之间的距离小于预设距离阈值，则认为待匹配图像与文字模板匹配成功；待匹配图像的特征向量与文字模板的特征向量之间的距离大于或等于预设距离阈值，则认为待匹配图像与文字模板匹配失败。

可以理解的是，待匹配图像的特征向量与文字模板的特征向量之间的距离可以是余弦距离、欧氏距离或其他距离。

待匹配图像与文字模板匹配成功，则说明可以利用文字模板中包括关键词的识别区域，提取待匹配图像中待识别区域的文字。识别区域指需要识别的键名称或者键值所在的位置及字段属性等。

参见图5，图5是根据本发明实施例的匹配图像的示意图。图5中上图是文字模板，图5中下图是待匹配图像。

在待匹配图像与文字模板的匹配过程中，如果待匹配图像与一个文字模板匹配成功，则根据文字模板中的关键词区域，计算由文字模板到待匹配图像的变换矩阵。其中，变换矩阵包括仿射变换，包括缩放、平移、旋转和剪切变换等。然后，由变换矩阵计算文字模板中的识别区域到待匹配图像的待识别区域的映射，即：由文字模板到待匹配图像的变换矩阵，将文字模板中关键词的识别区域映射到待匹配图像的待识别区域。

参见图5，示意文字模板中的识别区域到待匹配图像的待识别区域的映射。这样，按照文字模板中关键词的识别区域，提取待匹配图像中待识别区域的文字，提取的文字，即键名称或者键值所在的位置及字段属性。

在上述实施例中，待匹配图像与文字模板相比，带有缩放或者旋转时，由于待匹配图像的特征向量由线段信息和角度信息确定，线段信息和角度信息并不会因缩放或旋转发生改变，因此采用特征向量匹配文字模板，能够保障与文字模板匹配成功，进而识别文字。

在本发明的一个实施例中，待匹配图像的多个文本块包括文字模板中多个关键词，且多个关键词的数量大于预设阈值，但每个关键字出现次数>＝1，这种情况下有可能是待匹配图像中存在多个能匹配的关键词，也有可能是存在背景干扰。

在这种情况下，可以依次尝试每种关键字组合。对于每个关键词组合可以执行S102至S103的步骤。

作为一个示例，待匹配图像的多个文本块包括文字模板中多个关键词，分别为A1、A2、B、C、D和E，A1和A2相同。相同的A1和A2记为一个关键词，因此共有5个关键词。基于上述5个关键词，可以生成包括5个关键词的关键词组合。

具体来说，可以生成2个关键词组合。分别为：A1、B、C、D和E；A2、B、C、D和E。

可以理解的是，将每个文字块中重复出现的关键词，分别与在待匹配图像中其他文字块中的关键词组合，作为多个关键词，以进行识别。

在上述实施例中，适用于待匹配图像中存在多个匹配目标时的文字识别。作为一个示例，在待匹配图像中包括四张身份证，将一张身份证作为一个目标，利用上述关键词组合，可以匹配多个目标。

在本发明的一个实施例中，文字模板的特性向量可以在文字识别的过程中生成。如：待匹配图像的多个文本块包括文字模板中多个关键词，且多个关键词的数量大于预设阈值，但多个关键词的数量少于文字模板中关键词的总数。即，待匹配图像中缺少一个或多个关键字的情形。这种情况一种是由于待匹配图像中不存在目标，一种是存在目标，但OCR未能识别某些关键字引起的。考虑到，多个关键词的数量大于预设阈值，则仍然可以通过文字模板匹配成功。

另外，待匹配图像中缺少一个或多个关键字的情形下，可以按照待匹配图像中的多个文本块的数量，确定文字模板中关键词区域的数量。然后，按照S201-S203生成文字模板，以进行匹配。作为一个示例，待匹配图像中包括4个文本块，则将文字模块中关键词区域的数量设置为4。这样，待匹配图像的特征向量与文字模板的特征向量的维度一致，可以进行匹配。

参见图6，图6是根据本发明实施例的火车票的示意图。在财务系统报销过程中，需要识别火车票中的几个字段，例如：始发站、终到站、车次、金额和乘车人姓名。由于火车票格式较为统一，因此可使用本发明实施例中的技术方案识别文字。作为一个示例，可以使用C++、python等编程语言，编写一个计算机程序，执行下述技术方案。

1、预先设置文字模板。

选择一张清晰平整的火车票作为模板，使用四边形框，标记关键词区域和识别区域。关键词是带有火车票特征的、内容和位置固定不变的文字。识别区域是指待识别的文字位置。

在本发明实施例中，参见图6，图6中以黑色边框示例性选择火车票中的“限乘”、“当次车”、“等座”、“买票请到”、“(旅途)愉快”这五个文字区域作为关键字区域。

选择“呼和浩特东站”、“D6767车次”、“包头站”、“51.0元”、“1521041984******李**”作为识别区域。识别区域所属键名称和属性分别为“始发站(文本)”、“车次(文本)”、“终到站(文本)”、“金额(数值)”、“乘车人(数值+文本)”。

需要说明的是，识别区域文字长度并不固定，例如：始发站，终到站，在不同车票中的长度并不固定。因此，需要适当增大识别区域的尺寸，以尽可能囊括长短不同的站点名称。

基于火车票上述5个关键词区域，按照S201至S203，生成火车票的文字模板。其中，火车票的文字模板是一个60维的特征向量，将火车票的文字模板存储在模板库中。

2、匹配模板

财务报销图像中经常存在多张票据。本发明实施例中以一张财务报销图像中存在多张火车票进行说明，以说明采用本发明实施例中的技术方案可以识别多张火车票。即，将包括多张火车票的财务报销图像，作为待匹配图像。

首先，利用带有精确字坐标的通用OCR引擎，对待匹配图像进行通用OCR识别，获取各个文本块和文本块位置。按照S102和S103生成待匹配图像的特征向量。

在本发明实施例中，不考虑OCR识别失败的情况，那么由于待匹配图像中存在多张火车票，因此文字模板中各个关键字区域，将会出现多次。作为一个示例，可以使用简单组合的暴力计算方式，尝试关键字区域的组合。

示例性的，通过OCR获取“限乘”、“当次车”、“等座”、“买票请到”、“(旅途)愉快”这五个文本块，每个文本块出现四次。

那么，从上述出现的四个位置中，每次随机抽取一个位置，与其他四个已抽取的文本块，组成包括五个文本块的组合。使用如：S102至S103的步骤，生成该组合的特征向量。

根据该组合的特征向量和火车票的文字模板的特征向量，按照S104进行匹配。若匹配成功，则认为该组合是一张火车票。上述组合中的五个文本块将被冻结，下次尝试循环中不再访问，继续从剩余的三个位置中尝试新组合，直至所有可能组合尝试完毕。为了加快计算速度，在此步骤可使用多线程并行处理多个组合。

在上述实施例中，待匹配图像中存在4张火车票，将会出现4次匹配成功。此时，根据火车票的文字模板中5个关键字区域的坐标，以及匹配成功的组合中5个文本块位置，可以计算由火车票的文字模板到匹配成功的组合变换矩阵。

示例性的，从火车票的文字模板到第一个匹配成功的组合的变换可以描述为：平移x：80像素，平移y：-10像素，旋转-10度，缩放值102％，无剪切变换。剪切变换通常在拍摄影像中存在，在扫描图像中可不考虑。换言之，通过上述方式火车票的文字模板通过上述变换，能够移动到第一个匹配成功的组合所在位置。

由于匹配成功4个组合，将会计算得到4个3×3变换矩阵。同时，火车票的文字模板中已定义待识别区域，此时将依据变换矩阵，计算火车票的文字模板中的待识别区域到上述组合的映射。也就是是说，在待匹配图像中应该提取哪个区域的文字。

在待匹配图像中，“始发站(文本)”、“车次(文本)”、“终到站(文本)”、“金额(数值)”、“乘车人(数值+文本)”，上述五个待识别区域，经变换后分别映射到待识别图像中4张火车票相应区域。抽取出各个待识别区域的文字作为键值，并组织结构化输出。

采用本发明实施例中的技术方案识别文字，具有快速匹配、通用、可扩展性和鲁棒性好的特点，能够用于拍照、扫描影像关键字段抽取。在文字模板匹配中能够做到图像缩放无关和图像旋转无关匹配，并且能够一次匹配图像中的多个目标。

参见图7，图7是根据本发明实施例的文字识别装置的主要结构的示意图，文字识别的装置可以实现文字识别的方法，如图7所示，文字识别的装置具体包括：

识别模块701，用于利用OCR，获取待匹配图像中多个文本块和多个文本块位置。

信息模块702，用于多个文本块包括文字模板中多个关键词，多个文本块之间以直线连接，按照文本块位置确定文本块之间的线段信息和角度信息。

向量模块703，用于基于文本块之间的线段信息和角度信息，生成待匹配图像的特征向量。

提取模块704，用于待匹配图像的特征向量与文字模板的特征向量之间的距离小于预设距离阈值，则按照文字模板中关键词的识别区域，提取待匹配图像中待识别区域的文字。

在本发明的一个实施例中，设置模块705，用于预设文字模板中关键词区域和识别区域，关键词区域包括预设关键词，关键词区域和识别区域相对应。

信息模块702，用于多个关键词区域之间以直线连接，确定关键词区域之间的角度信息和线段信息。

向量模块703，用于基于关键词区域之间的角度信息和线段长度，生成文字模板的特征向量。

在本发明的一个实施例中，设置模块705，还用于按照待匹配图像中多个文本块的数量，确定预设文字模板中关键词区域的数量。

在本发明的一个实施例中，线段信息包括第一直线距离与第二直线距离的比值，第一直线距离是第一文本块至第二文本块的距离，第二直线距离是第二文本块至第三文本块的距离。

角度信息包括第一直线与第二直线之间的角度。

在本发明的一个实施例中，向量模块703，具体用于基于文本块之间的线段信息和角度信息，计算得到文本块的特征向量；

依次排列文本块的特征向量，生成包括文本块的待匹配图像的特征向量。

在本发明的一个实施例中，多个关键词的数量大于预设阈值。

在本发明的一个实施例中，关键词在待匹配图像中多个文字块中出现，

信息模块702，具体用于将多个文字块中重复出现的关键词，按照预设阈值分别与在待匹配图像中其他文字块中的关键词组合，作为多个关键词。

在本发明的一个实施例中，提取模块704，具体用于由文字模板到待匹配图像的变换矩阵，将文字模板中关键词的识别区域映射到待匹配图像的待识别区域；

提取待匹配图像的待识别区域中的文字。

图8示出了可以应用本发明实施例的文字识别方法或文字识别装置的示例性系统架构800。

如图8所示，系统架构800可以包括终端设备801、802、803，网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备801、802、803通过网络804与服务器805交互，以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。

终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器805可以是提供各种服务的服务器，例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理，并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。

需要说明的是，本发明实施例所提供的文字识别方法一般由服务器805执行，相应地，文字识别装置一般设置于服务器805中。

应该理解，图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图9，其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分909从网络上被下载和安装，和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU)901执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括发送单元、获取单元、确定单元和第一处理单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，发送单元还可以被描述为“向所连接的服务端发送图片获取请求的单元”。

作为另一方面，本发明还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：

根据本发明实施例的技术方案，因为利用OCR获取待匹配图像中多个文本块和多个文本块位置；多个文本块包括文字模板中多个关键词，多个文本块之间以直线连接，按照文本块位置确定文本块之间的线段信息和角度信息；基于文本块之间的线段信息和角度信息，生成待匹配图像的特征向量；待匹配图像的特征向量与文字模板的特征向量之间的距离小于预设距离阈值，则按照文字模板中关键词的识别区域，提取待匹配图像中待识别区域的文字。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文字识别方法，其特征在于，包括：

2.根据权利要求1所述文字识别方法，其特征在于，所述方法还包括：

3.根据权利要求2所述文字识别方法，其特征在于，所述预设文字模板中关键词区域和识别区域之前，包括：

4.根据权利要求1所述文字识别方法，其特征在于，

5.根据权利要求1所述文字识别方法，其特征在于，所述基于所述文本块之间的线段信息和角度信息，生成所述待匹配图像的特征向量，包括：

6.根据权利要求1所述文字识别方法，其特征在于，所述多个关键词的数量大于预设阈值。

7.根据权利要求6所述文字识别方法，其特征在于，所述关键词在所述待匹配图像中多个文字块中出现，

8.根据权利要求7所述文字识别方法，其特征在于，所述按照所述文字模板中关键词的识别区域，提取所述待匹配图像中待识别区域的文字，包括：

提取所述待匹配图像的待识别区域中的文字。

9.一种文字识别装置，其特征在于，包括：

10.一种文字识别电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-8中任一所述的方法。