CN109635808B

CN109635808B - 一种在自然场景图像中对中文关键词及上下文的提取方法

Info

Publication number: CN109635808B
Application number: CN201811294643.6A
Authority: CN
Inventors: 王蕊; 田晓玮; 梁栋; 邹聪
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2023-01-17
Anticipated expiration: 2038-11-01
Also published as: CN109635808A

Abstract

本发明公开一种在自然场景图像中对中文关键词及上下文的提取方法，步骤包括：准备一个合适的中文数据集及物体检测分类模型，调整现有标注，对中文逐一文字进行标注；对图片进行中文文字检测，基于物体检测分类模型，将中文文字作为不同类别进行检测分类将；通过计算自定义的匹配系数，从物体检测分类结果中提取关键词，通过不断更新锚点关键词和生成候选直线的方式提取上下文信息。本发明在中文文字关键词及上下文识别上有高精度高召回的效果。

Description

一种在自然场景图像中对中文关键词及上下文的提取方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种能够在自然场景图像中准确识别中文关键词及上下文内容的方法。

背景技术

文字作为信息传播的载体，它所蕴含的丰富的语义信息可以帮助人们更好地理解自然场景，服务于众多的应用场景：车牌识别、名片识别、快速信息录入、交通指示牌识别、海报识别等。在安防、教育、物流、电子商务、旅游导航、自动驾驶等多个行业中都直接或间接用到了文字检测和识别技术。

OCR(Optical Character Recognition，光学字符识别)指的是针对扫描文档图像或是证件等其他扫描件进行分析处理，提取并识别出图像中包含的文字信息。STR(SceneText Recognition，场景文字识别)与OCR不同，分析处理的对象不再是扫描件等具有特定格式的图像，而是自然场景下的图片。自然场景图片多取材于手机、摄像头或其他摄像工具直接拍摄，与扫描件相比，图像中的文字展现形式更为丰富。相较于已有较为成熟的OCR技术，自然场景下的图像文本识别依然是目前的研究热点。

STR的主要难点有以下几个方面。一是自然场景下的字符可以有不同的大小、字体、颜色；二是自然场景下的文本行可能存在倾斜、竖向、旋转、扭曲等排版样式；三是自然场景下的文字区域可能存在变形、透视、模糊、遮挡等影响；四是自然场景下文字背景多种多样、文字可通过多种方式附着在其他物体上；最后是人为拍摄或采集的图像可能有噪点、光照、阴影等多种因素影响图像质量。

目前，涉及到自然场景下文字检测方法主要有两阶段和端到端两种不同的方案。两阶段主要是通过前期文字检测方法，从图像中提取文字区域，进而将文字区域输入到文字识别方法中，最终结合两阶段方法的输出，提取到自然场景中的主要文字。其中第一阶段文字检测的主要方法包括：传统方法，如最大稳定极值区域(MSER)、颜色聚类(ColorClustering)、笔画宽度变换(SWT)和梯度方向直方图(HOG)等方法；和基于深度学习的方法，如CTPN、FTSN、EAST等方法。第二阶段的文字识别的主要方法包括：PhotoOCR、CRNN、ASTER等诸多方法。与两阶段方法相对应的端到端的方法指的是不单独经过文字检测步骤的文字识别方法，此类方法直接将图像输入到训练好的模型中，文字识别算法在提取文本行的同时得到包含的文字内容。此类方法大多建立在机器学习的基础上，如FOTS、STN-OCR等。

以上涉及到的方法大都应用于处理英文等拉丁语系的文字检测及识别，对中文的识别能力较差，主要的原因包括而不限于以下几个方面。一是英文单词间有空格分割，以单词为识别的最小单元易于分划出文字框或是传入到识别网络；中文则没有空格作为分割符号，以整条文本行作为识别的最小单元面临长度差异较大等诸多困难点。二是英文字符只有26个不同字母，而中文字符种类远远多于英文字符种类，识别困难。三是中文的排版相较于英文更为复杂，中文文字可以横向或是竖向排布，英文大都以横向或与水平方向略有倾角。

近些年来，伴随着深度学习的高速发展，主流的文字检测和识别方法大都采用了深度学习的方法来获取文字的纹理特征，进而辨别出文字区域和文字内容。针对中文的检测及识别的方法也多种多样，主流的方法大多利用机器学习中物体检测的方法，对中文单字进行检测及分类，但针对关键词及上下文抽取构成文本行等任务依然存在着较大的挑战。

发明内容

本发明的目的是提出一种在自然场景图像中对中文关键词及上下文的提取方法。本方法通过预先训练一个基于中文文字的物体检测模型，基于该模型进行中文文字检测分类、关键词组合提取、上下文提取。

为实现上述目的，本发明采用如下技术方案：

一种在自然场景图像中对中文关键词及上下文的提取方法，包括以下步骤：

将目标图像输入到一可输出包含中文单字的文本框及所属类别的物体检测分类模型中，得到分类结果{(B_i,K_i)}，其中B_i表示文本框的相关属性，K_i表示所属类别；

依次根据锚点关键词含有的相邻两个类别K₁、K₂，从分类结果{(B_i,K_i)}中选取该两个类别K₁、K₂分别所在的文本框索引index₁、index₂，找出关键词i∈index₁、关键词j∈index₂，计算其对应的B_i、B_j之间的尺度系数SR和尺度距离系数SER，进而计算匹配系数PR，将PR的最小值对应的(i，j)作为关键词匹配对存入一集合P中；

从集合P中依次取出一关键词匹配对p，p包含((B_l,K_l),(B_r,K_r))，并提取上下文文本行TextLine；

根据p的两个中心点坐标，生成直线line；

从分类结果{(B_i,K_i)}中找出属于TextLine的每一个(B_i,K_i)；

计算B_i与line的距离DIS_i，以及B_i与B_l和B_r间的尺度系数SR_i，生成上下文候选队列Queue；

将Queue中的元素根据line的方向排序，逐一计算邻接距离比AdR和尺度系数AdSR，据以更新TextLine；

按照更新方向将最靠近更新端点的两个元素作为新的p，并根据其两中心点坐标生成新的直线，执行与上述直线line相同的后续处理，重复处理，直至TextLine不再更新，输出最终的TextLine。

进一步地，使用p初始化TextLine，则TextLine的初始元素为{(B_l,K_l),(B_r,K_r)}。

进一步地，将含有所需提取的中文关键词及其可能的上下文文字的训练集，对所选择的数据集进行预处理，得到所述标注的数据集；通过由标注的数据集训练所述物体检测分类模型，该标注的数据集包括中文单字的文本框标注及其以文字内容作为类别的标签。

进一步地，所选择的数据集为CTW数据集。

进一步地，所述预处理包括标注每个中文文字的文本框、类别及每个中文文本行包含的文本框及文字内容。

进一步地，所述物体检测分类模型包括Faster R-CNN、SSD、Yolo、多分类的文字检测模型、基于非机器学习的文字检测分类模型。

进一步地，根据物体检测分类模型属性，对目标图像进行裁剪，对裁剪的图片保持长宽比例不变进行缩放至所需尺寸。

进一步地，根据事先给定的或词库统计选取的中文关键词，制定锚点关键词。

进一步地，依次根据锚点关键词含有的相邻两个类别K₁、K₂，是指若锚点关键词只含有两个类别A、B，则K₁＝A，K₂＝B；若锚点关键词含有两个以上类别A、B、C……，则第一次为K₁＝A，K₂＝B，第二次为K₁＝B，K₂＝C，第三次为K₁＝C，K₂＝……。

进一步地，集合P采用map或set的数据结构进行存储。

一种在自然场景图像中对中文关键词及上下文的提取系统，包括：

一准备模块，用于通过一训练集对一数据集进行预处理，得到标注的数据集，由标注的数据集对一物体检测分类模型进行训练，使其可输出包含中文单字的文本框及所属类别；

一中文文字检测分类模块，用于对目标图像进行预处理，输入到物体检测分类模型得到分类结果{(B_i,K_i)}，其中B_i表示文本框的相关属性，K_i表示所属类别；

一关键词组合提取模块，依次根据锚点关键词含有的相邻两个类别K₁、K₂，从分类结果{(B_i,K_i)}中选取该两个类别K₁、K₂分别所在的文本框索引index₁、index₂，找出关键词i∈index₁、关键词j∈index₂，计算其对应的B_i、B_j之间的尺度系数SR和尺度距离系数SER，进而计算匹配系数PR，将PR的最小值对应的(i，j)作为关键词匹配对存入一集合P中；

一上下文提取模块，用于从集合P中依次取出一关键词匹配对p，p包含((B_l,K_l),(B_r,K_r))，并提取上下文文本行TextLine；根据p的两个中心点坐标，生成直线line；从分类结果{(B_i,K_i)}中找出属于TextLine的每一个(B_i,K_i)；计算B_i与line的距离DIS_i，以及B_i与B_l和B_r间的尺度系数SR_i，生成上下文候选队列Queue；将Queue中的元素根据line的方向排序，逐一计算邻接距离比AdR和尺度系数AdSR，据以更新TextLine；按照更新方向，将最靠近更新端点的两个元素作为新的p，并根据其两中心点坐标生成新的直线，执行与上述直线line相同的后续处理，重复处理，直至TextLine不再更新，输出最终的TextLine。

与现有的技术相比，本发明的优点在于：

1、可与任意主流的物体检测分类模型结合，生成包含上下文的关键词词条。

2、处理方法基于几何关系，方法简单，无需额外的训练过程。

3、方法适应性强，对复杂排版(如：水平、垂直、倾斜、透视、弯曲)下的中文关键词词条提取任务，有高精度的测试结果。

附图说明

图1是实施例中提供的本发明方法及系统的总体架构图。

图2是本发明方法的应用原理图。

图3A-3I是对本发明方法进行的实例测试图。

具体实施方式

为使本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合所附图作详细说明如下。

本发明公开的方法可通过本发明公开的系统的四个模块来实现，该四个模块包括准备模块、中文文字检测分类模块、关键词组合提取模块和上下文提取模块，架构如图1所示，原理如图2所示。具体说明如下：

1、准备模块：

S11：准备一个包含所需提取的中文关键词及其可能的上下文文字的训练集，对所选择的数据集进行预处理，该预处理包括标注每个中文文字的文本框、类别及每个中文文本行包含的文本框及文字内容，以构造中文单字的文本框标注及其以文字内容作为类别的标签，得到标注的数据集。

S12：通过标注的数据集训练一个合适的物体检测分类模型，该模型可选择任意的物体检测模型，如Faster R-CNN、SSD、Yolo等均可，也可以使用多分类的文字检测模型，或是基于非机器学习的文字检测分类模型，该模型需保证输出包含中文单字的文本框及所属类别(文字内容)。

2、中文文字检测分类模块：

S21：根据准备模块选择的物体检测分类模型要求，对待测试的目标图像进行如下预处理：保持图片长宽比例不变的情况下缩放至所需尺寸。

S22：将待测试的目标图像送入物体检测分类模型检测，得到分类结果{(B_i,K_i)}，其中B_i指的是文本框的相关属性，K_i指的是所属类别。

3、关键词组合提取模块：

S31：根据事先给定的中文关键词或根据词库统计选取的中文关键词，制定锚点关键词。假设某锚点关键词由类别K₁及K₂构成。

S32：从中文文字检测分类模块得到的结果{(B_i,K_i)}中选取K₁及K₂所在的文本框索引index₁和index₂。

S33：对index₁和index₂进行双重循环遍历，对于关键词i∈index₁，关键词j∈index₂，计算B_i和B_j的尺度系数(SR)及尺度距离系数(SER)，进而计算匹配系数(PR)。若PR满足规则：对于i而言每次存储使得PR最小的j的匹配对(i，j)，则将(i，j)对存入关键词匹配对集合P中。

上述步骤S31中，对于锚点关键词为多词结构，如ABC结构，则利用AB和BC分别进行后续步骤。

上述步骤S33中，对于集合P，可以用map结构或set等数据结构进行存储，以避免产生匹配的重复。

4、上下文提取模块：

S41：根据关键词组合提取模块产生的集合P，依次取出关键词匹配对p∈P，p包含两个文本框的相关属性((B_l,K_l),(B_r,K_r))，提取上下文。

S42：根据p的两个中心点坐标，生成直线line，直线line具有方向，其初始方向为K₁到K₂。使用p初始化上下文文本行TextLine，TextLine的初始元素即为{(B_l,K_l),(B_r,K_r)}。

S43：遍历选取中文文字检测分类模块得到的分类结果{(B_i,K_i)}\TextLine中每一个(B_i,K_i)。

S44：计算B_i与line的距离(DIS_i)以及B_i与B_l和B_r间的尺度系数(SR_i)。

S45：根据B_i对应DIS_i和SR_i取值，生成上下文候选队列Queue。并对Queue元素根据line方向进行排序。

S46：对Queue元素逐一计算邻接距离比(AdR)和尺度系数(AdSR)。

S47：根据S46结果更新TextLine，若TextLine有更新，则根据更新方向(首部、尾部)重新利用最靠近更新端点的两个元素作为新的p，并根据中心点坐标生成新的直线line。重复步骤S43至步骤S47直到TextLine不再更新。

S48：输出TextLine。

本发明提出的中文关键词及上下文提取方法是建立在文字检测分类模型之上的方法。在本例中，准备模块选取了CTW数据集作为本方法的数据集，SSD作为使用的物体检测分类网络架构，VGG-16作为分类网络的基础网络。对街景图像中出现的文字进行粗略统计后，选取了最常见的1000个单字作为了分类网络的类别标签。具体实施可根据实际需求，选择不同的数据集、不同的分类网络架构、不同的基础网络或不同的类别标注。根据SSD需要，对图像进行了裁切，训练过程中对每张图片裁切为196张168*168的子图，并缩放到512*512。

关键词组合提取模块中，本例选择了四个中文词汇作为关键词，分别为“中国”“酒店”“城市”和“宾馆”，如图3A-3I所示。对于B_i和B_j计算SR及尺度距离系数SER的公式如下：

其中

和

分别指的是B_i文本框的高度、宽度和中心点坐标，类似地，

和

分别指的是B_j文本框的高度、宽度和中心点坐标。

根据SR和SER可以计算出PR，计算公式如下：

而有效的匹配应为同一关键词匹配中计算PR值最低的一组。

上下文提取模块中，对于候选B_i的SR_i计算方法如下：

而由计算的DIS_i和SR_i生成候选队列时需要满足的关系为：

η₁＜SR_i＜η₂ (6)

其中η₁和η₂分别设定为1/2和2。对于Queue元素逐一计算AdR和AdSR的计算方法如下：

而由计算的AdR和AdSR生成文本行需要满足的关系为：

α₁＜AdR_i＜α₂ (10)

β₁＜AdSR_i＜β₂ (11)

其中α₁,β₁和α₂,β₂分别设定为1/2和2。

本发明提出的在自然场景图像中对中文关键词及上下文的提取方法，其测试环境及实验结果为：

(1)测试环境：

系统环境：CentOS7；

硬件环境：内存：64GB，GPU：GTX 1080，硬盘：2TB；

(2)实验数据：

训练数据：CTW训练集

测试数据：CTW测试集

评估方法：对关键词提取、上下文提取进行测试。

(3)实验结果：

为说明本发明的效果，对整体步骤流程进行了分步测试。由于关键词组合提取模块、上下文提取模块的效果是由中文文字检测分类模块所影响，以下实验测试结果仅针对使用具体实施方法中所述的基础网络框架作为检测框架下的实验测试结果。

表1关键词提取任务在CTW数据集中的效果表现

序号	关键词	P	R	F
					1	中国	0.76	1	0.86
2	酒店	0.84	1	0.92
					3	城市	0.62	1	0.96
4	宾馆	0.92	1	0.91
					5	平均值	0.79	1	0.91

其中P指准确率，R指召回率，F是P和R的调和平均数。从表1中可以清楚地看到，本发明所涉及到的关键词提取是有效的。若选取更为精准的物体检测模型，F值可以进一步得到提升。

表2上下文提取任务在CTW数据集中的效果表现

序号	关键词	P	R	F
					1	中国	0.92	0.94	0.93
2	酒店	0.95	0.99	0.96
					3	城市	0.85	0.99	0.91
4	宾馆	0.95	1	0.97
					5	平均值	0.92	0.96	0.94

其中P、R、F与前文相同。从表2中可以清楚地发现，针对提取出的中文关键词，上下文提取模块可以很好的提取到包含关键词的上下文信息。本模块的实验结果可以随着前面几个模块效果的提高而得到进一步提升。

以上实施例仅用以说明本发明的技术方案而非对其进行限制，本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明的精神和范围，本发明的保护范围应以权利要求书所述为准。

Claims

1.一种在自然场景图像中对中文关键词及上下文的提取方法，包括以下步骤：

根据事先给定的或词库统计选取的中文关键词制定锚点关键词，依次根据锚点关键词含有的相邻两个类别K₁、K₂，从分类结果{(B_i,K_i)}中选取该两个类别K₁、K₂分别所在的文本框索引index₁、index₂，找出关键词i∈index₁、关键词j∈index₂，计算其对应的B_i、B_j之间的尺度系数SR和尺度距离系数SER，进而计算匹配系数PR，将PR的最小值对应的(i，j)作为关键词匹配对存入一集合P中；其中计算对应的B_i、B_j之间的尺度系数SR和尺度距离系数SER的公式为：

其中，

和

分别指的是B_i文本框的高度、宽度和中心点坐标，

和

分别指的是B_j文本框的高度、宽度和中心点坐标；

从集合P中依次取出一关键词匹配对p，p包含((B_l,K_l),(B_r,K_r))，并提取上下文文本行TextLine，使用p初始化TextLine，则TextLine的初始元素为{(B_l,K_l),(B_r,K_r)}；

根据p的两个中心点坐标，生成直线line；

从分类结果{(B_i,K_i)}中找出属于TextLine的每一个(B_i,K_i)；

2.如权利要求1所述的方法，其特征在于，将含有所需提取的中文关键词及其可能的上下文文字的训练集，对所选择的数据集进行预处理，得到标注的数据集，该所选择的数据集包括CTW数据集，该预处理包括标注每个中文文字的文本框、类别及每个中文文本行包含的文本框及文字内容；

通过由标注的数据集训练所述物体检测分类模型，该标注的数据集包括中文单字的文本框标注及其以文字内容作为类别的标签。

3.如权利要求1所述的方法，其特征在于，所述物体检测分类模型包括Faster R-CNN、SSD、Yolo、多分类的文字检测模型、基于非机器学习的文字检测分类模型。

4.如权利要求1所述的方法，其特征在于，根据物体检测分类模型的要求，对目标图像进行裁剪，对裁剪的图片保持长宽比例不变进行缩放至所需尺寸。

5.如权利要求1所述的方法，其特征在于，依次根据锚点关键词含有的相邻两个类别K₁、K₂，是指若锚点关键词只含有两个类别A、B，则K₁＝A，K₂＝B；若锚点关键词含有两个以上类别A、B、C……，则第一次为K₁＝A，K₂＝B，第二次为K₁＝B，K₂＝C，第三次为K₁＝C，K₂＝……。

6.如权利要求1所述的方法，其特征在于，计算匹配系数PR的公式为：

由计算的距离DIS_i和尺度系数SR_i生成候选队列时需要满足的关系为：

η₁<SR_i<η₂；

其中，η₁和η₂分别设定为1/2和2。

7.如权利要求1所述的方法，其特征在于，对于Queue元素，逐一计算邻接距离比AdR和尺度系数AdSR的公式为：

而由计算的邻接距离比AdR和尺度系数AdSR更新文本行TextLine需要满足的关系为：

α₁<AdR_i<α₂；

β₁<AdSR_i<β₂；

其中，α₁,β₁和α₂,β₂分别设定为1/2和2。

8.如权利要求1所述的方法，其特征在于，集合P采用map或set的数据结构进行存储。

9.一种在自然场景图像中对中文关键词及上下文的提取系统，包括：

一关键词组合提取模块，依次根据锚点关键词含有的相邻两个类别K₁、K₂，从分类结果{(B_i,K_i)}中选取该两个类别K₁、K₂分别所在的文本框索引index₁、index₂，找出关键词i∈index₁、关键词j∈index₂，计算其对应的B_i、B_j之间的尺度系数SR和尺度距离系数SER，进而计算匹配系数PR，将PR的最小值对应的(i，j)作为关键词匹配对存入一集合P中；其中计算对应的B_i、B_j之间的尺度系数SR和尺度距离系数SER的公式为：

其中，

和

分别指的是B_i文本框的高度、宽度和中心点坐标，

和

分别指的是B_j文本框的高度、宽度和中心点坐标；