CN112001389A

CN112001389A - 一种多场景视频中文本信息识别方法、装置及电子设备

Info

Publication number: CN112001389A
Application number: CN202011183348.0A
Authority: CN
Inventors: 张彤彤
Original assignee: Beijing Qiyu Information Technology Co Ltd
Current assignee: Beijing Qiyu Information Technology Co Ltd
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2020-11-27

Abstract

本发明公开了一种多场景视频中文本信息识别方法、装置及电子设备，所述方法包括：从多场景视频中选取多张图片组成视频图片集；通过特征匹配从所述视频图片集中定位待识别场景的图片；对所述待识别场景的图片进行文本识别，得到识别文本；提取所述识别文本中的文本信息。本发明通过特征匹配快速的从视频图片中定位待识别场景的图片，省去了对大量无效视频图片进行STR识别的过程，可以大大提升文本识别效率，缩短识别时间，提升用户体验。

Description

一种多场景视频中文本信息识别方法、装置及电子设备

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种多场景视频中文本信息识别方法、装置、电子设备及计算机可读介质。

背景技术

在风控场景里，为了防止用户信息造假，业务员会让申请用户录制与业务所需个人信息相关的视频，然后从视频中提取特定的文本信息（比如姓名、身份证号码等），供风控使用。

一般这些文本信息出现在不同的场景中，即出现在视频的不同图片中，因此，需要从特定的图片中提取这些文本信息。目前通用的方法是：遍历视频每一帧做场景文字识别（Scene Text Recognition，STR），即识别自然场景图片中的文字信息。这种方式虽然能保证找到所需场景的文本信息，但SRT识别需要先定位文本位置，再提取文本信息，其对一副图片进行识别需要的时间就很长，若对视频中每一帧图片都进行STR识别，显然会导致识别时间过长、识别效率低下的问题。

发明内容

本发明旨在解决多场景视频中文本信息识别效率低、识别时间过长的技术问题。

为了解决上述技术问题，本发明第一方面提出一种多场景视频中文本信息识别方法，所述方法包括：

从多场景视频中选取多张图片组成视频图片集；

通过特征匹配从所述视频图片集中定位待识别场景的图片；

对所述待识别场景的图片进行文本识别，得到识别文本；

提取所述识别文本中的文本信息。

根据本发明一种优选的实施方式，所述通过特征匹配从所述视频图片集中定位待识别场景的图片包括：

获取待识别场景的标准图片；

通过尺度不变特征变换SIFT特征匹配所述标准图片与所述视频图片集中的图片；

将所述视频图片集中与所述标准图片形成特征匹配点的数量大于第一预设数量的图片定位为待识别场景图片。

根据本发明一种优选的实施方式，所述方法还包括：

若所述视频图片集中各个图片与所述标准图片形成特征匹配点的数量均小于第二预设数量，提示图片质量低；

所述第一预设数量大于所述第二预设数量。

根据本发明一种优选的实施方式，通过文本识别CPTN网络对所述待识别场景的图片进行文本识别。

根据本发明一种优选的实施方式，从多场景视频中每隔预设时间段选取预定数量的视频图片组成视频图片集。

根据本发明一种优选的实施方式，所述待识别场景的标准图片包括：绑定银行卡页面的图片、验证用户身份页面的图片、用户资源归还页面的图片中的至少一种。

为了解决上述技术问题，本发明第二方面提供一种多场景视频中文本信息识别的装置，所述装置包括：

选取模块，用于从多场景视频中选取多张图片组成视频图片集；

匹配模块，用于通过特征匹配从所述视频图片集中定位待识别场景的图片；

识别模块，用于对所述待识别场景的图片进行文本识别，得到识别文本；

提取模块，用于提取所述识别文本中的文本信息。

根据本发明一种优选的实施方式，所述匹配模块包括：

获取模块，用于获取待识别场景的标准图片；

子匹配模块，用于通过尺度不变特征变换SIFT特征匹配所述标准图片与所述视频图片集中的图片；

定位模块，用于将所述视频图片集中与所述标准图片形成特征匹配点的数量大于第一预设数量的图片定位为待识别场景图片。

根据本发明一种优选的实施方式，所述装置还包括：

提示模块，用于若所述视频图片集中各个图片与所述标准图片形成特征匹配点的数量均小于第二预设数量，提示图片质量低；

其中，所述第一预设数量大于所述第二预设数量。

根据本发明一种优选的实施方式，所述识别模块通过文本识别CPTN网络对所述待识别场景的图片进行文本识别。

根据本发明一种优选的实施方式，所述选取模块从多场景视频中每隔预设时间段选取预定数量的视频图片组成视频图片集。

为解决上述技术问题，本发明第三方面提供一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行上述的方法。

为了解决上述技术问题，本发明第四方面提出一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现上述方法。

本发明先通过特征匹配从视频图片中定位少量几张待识别场景的图片；再通过STR对待识别场景的图片进行文本识别并提取文本信息。本发明通过特征匹配快速的从视频图片中定位待识别场景的图片，省去了对大量无效视频图片进行STR识别的过程，可以大大提升文本识别效率，缩短识别时间，提升用户体验。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是本发明一种多场景视频中文本信息识别方法的流程示意图；

图2是本发明SIFT特征匹配的示意图；

图3是本发明一种多场景视频中文本信息识别装置的结构框架示意图；

图4是根据本发明的一种电子设备的示例性实施例的结构框图；

图5是本发明一个计算机可读介质实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

请参阅图1，图1是本发明提供的一种多场景视频中文本信息识别方法的流程图，如图1所示，所述方法包括：

S1、从多场景视频中选取多张图片组成视频图片集；

本发明中，多场景视频可以是业务员拍摄的包含业务所需申请用户个人信息的视频。例如在信贷业务中，多场景视频可以是申请用户通过客户端（如手机）app指定页面进行与信贷业务相关的个人信息输入或者确定的视频。其中，与信贷业务相关的个人信息的输入或者确定可以是：用户通过绑定银行卡页面进行个人银行账户信息的输入或者确认、用户通过验证用户身份页面进行个人身份验证、或者用户通过用户资源归还页面进行个人资源归还信息的确认等。所述资源归还信息可以包括：资源归还分期类型、每期资源归还日、每期资源归还量等。

本步骤中，可以从多场景视频中每隔预设时间段选取预定数量的视频图片组成视频图片集。例如，从多场景视频中每秒选取3张视频图片组成视频图片集。

S2、通过特征匹配从所述视频图片集中定位待识别场景的图片；

所述特征匹配是指将从图片中提取的特征（即有意义的图像区域）作为共轭实体，而将所提特征属性或描述参数（实际上是特征的特征，也可以认为是图片的特征）作为匹配实体，通过计算匹配实体之间的相似性测度以实现共轭实体配准的图片匹配方法。

本发明中，特征匹配算法具体可以是ORB（Oriented FAST and Rotated BRIEF）、SURF（Speed Up Robust Features）算法，或者尺度不变特征变换（Scale-InvariantFeature Transform，SIFT）算法。本发明优选SIFT特征匹配。SIFT特征对旋转、尺度缩放、亮度变化等保持不变性，是一种非常稳定的局部特征。具体的，本步骤包括：

S21、获取待识别场景的标准图片；

本发明中，可以根据实际中要识别的文本信息设置待识别场景的标准图片，其中，该待识别场景的标准图片中包含要识别的文本信息。以信贷业务中识别申请用户的身份号码、银行卡或者资源归还信息为例，所述待识别场景的标准图片包括：绑定银行卡页面的图片、验证用户身份页面的图片、用户资源归还页面的图片中的至少一种。

S22、通过尺度不变特征变换SIFT特征匹配所述标准图片与所述视频图片集中的图片；

SIFT算法的实质是在不同的尺度空间上查找关键点（特征点），计算关键点的大小、方向、尺度信息，利用这些信息组成关键点对特征点进行描述，并对比特征点对应关键点信心完成对特征点的匹配。一般情况下，SIFT所查找的关键点都是一些十分突出，不会因光照，仿射便函和噪声等因素而变换的“稳定”特征点，如角点、边缘点、暗区的亮点以及亮区的暗点等。

如图2所示，本发明的SIFT特征匹配可以包括特征点提取和特征点匹配两个步骤。其中，特征点提取是分别提取标准图片和视频图片集中的图片的特征点，对应生成标准特征点集和图片特征点集。具体特征点的提取可以包括以下步骤：

S211、生成高斯差分金字塔，构建尺度空间。

具体的，通过对图像进行尺度变换，获得图像多尺度下的尺度空间表示序列，对这些序列进行尺度空间主轮廓的提取，并以该主轮廓作为一种特征向量，实现边缘、角点检测不同分辨率上的关键点提取等，生成高斯差分金字塔（DOG金字塔）。

S212、空间极值点检测；

将图片中每一个像素点与它所有的相邻像素点进行比较，判断所述相邻像素点是否比它的图像域和尺度空间域的相邻点大或者小。例如，在二维图像空间，中心点与它3*3邻域内的8个点做比较，在同一组内的尺度空间上，中心点和上下相邻的两层图像的2*9个点作比较，如此可以保证检测到的关键点在尺度空间和二维图像空间上都是局部极值点。

S213、稳定关键点的精确定位；

DOG值对噪声和边缘比较敏感，所以步骤S212的尺度空间中检测到的局部极值点还要经过进一步的筛选，去除不稳定和错误检测出的极值点。

S214、稳定关键点方向信息分配

稳定的极值点是在不同尺度空间下提取的，这保证了关键点的尺度不变性。进一步还需要对关键点分配方向信息，使得关键点对图像角度和旋转具有不变性。具体方向信息的分配是通过求每个极值点的梯度来实现的。

具体的，计算以关键点为中心的邻域内所有点的梯度方向，梯度方向在0~360°范围内，对这些梯度方向归一化到36个方向内，每个方向代表了10°的范围。然后累计落到每个方向内的关键点个数，以此生成梯度方向直方图。将梯度方向直方图中纵坐标最大的项代表的方向分配给当前关键点作为主方向，若在梯度直方图中存在一个相当于主峰值80%能量的峰值，则将这个方向认为是关键点的辅方向。辅方向的设计可以增强匹配的鲁棒性。

S215、关键点描述

具体的，对关键点周围像素区域分块，计算块内梯度直方图，生成具有独特性的向量，这个向量是该区域图像信息的一种抽象表述。

在提取特征点后，再对标准特征点集和视频特征点集进行特征匹配。具体特征点的匹配是通过计算两组特征点的128维的关键点的欧式距离实现的。欧式距离越小，则相似度越高，当欧式距离小于设定的阈值时，可以判定为匹配成功，确定这两组特征点形成特征匹配点。

S23、将所述视频图片集中与所述标准图片形成特征匹配点的数量大于第一预设数量的图片定位为待识别场景图片。

本发明中第一预设数据可以根据识别精度来设置。例如，可以将第一预设数量设置为标准图片中特征点数量的70%。

进一步的，通过视频图片集中各个图片与标准图片形成特征匹配点的数量的比较，还可以确定视频图片集的图片拍摄质量。因此，在本发明中，若所述视频图片集中各个图片与所述标准图片形成特征匹配点的数量均小于第二预设数量，确定视频图片的拍摄质量比较低，提示图片质量低，以便业务员从新拍摄质量比较高的用户视频。

其中，所述第一预设数量大于所述第二预设数量。所述第二预设数量可以根据对图片质量的要求设置，比如，可以将第二预设数量设置为标准图片中特征点数量的20%。

在本发明的另一种实施方式中，可以将所述视频图片集中与所述标准图片形成特征匹配点的数量进行排序，将视频图片集中特征匹配点数量排在预设前几位（如预设前5位）的图片定位为待识别场景图片。

S3、对所述待识别场景的图片进行文本识别，得到识别文本；

本发明在对视频图片集中的图片进行SIFT特征匹配后，能够从大量的视频图片集中快速定位到几张待识别场景的图片，随后对这几张待识别场景的图片进行场景文字识别（Scene Text Recognition，STR）。STR一般被分割成检测和识别两个步骤。前者的目标是从图片中尽可能准确的找出文本所在区域，后者的目标则是将文本所在区域中的单个字符识别出来。

当然上述文本检测和识别也可以用一套统一的框架解决，本发明具体通过文本识别CPTN网络对所述待识别场景的图片进行文本识别。CPTN是一种先检测文本区域，再找出文本线的文本检测方法。具体在文本区域检测时，先用卷积神经网络CNN得到深度特征，然后用固定宽度的anchor来检测text proposal（文本线的一部分），并把同一行anchor对应的特征串成序列，输入到循环神经网络RNN中，最后用全连接层来分类或回归，并将正确的text proposal进行合并成文本线。CPTN网络把RNN和CNN无缝结合，提高了检测精度。

S4、提取所述识别文本中的文本信息。

可以通过现有的文本提取工具提取并显示已识别的文本信息。

图3是本发明一种多场景视频中文本信息识别装置的架构示意图，如图3所示，所述装置包括：

选取模块31，用于从多场景视频中选取多张图片组成视频图片集；

匹配模块32，用于通过特征匹配从所述视频图片集中定位待识别场景的图片；

识别模块33，用于对所述待识别场景的图片进行文本识别，得到识别文本；

提取模块34，用于提取所述识别文本中的文本信息。

在一种具体实施方式中，所述匹配模块32包括：

获取模块321，用于获取待识别场景的标准图片；

子匹配模块322，用于通过尺度不变特征变换SIFT特征匹配所述标准图片与所述视频图片集中的图片；

定位模块323，用于将所述视频图片集中与所述标准图片形成特征匹配点的数量大于第一预设数量的图片定位为待识别场景图片。

进一步的，所述装置还包括：

提示模块35，用于若所述视频图片集中各个图片与所述标准图片形成特征匹配点的数量均小于第二预设数量，提示图片质量低；

其中，所述第一预设数量大于所述第二预设数量。

本发明中，所述识别模块33通过文本识别CPTN网络对所述待识别场景的图片进行文本识别。

所述选取模块31从多场景视频中每隔预设时间段选取预定数量的视频图片组成视频图片集。

优选的，所述待识别场景的标准图片包括：绑定银行卡页面的图片、验证用户身份页面的图片、用户资源归还页面的图片中的至少一种。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于：至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件（包括存储单元420和处理单元410）的总线430、显示单元440等。

其中，所述存储单元420存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行，使得所述处理单元410执行本发明各种实施方式的步骤。例如，所述处理单元410可以执行如图1所示的步骤。

所述存储单元420可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（RAM）4201和/或高速缓存存储单元4202，还可以进一步包括只读存储单元（ROM）4203。所述存储单元420还可以包括具有一组（至少一个）程序模块4205的程序/实用工具4204，这样的程序模块4205包括但不限于：操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线430可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备400也可以与一个或多个外部设备300（例如键盘、显示器、网络设备、蓝牙设备等）通信，使得用户能经由这些外部设备300与该电子设备400交互，和/或使得该电子设备400能与一个或多个其它数据处理设备（例如路由器、调制解调器等等）进行通信。这种通信可以通过输入/输出（I/O）接口450进行，还可以通过网络适配器460与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白，尽管图4中未示出，电子设备400中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。

图5是本发明的一个计算机可读介质实施例的示意图。如图5所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：从多场景视频中选取多张图片组成视频图片集；通过特征匹配从所述视频图片集中定位待识别场景的图片；对所述待识别场景的图片进行文本识别，得到识别文本；提取所述识别文本中的文本信息。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质（可以是CD-ROM，U盘，移动硬盘等）中或网络上，包括若干指令以使得一台数据处理设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等，还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（LAN）或广域网（WAN），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

综上所述，本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器（DSP）等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种多场景视频中文本信息识别的方法，其特征在于，所述方法包括：

从多场景视频中选取多张图片组成视频图片集；

通过特征匹配从所述视频图片集中定位待识别场景的图片；

对所述待识别场景的图片进行文本识别，得到识别文本；

提取所述识别文本中的文本信息。

2.根据权利要求1所述的方法，其特征在于，所述通过特征匹配从所述视频图片集中定位待识别场景的图片包括：

获取待识别场景的标准图片；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

所述第一预设数量大于所述第二预设数量。

4.根据权利要求3所述的方法，其特征在于，通过文本识别CPTN网络对所述待识别场景的图片进行文本识别。

5.根据权利要求1所述的方法，其特征在于，从多场景视频中每隔预设时间段选取预定数量的视频图片组成视频图片集。

6.根据权利要求2所述的方法，其特征在于，所述待识别场景的标准图片包括：绑定银行卡页面的图片、验证用户身份页面的图片、用户资源归还页面的图片中的至少一种。

7.一种多场景视频中文本信息识别的装置，其特征在于，所述装置包括：

提取模块，用于提取所述识别文本中的文本信息。

8.一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。

9.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现权利要求1-6中任一项所述的方法。