CN109165647A

CN109165647A - 一种图像中文本信息量的计算方法及装置

Info

Publication number: CN109165647A
Application number: CN201810960099.8A
Authority: CN
Inventors: 王晓珂
Original assignee: Beijing Muhua Mdt Infotech Ltd
Current assignee: Beijing Muhua Mdt Infotech Ltd
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2019-01-08

Abstract

本发明提供了一种图像中文本信息量的计算方法及装置，方法包括：获取待进行文本信息量计算的图像；根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数；根据所述图像中包含的所有的所述文本行的尺寸参数确定所述图像中所包含的文本信息量。如此，可以实现自动进行计算图像中的文本信息量。

Description

一种图像中文本信息量的计算方法及装置

技术领域

本发明涉及图像处理技术领域，具体而言，涉及一种图像中文本信息量的计算方法及装置。

背景技术

在进行教学视频播放过程中个，有时工作人员经常需要对教学视频进行截图，所截取的图像用于进行制作成为教学课件或者用于进行教学视频的宣传，该场景中出现最多的情况是学员在学习过程中进行截图，并且学员在进行截取教学视频的图像时，往往是需要截取包含有教学内容最多的图像，以获取最多的文本信息量。

现有技术中，在对教学视频进行截取图像时，如果是需要获取包含文字内容最多的图像，则需要人工进行查看并主观的判断所得到的图像中文字信息量的多少，具有效率较低的缺陷。

发明内容

有鉴于此，本发明的目的在于提供一种图像中文本信息量的计算方法和装置，以实现对图像中包含的文本信息量的计算。

第一方面，本发明实施例提供了一种图像中文本信息量的计算方法，，包括：

获取待进行文本信息量计算的图像；

根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数；

根据所述图像中包含的所有的所述文本行的尺寸参数确定所述图像中所包含的文本信息量。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述获取待进行文本信息量计算的图像，包括：

通过开源计算机视觉库openCV读取视频，加载所述视频帧至内存；

对所述视频的视频帧进行循环降采样，得到所述待进行文本信息量计算的图像。

结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述在获取待进行文本信息量计算的图像之后，在根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数之前，所述方法还包括：

对所述图像进行图像转换，得到灰度图。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述得到灰度图之后，所述方法还包括：

对所述灰度图进行人脸识别，根据识别的人脸图像进行确定所述图像中的人体的区域；

将所述人体的区域从所述图像中抠除，然后执行根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数的步骤。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述尺寸参数包括：文本行的长度与宽度；

所述根据所述图像中包含的所有的所述文本的尺寸参数确定所述图像中所包含的文本信息量，包括：

根据所述图像中包含的每个文本行的长度与宽度，计算得到每个文本行的单行的文本信息量；

将所述图像中包含的所有文本行的单行的文本信息量进行求和，得到所述图像中包含的文本信息量。

第二方面，本发明实施例还提供了一种图像中文本信息量的计算装置，包括：

获取模块，用于获取待进行文本信息量计算的图像；

第一确定模块，用于根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数；

第二确定模块，用于根据所述图像中包含的所有的所述文本行的尺寸参数确定所述图像中所包含的文本信息量。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，所述获取模块，具体用于：

对所述视频进行循环降采样，得到所述待进行文本信息量计算的图像。

结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，所述装置，还包括：

图像处理模块，用于对所述图像进行图像转换，得到灰度图。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，其中，所述图像处理模块，还用于：

将所述人体的区域从所述图像中抠除。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实施方式，其中，所述尺寸参数包括：文本行的长度与宽度；

所述第二确定模块，包括：

计算单元，用于根据所述图像中包含的每个文本行的长度与宽度，计算得到每个文本行的单行的文本信息量；

求和单元，用于将所述图像中包含的所有文本行的单行的文本信息量进行求和，得到所述图像中包含的文本信息量。

本发明实施例提供的一种图像中文本信息量的计算方法及装置，获取待进行文本信息量计算的图像，根据该图像和预先设置的文本检测模型改进行确定图像中所包含的文本行的尺寸参数，根据该尺寸参数进行确定图像中所包含的文本信息量，相对于现有技术中的由人工进行对图片逐一查看选择的方式相比具有效率高的积极效果。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明一个实施例所提供的一种图像中文本信息量的计算方法的流程图；

图2示出了本发明一个实施例所提供的确定所述图像中所包含的文本信息量的方法的流程图；

图3示出了本发明另一个实施例所提供的一种图像中文本信息量的计算装置的结构示意图；

图4示出了本发明又一个实施例所提供的一种图像中文本信息量的计算装置的第二模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有技术中，在从教学视频中获取包含的信息量比较多的视频截图时，需要由人工进行对图像查看好筛选，效率较低；基于此，本发明实施例提供了一种图像中文本信息量的计算方法及装置，下面通过实施例进行描述。

图1示出了本申请一个实施例提供的中图像中文本信息量的计算方法的流程图。参照图1所示，该方法包括如下步骤：

S101获取待进行文本信息量计算的图像。

上述的图像可以是从视频中获取的图像，具体的，上述获取待进行文本信息量计算的图像包括如下步骤A10-A12：

A10、通过openCV读取视频，加载所述视频帧至内存。

A12、对所述视频的视频帧进行循环降采样，得到所述待进行文本信息量计算的图像。

因为视频的帧率一般25或者更高，本实施例中进行降采样，优选地，降采样到5帧/秒，如此便可以实现，在不影响计算质量的前提下可以减小图像的计算量的积极效果。

S102根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数。

上述的预先设置的文本检测模型包括：CTPN深度神经网络模型。通过将上述的输入至该CTPN神经网络模型，经过该CTPN神经网络模型的计算得到该图像中的文本行的长度与宽度。

S103根据所述图像中包含的所有的所述文本行的尺寸参数确定所述图像中所包含的文本信息量。

本申请一可能的实施例中，在上述步骤S101、获取待进行文本信息量计算的图像之后，在上述步骤S103、根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数之前，还包括如下步骤：

A20、对所述图像进行图像转换，得到灰度图。

本实施例中在获取待进行文本信息量计算的图像以后，对该图像进行图像转换，得到灰度图，然后进行根据该灰度图和预先设置的文本检测模型，确定图像中所包含的文本行的尺寸参数。

本实施例中，对图像进行该处理，转换成为灰度图，可以减小内存的占用，并提高处理的速度。

本申请另一实施例中，上述的在得到灰度图以后，还包括如下步骤A30：

A30、对所述灰度图进行人脸识别，根据识别的人脸图像进行确定所述图像中的人体的区域。

A32、将所述人体的区域从所述图像中抠除。

本实施例中，上述对灰度图进行人脸识别，并根据识别的人脸图像进行确定灰度图中的人体的区域，可以是通过以下方式实现的：

在得到灰度图以后，可以是通过现有技术中的人脸识别算法(例如dlib model等)，进行检测灰度图中是否包含有人脸图像，并标记人脸中的面部特征器官，如眼睛，的轮廓特征点。

提取人脸图像中的眼睛的轮廓特征点和该轮廓特征点的坐标。利用现有技术在得到眼睛的轮廓特征点以后，就可以得到该轮廓特征点的坐标。

基于眼睛的轮廓特征点的坐标，确定眼睛的瞳孔的位置坐标。具体的，可以是包括如下步骤：

B10、设定眼睛轮廓特征点的坐标所对应的目标方程a为第一系数，b为第二系数，x、y为坐标。

本实施例中，将眼睛的轮廓形状近似为椭圆，因此将椭圆的方程作为眼睛的轮廓特征点的坐标所对应的目标方程。

B12、从眼睛的轮廓特征点中选取标记点，标记点的坐标为已知。

在通过现有技术识别图像中所包含的人脸图像，并提取了该人脸图像中的眼睛的轮廓特征点以及该轮廓特征点的坐标以后，从所有的轮廓特征点中选取特定的轮廓特征点作为标记点，该标记点的坐标为已知状态。

B14、通过标记点的坐标和选取的第一系数和第二系数，对目标方程进行测试，得到使目标方程的计算值与实际值之间的均方误差最小的目标方程的第一系数和第二系数。

具体的，通过上述的标记点的坐标和选取的第一系数和第二系数进行拟合，基于最小二乘法进行定义损失函数f_loss＝∑(y’-y)²，其中y’是通过将坐标点的横坐标x’和选取的第一系数和第二系数和上述的目标方程计算得到的结果值，其中y为标记点的实际坐标，通过利用SGD优化算法，来迭代逼近f_loss函数的最优解，最终得到的最优解就是最好的第一系数a(短轴),第二系数b(长轴)。

B16、根据第一系数和第二系数，确定眼睛的瞳孔的位置坐标。

将该眼睛的瞳孔的位置坐标看作是椭圆方程中长轴与短轴的交点的位置坐标；进而在确定上述的目标方程的第一系数和第二系数以后就可以得眼睛的瞳孔的位置坐标。

在得到瞳孔的位置坐标以后，确定了两个瞳孔所在的直线，以及如果两个瞳孔之间的距离为L₀，计算与左眼瞳孔之间的水平距离为2L₀(也可以是别的数值，根据具体情况而定)的位于所述左眼瞳孔左侧的第一边缘线的坐标，以及计算与右眼瞳孔之间的水平距离为2L₀的位于所述右眼瞳孔右侧的第二边缘线的坐标，其中，第一边缘线与第二边缘线与图像的下边缘垂直，以第一边缘线、第二边缘线、照片的下边缘线、两个瞳孔所在的直线所组成的区域确定为人体的区域。

图2为本发明一个实施例所提供的确定所述图像中所包含的文本信息量的方法的流程图。参照图2所示，经过该CTPN神经网络模型的计算得到该图像中的文本行的长度与宽度后，通过以下步骤S201-S202确定所述图像中所包含的文本信息量：

S201、根据所述图像中包含的每个文本行的长度与宽度，计算得到每个文本行的单行的文本信息量。

S202、将所述图像中包含的所有文本行的单行的文本信息量进行求和，得到所述图像中包含的文本信息量。

由于文本行中包含的字数是不定的，而且文本行中的字体的大小也可能是不同的，通过上述每个文本行的长度与宽度的比例可以计算得到所包含的字符的多少。因此，本申请实施例中，优选地，通过每个文本行的长度与宽度的比例，计算得到每个文本行的单行的文本信息量，将所有的文本行的单行的文本信息量进行求和，得到该图像中包含的文本信息量。

在进行图像自动筛选时，可以将该文本信息量与预设值进行比较，当文本信息量大于该预设值时，认为该图像的文本信息量达到预设的要求。如此可以实现对视频的自动截图和自动筛选，具有效率高的积极效果。

图3为本申请实施例提供的一种图像中文本信息量的计算装置的结构示意图。参照图3所示，该装置包括：

获取模块301，用于获取待进行文本信息量计算的图像；

第一确定模块302，用于根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数；

第二确定模块303，用于根据所述图像中包含的所有的所述文本行的尺寸参数确定所述图像中所包含的文本信息量。

本申请一可选的实施例中，上述获取模块301，具体用于：

本申请一可选的实施例中，上述装置还包括：

本申请一可选的实施例中，上述的图像处理模块，还用于：

将所述人体的区域从所述图像中抠除。

图4为本申请实施例提供的一种图像中文本信息量的计算装置的第二模块的结构示意图。参照图4所示，所述尺寸参数包括：文本行的长度与宽度；

上述的第二确定模块303，包括：

计算单元3031，用于根据所述图像中包含的每个文本行的长度与宽度，计算得到每个文本行的单行的文本信息量；

求和单元3032，用于将所述图像中包含的所有文本行的单行的文本信息量进行求和，得到所述图像中包含的文本信息量。

本发明实施例所提供的进行图像中文本信息量的计算方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

本发明实施例所提供的一种图像中文本信息量的计算方法的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种图像中文本信息量的计算方法，其特征在于，包括：

获取待进行文本信息量计算的图像；

2.根据权利要求1所述的方法，其特征在于，所述获取待进行文本信息量计算的图像，包括：

通过开源计算机视觉库openCV读取视频，加载视频帧至内存；

3.根据权利要求1所述的方法，其特征在于，所述在获取待进行文本信息量计算的图像之后，在根据所述图像和预先设置的文本检测模型，确定所述图像中所包含的文本行的尺寸参数之前，所述方法还包括：

对所述图像进行图像转换，得到灰度图。

4.根据权利要求3所述的方法，其特征在于，所述得到灰度图之后，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述尺寸参数包括：文本行的长度与宽度；

6.一种图像中文本信息量的计算装置，其特征在于，包括：

获取模块，用于获取待进行文本信息量计算的图像；

7.根据权利要求6所述的装置，其特征在于，所述获取模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，还包括：

9.根据权利要求8所述的装置，其特征在于，所述图像处理模块，还用于：

将所述人体的区域从所述图像中抠除。

10.根据权利要求1所述的装置，其特征在于，所述尺寸参数包括：文本行的长度与宽度；

所述第二确定模块，包括：