CN106034254B

CN106034254B - 一种实现与视频中文字进行交互操作的方法及系统

Info

Publication number: CN106034254B
Application number: CN201510121267.0A
Authority: CN
Inventors: 王邦军; 吴安华
Original assignee: ThunderSoft Co Ltd
Current assignee: ThunderSoft Co Ltd
Priority date: 2014-11-26
Filing date: 2015-03-19
Publication date: 2019-09-27
Anticipated expiration: 2035-03-19
Also published as: CN106034254A

Abstract

本发明提供一种实现与视频中文字进行交互操作的方法，包括步骤：A、预读将要播放的视频图像帧；B、识别所述帧的图像所包含的文字的于图像中的位置和文字内容；C、在所述视频图像帧播放时，将所识别出的所述文字以可被操作、且透明格式叠加在该帧图像中所述文字的对应位置显示。对应的，还提供一种实现与视频中文字进行交互操作的系统，通过解析视频图像，识别视频图像中的文字，并将识别后的文字以透明方式叠加在视频图像上对应文字的位置，从而使得用户通过与识别后的文字进行的交互操作实现用户与对应文字的交互操作。

Description

一种实现与视频中文字进行交互操作的方法及系统

技术领域

本发明涉及视频交互领域，特别涉及一种实现与视频中文字进行交互操作的方法及系统。

背景技术

随着科技进步，人们已经逐渐开始习惯在互联网上进行学习和生活。近年来网络带宽飞速提高。通过视频来分享生活的点滴，已经是继文字分享和图片分享之后新的分享方式。也有很多人以在互联网上观看其他人录制的教学视频作为重要的知识获取方式。通过视频分享，可以大大降低成本，想对于书本，也更见贴近于实践，并且可以让朋友更直观的了解自己想要表达的内容。

但是视频有一个弊端，人们无法与视频中的文字进行交互。如，通过视频向朋友分享一段名言，这句名言出现在视频画面中，朋友无法复制，只能重新输入，才能获取文本；又如，通过视频向学员教授一段程序，学员不能直接复制这段程序的代码，只能通过照着视频重新输入，才能获取；或者，一段广告视频，当出现购买的网页链接时，观众不能直接点击这个网页链接就跳转到购物页面。

上述的原因是，所述文字出现在视频画面中，是以画面的一部分存在的，是所述视频帧画面的一部分，因此用户无法选取、复制、点击等交互操作。

发明内容

为了解决上述问题，本发明的目的在于提供一种实现与视频中文字进行交互操作的方法及系统，通过解析视频图像，识别视频图像中的文字，并将识别后的文字以透明方式叠加在视频图像上对应文字的位置，从而使得用户通过与识别后的文字进行的交互操作实现用户与对应文字的交互操作。其中，实现与视频中文字进行交互操作的方法包括步骤：

A、预读将要播放的视频图像帧；

B、识别所述帧的图像所包含的文字的于图像中的位置和文字内容；

C、在所述视频图像帧播放时，将所识别出的所述文字以可被操作、且透明格式叠加在该帧图像中所述文字的对应位置显示。

由上，通过解析视频图像，识别视频图像中的文字，并将识别后的文字以透明方式叠加在视频图像上对应文字的位置，从而使得用户通过与识别后的文字进行的交互操作实现用户与对应文字的交互操作。

可选的，步骤B还包括：识别所述帧的图像所包含的文字所占位图的宽度和长度；

步骤C还包括：将所识别的所述文字进行字号或字符宽度的调整，以填充所述帧图像中所述文字的对应宽度和长度的空间。

由上，使得所识别并叠加的文字完美的覆盖原视频图像中的文字，提高用户的使用体验效果。

可选的，步骤B所述识别为采用光学字符识别方法进行识别。

可选的，步骤B还包括：

判断所识别的文字是否具有链接特征，若是，则设置为可被点击操作的超链接格式，否则设置为可被操作的文本格式。

由上，可使用户方便的通过链接查看文字，尤其方便于查看链接中可能提供的购物链接或新闻等。

可选的，步骤C包括：

创建一透明的叠加层；

对所解析出的文字以可被操作、且透明格式添加于所述叠加层上；

所述叠加层与所述帧的视频图像的时间属性设置相同，在所述视频图像帧播放时，将对应时间属性的叠加层于所述视频图像帧上叠加播放。

由上，实现使得用户通过与识别后的文字进行的交互操作实现用户与对应文字的交互操作。

可选的，步骤B后还包括：对所识别的文字进行违规检查。

由上，可保证用户的使用安全，规避钓鱼网站或、病毒网站或不健康内容等。

可选的，步骤B后还包括：

判断缓存的所识别的连续帧的图像分别包含的文字的位置和内容相同、且帧数超过设定数量时，执行步骤C，若帧数未超过设定数量时，则返回步骤A。

由上，避免当文字在视频播放过程中出现时间很短，用户来不及操作的情况。

本发明所提供的实现与视频中文字进行交互操作的系统包括：

视频图像预读模块，用于预读将要播放的视频图像帧；

文字解析模块，与所述视频图像预读模块连接，用于识别所述帧的图像所包含的文字的于图像中的位置和文字内容；

文字叠加模块，分别与所述视频图像预读模块和文字解析模块连接，用于在所述视频图像帧播放时，将所识别出的所述文字以可被操作、且透明格式叠加在该帧图像中所述文字的对应位置显示。

可选的，所述文字叠加模块包括：

叠加内容添加模块，用于依据所述视频图像预读模块所将要播放的视频图像帧的高度和宽度，创建一层透明的大小与视频图像帧相同的叠加层，并覆盖在当前视频图像上；

叠加内容生成模块，用于，判断所识别的文字是否具有链接特征，若是，则设置为可被点击操作的超链接格式，否则设置为可被操作的文本格式；

叠加内容更新模块，用于将所识别出的所述文字以可被操作、且透明格式叠加在该帧图像中所述文字的对应位置显示；

叠加控制模块，分别与所述叠加内容添加模块、叠加内容生成模块和叠加内容更新模块连接，用于上述三者之间的数据传输统筹。

可选的，所述文字叠加模块还包括：存储模块，存储有预警数据库；

所述叠加内容生成模块还用于依据预警数据库对所识别的文字进行违规检查。

附图说明

图1实现与视频中文字进行交互操作系统的结构示意图；

图2实现与视频中文字进行交互操作方法的流程图；

图3为与视频中文字进行交互的原理示意图；

具体实施方式

本发明所公开的一种实现与视频中文字进行交互操作的方法及系统，通过解析视频图像，识别视频图像中的文字，并将识别后的文字以透明方式叠加在视频图像上对应文字的位置，从而使得用户通过与识别后的文字进行的交互操作实现用户与对应文字的交互操作。

如图1所示，实现与视频中文字进行交互的系统包括相互连接的视频图像预读模块11和文字解析模块12，以及分别与二者连接的文字叠加模块13。

其中，视频图像预读模块11用于预读取视频当前帧图像的下一帧或依次读取要播放的多帧图像。以读取下一帧图像为例，其具体工作方式为：首先判断播放当前帧图像的时间，接着取下一帧图像，并将当前帧图像和下一帧图像，以及两图像出现的时间输出。不难理解，根据设置的缓存的大小，视频图像预读模块11可以将要播放的多帧图像都进行上述预读操作，以及进行后续的步骤。

文字解析模块12与所述视频图像预读模块11连接，用于对所述视频预读模块11发送过来的图像进行解析，以判断图像中是否有文字。具体判断方法可依据光学字符识别技术(OCR，Optical Character Recognition)光学字符识别)检查图像，其判断原理对图像进行扫描，然后对图像进行分析处理，获取文字及版面信息的过程。具体包括对输入图像的预处理，包括二值化，噪声去除，倾斜较正等；此后将图片中的文字进行分段、分行以及字符分割处理；最终通过特征提取已完成字符识别，进一步的，将文字依照在图片中的段落排列进行排版恢复，最后根据特定的语言上下文的关系，对识别结果进行较正。

进一步的，文字解析模块12还用于记录所识别出文字的位置并输出。例如现有高清电视机的分辨率为1920x1080，文字解析模块12记录所识别出文字所占的像素的具体位置，由此可判断出所识别出的文字在整个画面中的位置，以便于文字叠加模块13进行文字叠加时，对应图像中文字位置，将文字叠加至相应的位置。

文字叠加模块13分别与所述视频图像预读模块11和文字解析模块12连接，用于将所解析出的文字叠加至下一帧图像中。具体的，所述文字叠加模块13包括叠加控制模块131，以及分别与其连接的叠加内容添加模块132、叠加内容生成模块133和叠加内容更新模块134。

所述叠加内容添加模块132用于通过视频图像预读模块11所预读出的下一帧图像获取视频图像的高度和宽度，并依据所获取的高度和宽度创建一层透明的大小与视频图像相同的叠加层，并覆盖在视频图像上。

叠加内容生成模块133用于将文字解析模块12所解析出的文字进行再生成。叠加内容生成模块133获取文字解析模块12识别出文字内容和位置后进行相应的排版，以在进行文字叠加时，将文字叠加至对应图像中文字原来的相应位置，并且，还进一步判断文字是否为网页链接，如果为网页链接，则将文字处理为超链接，以使用户可以点击操作；如果不为网页链接，则将文字处理为可以复制的文字，即普通的文本。

进一步的，还包括一存储模块(未图示)，与叠加内容生成模块133连接，存储模块中预存有预警数据库。预警数据库中包括钓鱼网站、限制网站或违规词句等内容，叠加内容生成模块133依据预警数据库对违规内容或网站进行过滤，当判断文字解析模块12所解析出的文字或网址违规时，便自动阻止。所述存储模块中的预警数据库可通过网络进行更新。

叠加内容更新模块134首先清除叠加层所显示的内容，此后将叠加内容生成模块133传送过来文字内容依照该文字的位置，添加到叠加内容添加模块132所生成的透明叠加层上，并将该文字所出现的时间加载到叠加层上，以备显示。当下一帧图像中不包含文字时，叠加内容更新模块134所要做的仅是清除叠加层所显示的内容。

叠加控制模块131用于控制叠加内容添加模块132、叠加内容生成模块133和叠加内容更新模块134之间的数据传输统筹；进一步的，还用于控制文字叠加模块13与视频图像预读模块11和文字解析模块12之间的数据传输统筹。

例如，叠加控制模块131会首先判断文字解析模块12是否在下一帧图像中解析出了文字，即当文字解析模块12传输来文字内容以及文字位置时，叠加控制模块131便确定已解析出文字，此后便控制与其连接的叠加内容添加模块132、叠加内容生成模块133和叠加内容更新模块134各自工作，具体工作流程于后文详述。

图2所示为本发明所提供的与视频中文字进行交互方法的流程图，结合图3所示的原理示意图进行详细描述，方法包括以下步骤：

步骤S10：预读将要播放的视频图像帧以及该帧图像的播放时间。

视频图像预读模块11首先判断播放当前帧图像的时间，接着根据该时间即可以确定将要播放的图像301帧，并将当该帧图像以及对应的要播放的时间输出。

步骤S20：解析视频图像。

文字解析模块12依据光学字符识别技术对所述视频预读模块11发送过来的图像进行解析。即解析出图3中下一帧图像301中显示的文字302。

步骤S30：判断所解析的视频图像中是否包含有文字。

在步骤S20的基础上，文字解析模块12判断解析结果中是否包含有文字，若包含文字，则文字解析模块12还记录所解析出文字的位置，并将文字内容以及文字的位置一并输出，进入步骤S40；若不包含文字，则进入步骤S50。

步骤S40：在下一帧图像显示时，将所解析出的文字添加至透明叠加层。

叠加控制模块131依据与文字解析模块12通信判断出其是否已解析出文字，判断解析出文字后，叠加控制模块131接收视频图像预读模块11所预读出的下一帧图像301传输至叠加内容添加模块132。叠加内容添加模块132通过下一帧图像获取视频图像的高度和宽度，创建图3中所示的一层透明的大小与视频图像相同的叠加层303，如透明页面覆盖在视频图像上。

叠加控制模块131接收文字解析模块12所解析出来的文字302，传至叠加内容生成模块133，叠加内容生成模块133对所解析出来的文字302进行再生成，生成为文字304，并对所解析出来的文字304进行违规检查。检查结果为合格时，便向叠加控制模块131发送再生成的文字304。叠加控制模块131再将上述再生成文字转发至叠加内容更新模块134，叠加内容更新模块134将叠加内容生成模块133传送过来再生成文字304内容依照该文字的位置，添加到叠加内容添加模块132所生成的透明叠加层303上，并将该文字在确定出的所出现的时间加载到叠加层上。其中该文字也是透明属性。

步骤S50：在下一帧图像显示时清空叠加层。

当文字解析模块12判断下一帧图像中不含有文字时，便仅发送一通知至叠加控制模块131，由叠加控制模块131控制清除叠加层所显示的内容。图3仅为了便于理解实现与视频中文字进行交互操作过程的示意图，并非具体图像层。

执行完步骤S40或步骤S50后，便返回步骤S10。

由上，由于视频图像中的文字对于用户来说是透明的，用户看到的仍然是原视频图像文字，其交互操作的是在叠加层上的透明的文字，但对于用户来说，其就像是对视频图像中的文字进行交互操作。

其中，对于上述步骤S30，当判断图像中含有文字时，还可以进一步确定出文字所占的区域的长度、宽度、对于步骤S40的时候，可以将所述识别的文字生成时，进行相应的排版，如字号、字间距，以填充所确定的图像中文字所占区域。

另外，对于视频，其各帧图像是连续播放的，对于用户来说，可以操作的通常是可以在显示屏显示保持一定时间的图像，例如显示超过3秒，或者是视频图像处于播放的暂停状态下，而对于一闪而过，例如仅在一帧图像中出现的文字，在播放过程中用户通常来不及进行操作。因此基于此，本发明上述还可以进行下述优化：

对于步骤S20解析图像时，判断视频图像是否处于播放的暂停状态，如果是，则继续原流程，若非，则进一步判断对缓存的连续多帧视频图像是否解析出有相同位置、相同的文字，若非，则认为该文字在视频播放过程中出现时间很短，用户来不及操作，不进行后续处理，而是返回步骤S10，若是，则认为该文字在视频播放过程中出现时间足够用户进行操作，则将所解析的文字作为这几帧的解析结果，并执行后续步骤。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，总之凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实现与视频中文字进行交互操作的方法，其特征在于，包括步骤：

A、预读将要播放的视频图像帧；

B、识别所述帧的图像所包含的文字于图像中的位置和文字内容；

C、在所述视频图像帧播放时，将所识别出的所述文字以可被操作、且透明格式叠加在该帧图像中所述文字的对应位置显示；

步骤B还包括：

判断所识别的文字是否具有链接特征，若是，则设置为可被点击操作的超链接格式，否则设置为可被操作的文本格式；

步骤C包括：

创建一透明的叠加层；

2.根据权利要求1所述的方法，其特征在于，

步骤B还包括：识别所述帧的图像所包含的文字所占位图的宽度和长度；

3.根据权利要求1或2所述的方法，其特征在于，步骤B所述识别为采用光学字符识别方法进行识别。

4.根据权利要求1所述的方法，其特征在于，步骤B后还包括：对所识别的文字进行违规检查。

5.根据权利要求1所述的方法，其特征在于，步骤B后还包括：

6.一种实现与视频中文字进行交互操作的系统，其特征在于，包括：

视频图像预读模块，用于预读将要播放的视频图像帧；

文字叠加模块，分别与所述视频图像预读模块和文字解析模块连接，用于在所述视频图像帧播放时，将所识别出的所述文字以可被操作、且透明格式叠加在该帧图像中所述文字的对应位置显示；

所述文字叠加模块包括：

7.根据权利要求6所述的系统，其特征在于，所述文字叠加模块还包括：存储模块，存储有预警数据库；