CN106161873A

CN106161873A - 一种视频信息提取推送方法及系统

Info

Publication number: CN106161873A
Application number: CN201510208366.2A
Authority: CN
Inventors: 张红亮
Original assignee: TVM Beijing Technology Co Ltd
Current assignee: TVM Beijing Technology Co Ltd
Priority date: 2015-04-28
Filing date: 2015-04-28
Publication date: 2016-11-23

Abstract

本发明公开了一种视频信息提取推送方法及系统，所述方法包括：提取视频中的关键特征；所述关键特征为关键词、关键音频或关键画面；根据所述关键特征，配置对应的展示信息；将所述展示信息与所述视频同步展示。本发明实施例的方案，能够在视频播放的过程中，实时根据视频播放的内容获取其中的关键特征，根据所述关键特征为用户设定对应的推送展示信息，与视频中该关键特征播放时间点同步展示给用户，使得用户可以在观看视频的过程中，根据视频内容获取到相应的推送展示信息，极大的提高用户体验度。

Description

一种视频信息提取推送方法及系统

技术领域

本发明涉及互联网技术领域，特别涉及一种视频信息提取推送方法及系统。

背景技术

随着网络技术的发展，人们的生活也越来越离不开网络，各种音视频文件都可以通过网络获取。视频通常指涉各种动态影像的储存格式，例如：数位视频格式，包括DVD，QuickTime，与MPEG-4；以及类比的录像带,包括VHS与Betamax。视频可以被记录下来并经由不同的物理媒介传送：在视频被拍摄或以无线电传送时为电气讯号，而记录在磁带上时则为磁性讯号；视频画质实际上随著拍摄与撷取的方式以及储存方式而变化。

通常，视频是在时间上连续的一系列图像帧的集合，是一种没有结构的图像流。我们可以把视频看作一本没有目录和索引的书，那么一幅图像帧就相当于书中的一页。由于视频这部书缺乏目录和索引信息，就无法对它进行高效浏览和检索，无法快速阅读。为寻找感兴趣的视频片段，我们只能采取“快进”和“快倒”的耗时方式线性浏览。

随着数字视频数据量迅速增加，传统的“线性”浏览方式已远不能满足人们对视频内容的访问和查询需求。用惯了文本搜索引擎的用户越来越希望能在海量视频库中快速找到自己感兴趣的视频片段，而视频中的文字可以直接并且集中的描述视频的各种信息，所以视频中的文字识别可以更好地帮助人们分析和理解视频中的内容，从而作为视频信息处理和检索的一种良好手段。

目前已经涌现出了大量的在图像和视频流中提取文字的有效方法，这些从视频流中提取文字的方法大致可以分为两大类：一类是连接相似的区域法,这种方法的主要依据是视频和图像中的文字比较集中,并且和背景有不同的颜色。其特点是可以快速,准确地确定视频中的文字，但是当遇到视频中的文字被嵌入到复杂的背景中或者和其他的图形对象相连接时,这种方法的效果就不是很理想了；另一类主要是基于纹理的分类的方法。这类方法的主要问题是比较难排除类似于文字的区域。

现有技术中，对于用户对于视频的需求已经不仅仅是播放，还需要从视频中获取相应的信息，而这个信息的获取或者推送，最好是能够与视频内容同步的。例如，当视频播放到某一内容的时候，为用户推送与此相关的信息，从而提高用户的体验度。因而，亟需要一种可以充分满足用户在视频播放过程中实时获取相应信息问题的方案，从而提高用户体验度。

发明内容

本发明提供一种视频信息提取推送方法及系统，用以解决现有技术中无法实现视频信息实时提取推送的问题。

一种视频信息提取推送方法，包括如下步骤：

提取视频中的关键特征；所述关键特征为关键词、关键音频或关键画面；

根据所述关键特征，配置对应的展示信息；

将所述展示信息与所述视频同步展示。

所述方法还包括：

获取所述关键特征在所述视频中出现的关键特征时间点；

根据所述关键特征时间点，配置所述展示信息与所述视频同步展示的时间点。

所述方法还包括：

根据所述展示信息与所述视频同步展示的时间点，实时配置所述展示信息与所述视频的同步。

所述提取视频中的关键特征包括：

预设所述关键特征对应的关键词；

获取所述视频中每一视频帧的文字信息，并从中筛选包含所述关键词的文字信息作为关键文字；

将所述关键文字作为所述关键特征。

所述提取视频中的关键特征包括：

预设所述关键特征对应的关键音频；

提取所述视频对应的音频数据，并从中筛选包含所述关键音频的音频数据作为音频信息；

将所述音频信息作为所述关键特征。

所述提取视频中的关键特征包括：

预设所述关键特征对应的关键画面；

获取所述视频中每一视频帧的画面信息，并从中筛选包含所述关键画面的画面信息对应的关键视频帧；

将所述关键视频帧作为所述关键特征。

一种视频信息提取推送系统，包括：

关键特征提取单元，用于提取视频中的关键特征；所述关键特征为关键词、关键音频或关键帧；

展示信息设置单元，用于根据所述关键特征，配置对应的展示信息；

同步展示单元，用于将所述展示信息与所述视频同步展示。

所述同步展示单元还用于：

获取所述关键特征在所述视频中出现的关键特征时间点；

所述展示信息设置单元，还用于预先设置和管理所述展示信息。

所述关键特征提取单元进一步包括：

关键特征预设子单元，用于预设所述关键特征对应的关键词、关键音频或关键画面；

筛选子单元，用于获取所述视频中每一视频帧的文字信息，并从中筛选包含所述关键词的文字信息作为关键文字；或提取所述视频对应的音频数据，并从中筛选包含所述关键音频的音频数据作为音频信息；或获取所述视频中每一视频帧的画面信息，并从中筛选包含所述关键画面的画面信息对应的关键视频帧；

设置子单元，用于将所述关键文字、音频信息或关键视频帧作为所述关键特征。

本发明实施例中，通过提取视频中的关键特征；所述关键特征为关键词、关键音频或关键画面；根据所述关键特征，配置对应的展示信息；将所述展示信息与所述视频同步展示。本发明实施例的方案，能够在视频播放的过程中，实时根据视频播放的内容获取其中的关键特征，根据所述关键特征为用户设定对应的推送展示信息，与视频中该关键特征播放时间点同步展示给用户，使得用户可以在观看视频的过程中，根据视频内容获取到相应的推送展示信息，极大的提高用户体验度。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例1提供的一种视频信息提取推送方法原理流程图；

图2为本发明实施例2提供的一种视频信息提取推送系统结构示意图；

图3为本发明实施例3提供的一种关键特征提取单元21结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

如图1所示，为本发明实施例1提供的一种视频信息提取推送方法原理流程图，其中，

步骤11，提取视频中的关键特征；关键特征为关键词、关键音频或关键画面。

本实施例中的关键特征，并不是指视频打包、压缩、解码等技术特征，而是预先设定的用以标明视频内容中的重要信息的特征。这些关键特征是预先设定的，与需要展示推送给用户的展示信息相关联。不同的展示信息对应不同的关键特征，其中的对应关系可以预先根据需要设定。

视频播放过程中，不仅有文字、画面，还有音频信息等，这些在视频中都是有机的整体，但是，可以通过技术手段对这些文字、画面、音频进行分离，从而得到单独的文字、画面、音频信息，这些文字、画面、音频信息与完整的视频有着严格的对应关系和时间同步，因而，实际上，获取这些文字、画面、音频信息，相当于获取了视频内容的部分信息，并可以准确的知道这些文字、画面、音频信息对应视频的哪一部分或者哪一时间点。

为了更准确的理解本实施例，本实施例以向用户推送广告信息为例，来说明本实施例的具体方案。本实施例对推送信息的内容和类型以及展示形式不做限定。

举例来说，如果视频播放中的某一画面出现了某种类型的饮料，那么，如果这个时刻同步向用户展示该类型饮料的网上购买信息和地址，则会极大的提高用户购买的可能性，从而实现了对用户需求的准确定位。而这一向用户展示信息的方案的第一步，就是要准确的识别出视频内容中的关键特征，也就是视频播放到什么时候会出现该类型饮料的画面。这当然可以预先浏览视频内容并人工统计画面出现的时间，但显然不够高效，操作起来过于繁琐。本实施例提供一种自动提取关键特征并自动实现信息展示的方案。

视频中的关键特征的提取，有很多种方式，通常取决于关键特征设定为关键词、关键音频还是关键画面。关键词的话，是一种文本信息，则需要提取视频中的文字信息。关键音频是一种音频信息，就需要提取视频中的音频信息。而关键画面是视频画面本身，则需要提取关键帧并获取其中的帧的图像或者图片。对于不同的关键特征，需要采用不同的提取方式。

预设所述关键特征对应的关键词；获取所述视频中每一视频帧的文字信息，并从中筛选包含所述关键词的文字信息作为关键文字；将所述关键文字作为所述关键特征。这里，关键文字可以直接通过视频中文字识别的方式进行。或者，可以逐一获取视频帧，将每一帧作为图片获取其中的文字信息。识别出文字信息后，可以直接用文字信息与关键词的比对来进行关键特征识别，也可以将文字信息对应的视频帧与关键特征对应起来，在视频播放到该视频帧的时候，认为关键特征已经出现，从而展示相关展示信息。

具体的文字识别方案，现有技术中有很多解决方案，本实施例不做限定。例如，可以利用OCR(Optical Character Recognition，光学字符识别)技术来进行文字识别。OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

一个OCR识别系统，其目的很简单，只是要把影像作一个转换，使影像内的图形继续保存、有表格则表格内资料及影像内的文字，一律变成计算机文字，使能达到影像资料的储存量减少、识别出的文字可再使用及分析，当然也可节省因键盘输入的人力与时间。

从影像到结果输出，须经过影像输入、影像前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。

影像输入：欲经过OCR处理的标的物须透过光学仪器，如影像扫描仪、传真机或任何摄影器材，将影像转入计算机。科技的进步，扫描仪等的输入装置已制作的愈来愈精致，轻薄短小、品质也高，对OCR有相当大的帮助，扫描仪的分辨率使影像更清晰、扫除速度更增进OCR处理的效率。

影像预处理：影像预处理是OCR系统中，须解决问题最多的一个模块。影像须先将图片、表格及文字区域分离出来，甚至可将文章的编排方向、文章的提纲及内容主体区分开，而文字的大小及文字的字体亦可如原始文件一样的判断出来。

对待识别图像进行如下预处理，可以降低特征提取算法的难度，并能提高识别的精度。

二值化：由于彩色图像所含信息量过于巨大，在对图像中印刷体字符进行识别处理前，需要对图像进行二值化处理，使图像只包含黑色的前景信息和白色的背景信息，提升识别处理的效率和精确度。

图像降噪：由于待识别图像的品质受限于输入设备、环境、以及文档的印刷质量，在对图像中印刷体字符进行识别处理前，需要根据噪声的特征对待识别图像进行去噪处理，提升识别处理的精确度。

倾斜校正：由于扫描和拍摄过程涉及人工操作，输入计算机的待识别图像或多或少都会存在一些倾斜，在对图像中印刷体字符进行识别处理前，就需要进行图像方向检测，并校正图像方向。

文字特征抽取：单以识别率而言，特征抽取可说是OCR的核心，用什么特征、怎么抽取，直接影响识别的好坏，也所以在OCR研究初期，特征抽取的研究报告特别的多。而特征可说是识别的筹码，简易的区分可分为两类：一为统计的特征，如文字区域内的黑/白点数比，当文字区分成好几个区域时，这一个个区域黑/白点数比之联合，就成了空间的一个数值向量，在比对时，基本的数学理论就足以应付了。而另一类特征为结构的特征，如文字影像细线化后，取得字的笔划端点、交叉点之数量及位置，或以笔划段为特征，配合特殊的比对方法，进行比对，市面上的线上手写输入软件的识别方法多以此种结构的方法为主。

对比数据库：当输入文字算完特征后，不管是用统计或结构的特征，都须有一比对数据库或特征数据库来进行比对，数据库的内容应包含所有欲识别的字集文字，根据与输入文字一样的特征抽取方法所得的特征群组。

对比识别：这是可充分发挥数学运算理论的一个模块，根据不同的特征特性，选用不同的数学距离函数，较有名的比对方法有，欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(Dynamic Programming，DP)，以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)…等著名的方法，为了使识别的结果更稳定，也有所谓的专家系统(Experts System)被提出，利用各种特征比对方法的相异互补性，使识别出的结果，其信心度特别的高。

字词后处理：由于OCR的识别率并无法达到百分之百，或想加强比对的正确性及信心值，一些除错或甚至帮忙更正的功能，也成为OCR系统中必要的一个模块。字词后处理就是一例，利用比对后的识别文字与其可能的相似候选字群中，根据前后的识别文字找出最合乎逻辑的词，做更正的功能。

字词数据库：为字词后处理所建立的词库。

人工校正：OCR最后的关卡，在此之前，使用者可能只是拿支鼠标，跟着软件设计的节奏操作或仅是观看，而在此有可能须特别花使用者的精神及时间，去更正甚至找寻可能是OCR出错的地方。一个好的OCR软件，除了有一个稳定的影像处理及识别核心，以降低错误率外，人工校正的操作流程及其功能，亦影响OCR的处理效率，因此，文字影像与识别文字的对照，及其屏幕信息摆放的位置、还有每一识别文字的候选字功能、拒认字的功能、及字词后处理后特意标示出可能有问题的字词，都是为使用者设计尽量少使用键盘的一种功能，当然，不是说系统没显示出的文字就一定正确，就像完全由键盘输入的工作人员也会有出错的时候，这时要重新校正一次或能允许些许的错，就完全看使用单位的需求了。

结果输出：有人只要文本文件作部份文字的再使用之用，所以只要一般的文字文件、有人要漂漂亮亮的和输入文件一模一样，所以有原文重现的功能、有人注重表格内的文字，所以要和Excel等软件结合。无论怎么变化，都只是输出档案格式的变化而已。如果需要还原成原文一样格式，则在识别后，需要人工排版，耗时耗力。

如果关键特征为音频，则预设所述关键特征对应的关键音频；提取所述视频对应的音频数据，并从中筛选包含所述关键音频的音频数据作为音频信息；将所述音频信息作为所述关键特征。

实际上视频文件中的音视频信息是可以分离的，通常也是分开存放的。但是音频和视频是严格同步的。因而，获取相应的音频数据的时间点可以准确的了解到视频播放的时间点。通常来说，音频数据的识别是相对容易的。现有技术中也存在很多的音频识别技术，例如，最常用的语音识别等。

现有的语音识别方法主要是模式匹配法。

在训练阶段，用户将词汇表中的每一词依次说一遍，并且将其特征矢量作为模板存入模板库。

在识别阶段，将输入语音的特征矢量依次与模板库中的每个模板进行相似度比较，将相似度最高者作为识别结果输出。

语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。

听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。

如果关键特征为画面，则预设所述关键特征对应的关键画面；获取所述视频中每一视频帧的画面信息，并从中筛选包含所述关键画面的画面信息对应的关键视频帧；将所述关键视频帧作为所述关键特征。

这种方法相对简单，画面的话，仅需要提取视频中的每一帧，用以进行图像的比对识别即可。现有技术中同样有较多的方案可以实现图像的比对。

本步骤中，用以设定和获取视频中的关键特征，这些关键特征是预先设定的，并且是与后续的展示信息相关联的。不同的关键特征对应不同的展示信息。

步骤12，根据关键特征，配置对应的展示信息。

获取了关键特征后，目的还在于将关键特征与想用的展示信息对应起来。这里的展示信息是需要与管家特征关联并最终展示给用户的。因而，这的关键特征与展示信息是一一对应的，也是预先设定的。设定了展示信息后，才可以根据该展示信息设置相应的关键特征。展示信息是最终展示给用户的，因而，展示信息还需要设置相应的展示形式。本实施例对展示信息的展示形式不做限定。

步骤13，将展示信息与视频同步展示。

这里的展示信息与视频的同步展示，指的是展示信息与视频之间的时间对应。获取所述关键特征在所述视频中出现的关键特征时间点；根据所述关键特征时间点，配置所述展示信息与所述视频同步展示的时间点。

也就是说，展示信息是在关键特征出现的时候才展示给用户的，只有在视频播放到关键特征的时候，展示信息才展示推送给用户。这就需要展示信息获取关键特征在视频中出现的时间点，然后根据这个时间点设置展示信息展示推送的时间点。

通常，展示信息的展示与视频播放是实时的，视频播放过程中，实时哦获取关键特征并与展示信息对应，然后实时的展示推送给用户。对于用户来说，当观看视频到出现关键特征的时候，则同时会收到一个与关键特征相关的展示信息，这个展示信息因为是与视频正在播放的关键特征也就是视频正在播放的内容是相关的，因而，用户的体验度很好。

如图2所示，为本发明实施例2提供的一种视频信息提取推送系统结构示意图，其中，

关键特征提取单元21，用于提取视频中的关键特征；所述关键特征为关键词、关键音频或关键帧；

展示信息设置单元22，用于根据所述关键特征，配置对应的展示信息；

同步展示单元23，用于将所述展示信息与所述视频同步展示。

进一步的，上述的同步展示单元23还用于：

获取所述关键特征在所述视频中出现的关键特征时间点；

进一步的，上述展示信息设置单元22，还用于预先设置和管理所述展示信息。

如图3所示，上述关键特征提取单元21进一步包括：

关键特征预设子单元211，用于预设所述关键特征对应的关键词、关键音频或关键画面；

筛选子单元212，用于获取所述视频中每一视频帧的文字信息，并从中筛选包含所述关键词的文字信息作为关键文字；或提取所述视频对应的音频数据，并从中筛选包含所述关键音频的音频数据作为音频信息；或获取所述视频中每一视频帧的画面信息，并从中筛选包含所述关键画面的画面信息对应的关键视频帧；

设置子单元213，用于将所述关键文字、音频信息或关键视频帧作为所述关键特征。

综上所述，本发明实施例中，通过提取视频中的关键特征；所述关键特征为关键词、关键音频或关键画面；根据所述关键特征，配置对应的展示信息；将所述展示信息与所述视频同步展示。本发明实施例的方案，能够在视频播放的过程中，实时根据视频播放的内容获取其中的关键特征，根据所述关键特征为用户设定对应的推送展示信息，与视频中该关键特征播放时间点同步展示给用户，使得用户可以在观看视频的过程中，根据视频内容获取到相应的推送展示信息，极大的提高用户体验度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种视频信息提取推送方法，其特征在于，包括如下步骤：

根据所述关键特征，配置对应的展示信息；

将所述展示信息与所述视频同步展示。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述关键特征在所述视频中出现的关键特征时间点；

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求1所述的方法，其特征在于，所述提取视频中的关键特征包括：

预设所述关键特征对应的关键词；

将所述关键文字作为所述关键特征。

5.如权利要求1所述的方法，其特征在于，所述提取视频中的关键特征包括：

预设所述关键特征对应的关键音频；

将所述音频信息作为所述关键特征。

6.如权利要求1所述的方法，其特征在于，所述提取视频中的关键特征包括：

预设所述关键特征对应的关键画面；

将所述关键视频帧作为所述关键特征。

7.一种视频信息提取推送系统，其特征在于，包括：

同步展示单元，用于将所述展示信息与所述视频同步展示。

8.如权利要求7所述的系统，其特征在于，所述同步展示单元还用于：

获取所述关键特征在所述视频中出现的关键特征时间点；

9.如权利要求7所述的系统，其特征在于，所述展示信息设置单元，还用于预先设置和管理所述展示信息。

10.如权利要求7所述的系统，其特征在于，所述关键特征提取单元进一步包括：