CN101600118B

CN101600118B - 音视频内容信息抽取装置和方法

Info

Publication number: CN101600118B
Application number: CN200810099896A
Authority: CN
Inventors: 张志刚; 藤井由纪夫; 长屋茂喜
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2008-06-06
Filing date: 2008-06-06
Publication date: 2012-09-19
Anticipated expiration: 2028-06-06
Also published as: CN101600118A

Abstract

本发明提供一种音视频处理装置和处理方法，该处理装置包括：接收信号输出传输流的接收单元；对所输出的传输流进行解码的解码单元；接收用户输入的指定内容的用户接口单元；提取规定内容的信息提取单元；和存储规定内容的信息存储单元，指定内容包括指定视频内容或指定音频内容的一方，另一方由音视频对照关系表来确定，该信息提取单元包括：音频识别单元，从来自解码单元的音频流中识别出指定音频内容；视频识别单元，从来自解码单元的视频流中识别出指定视频内容；和信息匹配单元，确定音频识别单元的识别结果与视频识别单元的识别结果是否匹配，二者匹配时，将与指定视频内容或指定音频内容对应的规定内容记录在信息存储单元中。

Description

音视频内容信息抽取装置和方法

技术领域

本发明涉及广播电视领域中一种音视频信息提取装置、方法及包含这种装置的音视频处理设备，特别是一种能够对音视频节目流对相关信息进行智能提取的设备和方法。

背景技术

随着音视频技术及广播电视领域相关技术的发展，新的广播格式提供了更大的数据容量，同时，人们对清晰度和节目多样性方面要求越来越高，越来越多的音视频节目内容，通过各种播放终端呈现给用户。更多的频道，更大的数据量，更加丰富的内容，使得信息的流量大大增加，为用户在频道选择，数据存储，和有效信息的提取方面带来了更大的复杂度。

在众多的电视节目中，针对不同的用户，每个人的喜好不同，其收视的时间段、感兴趣的内容以及收视电视节目时的工作状态各有不同，即使在一个频道/节目播放中，有用户非常关注、并希望进行记录的，也有更多的、重复的、强加于用户的信息。由于广播方式的特点，在节目广播中很难为用户提供信息定制。各种各样的信息糅杂在其间，因此不可避免的对用户产生了大量的冗余信息。此外，有一些节目内容由于特殊原因，音频与视频会有一定的误差，使得大量的信息之间的关系更为复杂。

针对不同的用户，如何将其关注的电视节目中最为关键的内容识别并记录下来，即从海量复杂的内容中提取关键信息，为用户提供根据其需求筛选过的、简洁而准确的信息，并提供精华内容的回览，是用户对音视频播放设备的一个重要需求。

当前，针对如何从海量信息中，根据不同用户需求进行筛选、推荐或提取关键信息的方法有很多。比如根据用户长期的收视统计分析，得出用户喜好节目类型，搜索节目列表并为用户推荐其喜好节目的节目收视推荐系统；再如根据用户指示，在多个频道中搜索、定制节目的后续片段，并进行到点提醒或记录功能；如在用户收视过程中提供时移播放；或通过用户操作对在播节目中的片段进行记录；或者对特定节目根据音视频变化情况对场景进行识别进而记录精彩片段；或者通过定时记录方式，对节目内容进行定时截屏等功能。这些方式都是通过简单方法对节目信息进行抽取，从而过滤非关键信息，压缩数据量以方便用户回览。

针对以上所述问题，还有不需要用户进行实时操作的智能信息提取方法，如中国专利文献CN1863282A《在数字电视接收装置上实现静态图像捕捉的方法和装置》(中兴通讯股份有限公司，2005.5.13)。

在专利文献CN1863282A中，描述了一种在数字电视接收装置上实现静态图像捕捉的方法和装置。该装置在视频解码模块和显示芯片之间设有：1)视频抽取模块，2)存储器，3)外部控制模块。视频抽取模块按照外部控制装置设定的抽取率，对从视频解码模块出来的帧流不停地进行抽取，取出特定帧数据送入存储器进行存储。控制器从存储器中提取图像按照顺序进行播放，播放方向和播放速度可以由用户通过外部控制模块进行控制。该方法实现了延迟保存先前看过的图像，并提供回览功能。

发明内容

在如上所述的公知技术中，采用了定时对视频图像进行采样并记录，没有考虑到音视频内容的关联，不关注图片内容，对图像的记录没有进行识别。该方法只通过定时记录，可能记录大量的冗余图片，用户可能需要手动操作以从大量的冗余图片中再次寻找需要的内容。此外，如果定时时间较短，则容易错过精彩的内容，如果定时时间太长，则需要记录的内容就太多，需要存储空间也相应变大，而且用户需要花费较长时间进行二次筛选。为了解决上述问题，方便用户，我们提出了一种利用音视频内容关联性，将用户感兴趣的内容自动识别和保存，从而方便用户浏览。本发明的第一方面涉及一种音视频处理装置，包括：接收播放信号输出传输流的接收单元；对所述接收单元输出的传输流进行解码的解码单元；接收用户输入的指定内容的用户接口单元，其特征在于，该音视频处理装置还包括：提取规定内容的信息提取单元；和存储所述规定内容的信息存储单元，所述指定内容包括指定视频内容或指定音频内容的一方，另一方由预先存储的音视频对照关系表来确定，所述信息提取单元包括：音频识别单元，从来自所述解码单元的音频流中识别出指定音频内容；视频识别单元，从来自所述解码单元的视频流中识别出指定视频内容；和信息匹配单元，接收来自所述音频识别单元的识别结果和所述视频识别单元的识别结果，确定音频识别单元的识别结果与所述视频识别单元的识别结果是否匹配，在二者匹配的情况下，则将与所述指定视频内容或所述指定音频内容对应的规定内容记录在所述信息存储单元中。

本发明的第二方面涉及另一种音视频处理装置，包括：接收播放信号输出传输流的接收单元；对所述接收单元输出的传输流进行解码的解码单元；接收用户输入的指定内容的用户接口单元，其特征在于，该音视频处理装置还包括：提取规定内容的信息提取单元；和存储所述规定内容的信息存储单元，所述指定内容包括指定视频内容和指定音频内容，所述信息提取单元包括：音频识别单元，从来自所述解码单元的音频流中识别出指定音频内容；视频识别单元，从来自所述解码单元的视频流中识别出指定视频内容；和信息匹配单元，接收来自所述音频识别单元的识别结果和所述视频识别单元的识别结果，确定音频识别单元的识别结果与所述视频识别单元的识别结果否匹配，在二者匹配的情况下，则将与所述指定视频内容和所述指定音频内容对应的规定内容记录在所述信息存储单元中。

本发明的第三方面涉及一种音视频处理方法，包括：接收播放信号输出传输流的接收工序；对所述接收工序输出的传输流进行解码的解码工序；接收用户输入的指定内容的用户输入工序；基于用户的指定内容提取规定内容的信息提取工序；和存储所述规定内容的信息存储工序，其中，所述指定内容包括指定视频内容和指定音频内容的一方或者两方，在只包括其中一方的情况下，另一方由预先存储的音视频对照关系表来确定，所述信息提取工序包括：音频识别工序，从来自所述解码工序的音频流中识别出指定音频内容；视频识别工序，从来自所述解码工序的视频流中识别出指定视频内容；和信息匹配工序，根据所述音频识别工序的识别结果和所述视频识别工序的识别结果，确定音频识别结果与视频识别结果是否匹配，在二者匹配的情况下，则将与所述指定视频内容和所述指定音频内容对应的规定内容记录在信息存储单元中。

附图说明

图1：本发明所述信息抽取和播放装置系统构成图。

图2：传输流的解扰、解复用与解码单元组成图。

图3：信息抽取单元的详细功能模块图。

图4：通过用户接口单元对制定节目的参数配置。

图5：音视频节目内容实例示意图。

图6：信息采集结果的浏览。

图7：本发明设备的时钟修复与音视频同步。

图8：敏感信息识别的过程与同步校验。

图9：敏感信息提取的整体流程。

图10：视频图像识别在不同触发方式的处理流程。

图11：举例说明音频和视频识别内容的匹配过程。

图12：为针对音视频识别过程中的匹配是否成功的对应关系表。

具体实施方式

下面参考附图，详细说明本发明的具体实施方式。

值得说明的是，在本发明中，为了便于说明，我们选择数字电视为例介绍本发明的实施方案，以对节目进行屏幕截取的图片作为信息提取的结果进行存储，以指定关键词作为用户指定的敏感信息，以模板匹配的方式进行图片和声音识别的实现方式。但本发明所述设备和方法不仅仅局限于本发明实施例中所述的设备和方法，可以电视机、机顶盒，录像机、DVD播放机等具有音视频处理的装置。

本发明中，当用户对指定节目开启了敏感信息监控功能，并设定了关键词后，在该节目播放过程中，本发明所述设备则对音频输出和视频输出进行监控，根据所指定的关键词搜索音视频输出中与之匹配的内容，如果音频和视频中几乎同时检测到了关键词的内容，则将此时的视频截屏图片存储下来，并将相关信息进行整理。之后根据用户的请求，可以随时浏览存储下来的内容。通过本发明，用户在收看节目的过程中可以不必随时对关键信息进行判断并手工记录，系统可以自动识别和记录，减小了操作复杂度，智能提取用户的敏感信息并记录，供用户随时浏览。

如图1所示为本发明的音视频播放装置的构成示意图，该装置可以是电视机，包括多种广播方式的数字和模拟电视、机顶盒，也包括如录像机、DVD播放机、MP4、计算机等，或者具有类似功能的音视频处理设备。图中1为用户接口单元，对数字电视可以是遥控器、键盘等输入设备；2为节目接收单元，在数字电视中为调谐器，将射频广播信号转换为包含多个节目的传输流(TS流)；3为解扰、解复用和解码单元，将加密的传输流解扰为无加扰的传输流，并将用户指定节目相关的信息进行解复用，输出为服务信息数据包、音频数据包和视频数据包，再对音视频数据包进行解码，形成独立连续的音频和视频图像输出；4为信息抽取单元，根据用户接口单元输入的关键词，指示音频识别单元对音频流进行监控和识别，指示视频识别单元对视频流进行监控和识别，识别结果由信息匹配单元处理，如果音频识别单元和视频识别单元几乎同时检测到指定关键词，则将当前的视频图像信息存储在5信息存储单元中，信息存储单元是指具有记忆功能的存储介质，如硬盘，NVRAM等；在此过程中，实时播放的音视频内容由节目播放单元6播放给用户，如果用户需要，可将信息存储单元中存储的采集图像由节目播放单元6展示给用户，节目播放单元为显示屏幕、投影仪或音视频输出接口等。

需要说明的是，音视频结果匹配后，记录在信息存储单元中的信息可以是视频图像的截屏信息，也可以是音视频片段，或者是识别结果的文本等。此外信息匹配单元中所述的音视频识别成功的时间，不一定完全同时，如果在用户定义的误差允许范围内也可以被认为同时识别成功而进行存储。经由用户接口单元中指定的敏感信息，可以是关键词的文本输入，也可是数字、声音、图片以致音视频片段等各种形式，或者为通过某种逻辑关系而产生的规则，如指定文本后紧随为8位阿拉伯数字等。

图2中对图1中的3解扰解复用和解码单元进行了细化。11为解扰单元，用于将输入的加扰的传输流进行解扰，是一种条件接收的控制方式，其输出为已解扰的传输流，即透明TS流。一个透明TS流中包含多套节目的音视频信息及其服务信息和控制信息以及数据广播等。12为解复用单元，即系统解码单元，将TS流对指定节目，根据不同类型进行分解，如图所示可分解为服务信息包，视频包，时钟控制信息，音频包等。视频包和音频包分别送入音视频缓冲区内等待解码。音视频解码单元(16和17)将输入的音视频数据包进行解码，输出音频和视频图像序列。由于最初的传输流中，各种信息为串行传送，即同一时间的音视频信息被前后顺序传送过来，而在终端，则需要将发生在同一时刻的音视频图像同时播放出来，还原音视频同步效果，图2中的时钟控制单元14就是用于使发送端和播放终端的时钟同步以及音视频同步，保证从音视频解码单元中输出的音视频是同步的。

图3为举例说明信息提取的过程，也是信息抽取单元的详细处理图举例。对于音频，由解码器输出的音频信息，由声音识别单元21进行监视和进行语音识别，将音频的识别结果输送至关键词提取与匹配单元，对音频识别结果与由用户接口单元26输入的关键词(或者根据音视频对照关系确定的音频指定内容)进行匹配，如果匹配成功，输入时钟校正单元进行时间戳信息的检测，获取声音识别成功时刻所对应的表示时间戳t1。对于视频的识别过程为，由视频解码单元输出的视频送到图像采集单元22，对视频图像进行采样，此处所述的采样即每间隔多长时间提取一张图片，也可以根据传输标准定制为对特定帧进行取样，如只采集I帧。采样后的图片序列被依次存入图像缓存单元中23，然后由图像关键词识别单元25对缓存图像进行由用户接口单元26输入的关键词(或者根据音视频对照关系确定的视频指定内容)的搜索与识别，确定该图像中是否有用户指定的关键词信息。由于图像识别的启动方式可以由用户指定，如实时处理，或者声音识别成功后处理等，因此对缓存图像的处理可以为实时处理或者集中处理。当图像识别成功后，将图像识别结果输入时钟校正单元27，获取图像识别成功时刻所对应的表示时间戳t2，由时钟校正单元对声音时间戳t1和图像时间戳t2进行校验，如果t1和t2的时间差在允许范围内，则认定为匹配成功，即声音出现的同时，画面上也包含有相同或相关的内容，即电视节目中通过声音和图像同时强调了用户感兴趣的内容。再将此内容输入至信息整理单元28，将采集到的音视频或图片信息进行再整理，如对应时间、频道、节目内容、检测使用的关键词、重播信息等，编程条目，存入信息存储单元29中。信息存储单元对输入的条目内容进行判断，如果与该信息完全一样的信息已经存在，则根据规则进行处理，如放弃保存，覆盖保存或者作为新条目保存等。

此处需要说明的是，对于声音识别和视频识别的方法可以有多种方法，如进行降噪滤波等处理后进行模板匹配等方式。对图像缓存单元，在图像实时识别模式下，即音视频识别相互独立，可以采用采集图像后立即处理，此时可以不经过图像缓存单元，或者图像缓存单元中的存储图像数目为1。如果对于图像识别的方式为：声音识别成功后触发图像识别，此时只有在声音识别成功后，再将缓存的图像序列逐一提取出来进行识别，采用这种方式，可以减少系统处理器的运算量，即图像识别单元不是一直处于工作状态，而受声音识别的成功与否而启动。相同的，也可以将视频图像识别设置为一直工作，音频识别功能的启动与关闭受制于视频图像识别的结果。当然，如果系统处理能力足够，也可以将音频和视频识别同时设置为一直工作状态，音视频识别并行工作，启动与关闭不受另外一方工作识别状态影响。

图4是为了说明用户通过用户接口单元对信息提取功能模块的参数配置举例。如图所示，用户可以指定特定节目(如图中的为BTV-1的电视购物)，可以指定信息提取功能的开启时间段(如18:00-20:00)，这些信息都可以通过用户参阅电子节目指南EPG来选择和预约。用户可以指定对于本节目的敏感词汇，即关键词，如图所示“联系电话”等。如上面所述，该敏感词汇可以是文字，也可以是音视频、图片等。用户可以根据自己需要随时开启信息提取功能，并通过用户接口单元设定是否针对此电视节目的重复模式，即每天对此节目开启信息提取功能。用户可以通过用户接口单元设置信息提取模块的处理参数，如最终的记录格式为“单张图片”，即视频图片的采样，当然也可以设置为记录音视频片段，或者识别结果的文本等等。对于图3所示的时间校正单元的处理参数，如音视频识别的误差为±300毫秒，当然，也可以根据用户需求设置为0～t之间的任意数值，(t为一经验值，一般认为为1～2秒)，因此识别时间误差可以设置为±500毫秒、±100毫秒、±50毫秒或者为0毫秒。在此时间内，即认为是同时发生，如果设置误差时间为0毫秒，即指音视频识别时间为完全同时发生。对图3中的视频图像采集单元的参数设置，采样频率为每秒5帧。对信息记录单元重复条目的处理方式为“自动覆盖”。此外用户还可以以类似的方式设置其他处理参数，如音视频识别的触发方式为：独立识别或者音频识别成功开启视频图像识别等等。

图5为音视频识别场景举例。图中举例为电视购物的场景，对于很多的电视购物节目，对于一个产品的各种细致功能介绍很多，而在最后的几秒钟内将之前的介绍的内容进行总结，并给出联系方式。如图5所示的为笔记本电脑广告的最后总结画面，有图片、型号、特点和价格，最重要的是在此画面中给出详细的联系方式，如电话、网址、地址等。如果用户对此产品感兴趣，联系方式是最关键的信息，可以通过联系方式进行咨询和购买，因此如果每个长达几分钟的广告，电视机都能自动记录类似的关键画面，对于用户则可以非常方便的了解各个广告的内容，进行回放或根据记录的关键画面中的内容联系厂商进行购买，而不用随时带上纸笔准备记录。

在图5中，节目声音播放联系电话的同时，视频画面中的图片也打出相应的联系方式，此时，通过以“联系电话”为关键词对音视频进行识别，匹配后进行记录。之所以要求音视频时间戳匹配，是只有节目中突出强调并希望用户引起强烈注意的内容，会通过音视频两种方式同时播放给用户，以引起广泛注意。如果只采取独立的音频识别或视频识别方式，则很可能记录很多的无用的内容，或者记录多张内容相同的图片。如图5所示，对视频画面，可能有多张采集内容相同，如图片2和图片3，而此时，在声音流中，很可能只说一次关键词，应用声音和视频的双重识别，则可以过滤掉较多的重复信息。

对于多个关键词的情况，如果音视频同时检测到该图片/音频符合多个关键词的要求，则说明此图片作为识别结果的可信赖的程度更高。因此所记录的内容中，也可以通过设定信赖程度，来区分各个记录相符与多个关键词的匹配程度。

图6为信息记录单元中记录的精华信息提取内容索引。如图所示，包括采集日期、采集时间、所在频道、节目内容、其他信息等，以及最为重要的是屏幕截屏，当然记录结果可以是屏幕截屏，也可以是音视频片段等等多种方式。通过这种方式，用户可以很容易的知道相关节目内容的精华介绍及其联系方式，同时，通过关联的EPG信息，可以知道是否有重播，是否有关联节目的推荐等等。图6所示的内容条目可以由用户定制，如增加匹配级别，内容重复次数等，这些都可以由用户通过用户接口单元配置信息存储单元的参数进行设定。用户也可以根据需要，随时对信息存储单元中的记录进行注释、删除等操作。

图7为时钟校正原理。广播端在传输流中加入了节目时钟参考PCR，用来校正信号广播端和播放终端的时间，即系统时钟。经过校正的系统时钟作为音视频解码，以及音视频和其他信息的输出基准。PTS为音视频和服务信息的表示时间戳，DTS为音视频的解码时间戳。以系统时钟为基准，DTS来保证解码器解码音视频同步，PTS来保证音视频输出时的同步。所谓的同步，即保证接收解码端播放的音视频与编码广播方的一致性，再现广播方节目源的内容。

当然，对于广播方的节目源中出现的内容在音视频方面出现的差别，通过这种时钟校正的方式是得不到解决的，而这种场景在实际节目中也经常出现，如在体育比赛中，最精彩的环节往往是非常短暂的，而作为节目评论，则要对此环节进行详细讲述，容易出现音视频的不同步，而这种问题是不能通过图7所示的方法解决的。再如在股票行情或天气预报节目中，分为多个屏幕介绍全国各个城市的天气，在介绍前一个屏幕最后一个城市的天气时，可能画面已经切换到后一个屏幕，此时声音所述的城市已经不在当前画面中，通过严格的时间戳控制取得的声音和画面对关键城市的匹配是不成功的，即声音和画面不同步。对于这种情况，在本发明所述的设备和方法中，已经给予考虑，如图8所示。

如图8所示，为了保证音视频的同步，采用系统时间、解码时间和表示时间，使得播放端和接收端在音视频播放上保持一致性。本发明中声音和视频的识别也以系统时间为基准对音视频流进行识别和采样。音视频采样窗口表示只对处于采样窗口内的音视频流进行声音识别和图像缓存，并进而进行图像识别。声音识别和图像识别的结果由图3中27时间校正单元进行时间戳和允许时间误差校验。如果两个时间戳的差在一定允许范围内，则认定此次音视频识别匹配成功，并进而进行信息存储。如果时间误差较大，超出允许误差，则认为非同时发生，则丢弃此次识别结果。如上述的天气预报和体育解说现象，通过设定时间允许误差范围，可以确保应该同时发生而实际出现误差的情况，在本发明中被有效的成功采集并记录。

图9为本发明所述设备和方法的工作流程。当用户开机或者调台后(101)选择指定节目进行播放(102)，此时信息采集单元读取用户对该节目的配置参数(103)，如果该节目的配置参数为开启敏感信息提取功能(104)，则启动音视频识别功能(105)。然后信息采集单元根据用户指定的敏感信息，如关键词，对声音和视频图像进行关键词识别(106)，如果音视频对关键词的识别都成功(107)，则将音视频识别结果进行时间同步性校验，看是否在允许时间差范围内(108)，如果是，则记录此次识别结果于信息记录单元(109)，之后进行下一次的识别。如果此功能没有开启，或者识别错误或时间不同步，则进行下次识别。用户可以根据需要随时通过用户接口单元控制，读取已存储的成功识别结果的记录(110)，然后将识别结果回放给用户收看(111)。

图10为视频图像识别在不同触发模式下的工作方式。当敏感信息提取功能被开启后，视频图像识别功能也被开启(图9步骤105)(图10步骤201)，此时读取用户对图像识别的配置参数，如视频图像采集频率(202)，之后将视频图像按照指定的采集频率采集进图像缓存单元(203)，根据配置参数，确定图像识别的触发方式(204)，如果为自动识别，即音视频相互独立根据指定关键词进行识别，则实时对采集的图像进行关键信息识别(206)，如果为音频优先，即音频识别成功后对视频进行识别模式，则等待音频识别结果(205)，如果音频识别成功，则顺序读取图像缓存单元中的图像，再逐一进行图像识别(207)。如果图像识别也成功(208)，则送入时间校正匹配单元对音视频识别结果进行时间判断(209)，判断音视频时间戳是否满足误差要求，如果时间满足要求，即在允许误差范围内，则认定为一个成功的信息提取，此时是否能够记录在信息存储单元中，还要检查当前的识别与已存储的内容是否有完全重复(210)，根据配置参数，选择丢弃、更新、覆盖或者追加记录(211)。

此处需要说明的是，图像缓存单元中图像采集数量，以及图像识别时从其中取出的图片时间信息，也是可以由用户进行指定，即过于陈旧的图片认定为已经失效，不进行图像识别，一般来说可以理解为在声音识别成功之前的一段允许时间到声音识别成功后一段时间内的图片，都是与声音识别时刻较为接近的图片，即可以被认为是与声音同步播放的视频画面。在音视频同步识别成功的情况下，如何确定某一幅图片是最为接近和可靠的，则可以根据时间戳判定，即在多个成功识别且在允许误差范围内的图片，他们可能在内容上非常相似，且时间上也非常接近，此时，则由时间匹配单元进行判断，与音频识别成功时刻最为接近的且成功识别的图片被认为是最为可靠的图片。由此，从图片缓存单元中取出图像进行图像识别的方法也可以有多种，如从音频识别成功时刻开始，向时间轴的两侧方向识别，这样保证第一个识别成功的图片即为与音频识别时间最接近的图片，进而进行保存。当然也可以顺序读取进行识别，再进行时间判断。或者不将最接近音频识别成功时刻作为指标，只要在时间误差的允许范围内的视频图像都可以被信赖而记录。

图11为举例说明匹配的过程。图中所示，图像存储单元存储了一段时间内的视频采集图像，左侧图像对应是图像缓存单元中时间上比较靠前的图像，右侧图像对应的是图像缓存单元较为靠后的图像。由于图像缓存单元中存储一段时间的图像，因此可能图像缓存单元中的图像为两个不同的内容，如之前为销售电脑的广告，之后为销售电话的广告。对于此例子中，识别的关键词为“‘联系电话’+8位以上连续阿拉伯数字”。当音频中输出为“联系电话：8888 6666…”等内容时，根据识别规则，此时音频识别成功。对于图像识别，此时图像识别单元取出位于图像缓冲区中的图像依次进行识别。对于左侧图像，图片中出现了“联系电话”的文字，并出现了连续的8位以上的数字，根据匹配规则，此时视频识别也成功。对于左侧图像识别和音频识别，按照时间校正匹配规则，音频识别成功时刻和视频图像识别成功非常接近，满足时间差要求，说明此时左侧图像为一个成功的识别匹配结果，可以进行保存处理。而对于右侧图像来说，此时图像的出现时刻有可能与音频识别成功时刻也满足时间差的要求，但是此时右侧图像中的内容，如“手提电话”和“该电话”，虽然与“联系电话”可能出现模糊匹配成功，但是屏幕上只有连续的4位阿拉伯数字，不满足8位以上阿拉伯数字的要求。因此右侧图像是不满足识别与匹配的要求，即不对视频识别成功时刻进行后续处理，如时间戳比较和存储。

如图12所示为针对音视频识别过程中的匹配是否成功的判断关系表。如图所示，用户通过用户接口单元指定了关键词，如指定两个“联系电话”和“电话号码”，二者为或的关系，即检测出其中一个即为检测成功。图中用户指定的音视频识别规则是“音频与用户指定关键词完全一致，视频为8位以上连续的阿拉伯数字(即0～9)。此时，对应于音频识别成功的原则是，如图中音视频关系表中的音频匹配列所示，即音频检测中，出现2个关键词之中任意一个词，即判断为音频识别成功，即音频识别的规则要求音频中必须出现与用户规定完全一致的内容才认定音频识别成功。对音频识别的算法，可以采用现有技术，如采用小波域隐马尔科夫模型HMM的语音识别算法，或如美国商用机器公司IBM的语音识别输入系统ViaVoice等软件中使用的方法。而对视频识别方面来说，视频识别成功的原则是：视频图像中含有8位连续的阿拉伯数字。针对阿拉伯数字的视频图像检测，可利用现有技术，如通过小波分析后进行模板匹配算法等，或如交通监视录像中对汽车车牌自动识别系统中所使用的车牌识别算法，可以检测出是否出现多位连续的，为0～9的阿拉伯数字。如果数字出现位置不连续，则判断为不成功，或者如最多是7位连续数字，则判断为不成功，如果8位或更多连续数字，则可以认为是成功的。即对应图中所示的音视频关系表中视频匹配项目所示。此例中，对视频检测是否成功的认定是识别的数字位数和是否为数字，而并不关心8位连续的阿拉伯数字具体是什么数字。在音视频识别都为成功的情况下，再按照所述的逻辑关系图，进行音视频时间戳检验和与存储单元中的内容是否一致性检验，进而进行存储。

当然，本发明所述的方法中，也可以只通过一种识别方式来实现对敏感信息的获取和保存，这些都可以通过用户设置系统的工作方式来实现。比如，用户可以关闭视频识别功能，即只检测音频中是否出现敏感信息，如果检测到，则将此时的敏感信息抽取出来并进行存储，此时，系统不关心视频流中是否有对应的敏感信息出现，即不进行音视频识别匹配过程。存储内容也可以为之前所述的视频图片、音视频片段或识别结果等。同样的，也可以关闭音频识别功能，只检测视频流中是否包含有敏感信息，只需要检测视频中的信息与用户输入的敏感信息相匹配，即可认为此信息是用户感兴趣的内容并将其保存在信息存储单元中。

本发明所述的用户配置参数包括以下几类：1)节目定制参数；2)工作模式选择；3)工作参数设定；4)敏感信息输入参数。其中节目定制参数主要包括：用户选择的节目名称、频道编号、检测功能开启的时间、针对该节目的每日重复是否启用同样配置等。工作模式选择主要包括：敏感信息检测功能的启动模式，如自动启动或手动启动或定时启动等；音视频检测的处理模式，如只针对音频或者视频进行识别，或者音频识别一直工作，如果识别成功触发视频识别模块再进行视频识别，或者视频识别一直工作，视频识别成功后启动音频识别模块再进行音频识别，或者音视频识别都一直在工作等；信息存储单元的存储模式，如对出现相同内容的情况下采用追加记录，或覆盖记录，或不记录，是否自动编辑信息条目等，以及对缓冲图片的识别顺序，如由音频识别成功时刻开始向前向后交互识别，还是由缓冲区单元中按照时间顺序进行图片识别等。对工作参数的设定主要包括：音频识别采样窗口的长度，如5秒或10秒；视频缓冲区的大小，如缓存5张图片或10张；视频采样频率，如每秒采样5张图片或10张，或只采样I帧图像等；时间校正匹配单元的参数，如音视频识别成功的时刻误差在1秒之内的认为是同步发生，或者是0.5秒等。对敏感信息的输入参数包括：敏感信息内容，如“联系电话”，敏感信息的处理方式，如精确匹配或模糊匹配，或者是通过某种逻辑关系。所谓精确匹配是指识别结果完全等于输入内容，所谓模糊匹配是指对输入内容的同义词近义词也进行匹配，如输入是“联系电话”而检测到“联系方式”、“热线电话”、“电话号码”等时也视为检测成功，当然，音视频检测到的内容可以不一致，但类似上述的近义词时也视为检测成功。所述的逻辑关系是指用户可以通过指定某种逻辑关系而设定敏感信息，如固定词+非指定词，举例如“‘联系电话’+连续8位以上阿拉伯数字”；或者是对音视频识别内容指定某种逻辑关系，举例如音频检测“联系电话”，视频检测连续8位以上非指定阿拉伯数字，等等诸如此类的逻辑关系。

在以上所述实施例中，关键词的输入方式为用户预先输入的，而关键词的定义方式不局限于此，本发明的关键词的定义方式也可以为用户实时定义的关键词。作为本发明实施例的扩充，用户可以根据电视播放音视频内容，随时定义敏感关键词。如在很多的情况下，用户在收看节目的时候突然发现自己比较感兴趣的内容，而这些内容并没有被用户预知而定义了关键词，对于突然发现的这种敏感信息，用户可以通过实时定义关键词。如在正常节目播放过程中，电视画面中播放滚动文字新闻。此时用户突然发现一条感兴趣的内容，可以立即通过快捷键对敏感词进行定义，修改或增加新的关键词，关闭或启动敏感词监视功能等操作。此时，本系统根据新定义的关键词进行敏感信息检测，如对滚动文字新闻开启只对视频内容对新增加的敏感信息进行检测，则可以立即将当前画面检测出来，并进行存储，或者，在滚动信息第二次出现时，将其抓获，从而避免了用户需要等待很长的滚动周期，并且在此周期内一直需要密切注意画面内容的辛劳。

不仅如此，用户还可以通过对关键词的输入对电视进行实时的控制，如用户在浏览EPG(电子节目指南)或选台过程中，可以直接输入希望的频道名称，在快速浏览EPG的过程中，迅速检索到此频道，从而进行频道的快速搜索和切换。同时，在浏览EPG的时候，也可以通过识别匹配关键词对EPG画面进行快速定位和自动切换，避免了使用遥控器多种按键进行复杂操作而进行EPG的浏览。通过用户输入的关键词，通过关键词、以及音视频内容的匹配，极大的方便用户在收看电视过程中对电视机及电视节目内容的操作和控制。

以上是基于数字电视为例子，以电视购物节目为实例，讲述该发明设备组成和具体实施流程。应该理解的是，该设备和方法可以应用在相同或相似功能的音视频播放采集设备中，针对各种音视频节目类型都适用。如金融节目中，针对随时变动的股票行情，用户即可通过特殊的股票名称和代码，从而从短暂播报时间，多项的股票列表和很快变动的行情中提取出所关注的信息。再如电视授课节目或购买的教学节目光盘播放时，很多情况下，教师会音频读取重点章节的内容，同时在视频画面展示关键信息，此时通过用户设定关键信息的方式，截取指定格式的内容，如画面、录音等，自动编写电子笔记，以便复习，极大方便了用户的使用。

Claims

1.一种音视频处理装置，包括：接收播放信号输出传输流的接收单元；对所述接收单元输出的传输流进行解码的解码单元；接收用户输入的指定内容的用户接口单元，其特征在于，该音视频处理装置还包括：提取规定内容的信息提取单元；和存储所述规定内容的信息存储单元，

所述指定内容包括指定视频内容或指定音频内容的一方，另一方由预先存储的音视频对照关系表来确定，

所述信息提取单元包括：

音频识别单元，从来自所述解码单元的音频流中识别出指定音频内容；

视频识别单元，从来自所述解码单元的视频流中识别出指定视频内容；和

信息匹配单元，接收来自所述音频识别单元的识别结果和所述视频识别单元的识别结果，对于识别出指定音频内容的音频流和识别出指定视频内容的视频流，确定音频识别单元的识别结果与所述视频识别单元的识别结果是否匹配，在二者匹配的情况下，则将与所述指定视频内容或所述指定音频内容对应的规定内容记录在所述信息存储单元中。

2.如权利要求1所述的音视频处理装置，其特征在于，

所述指定内容还包括：所述信息提取单元的规定的启动模式，

所述规定的启动模式是指如下模式之一：

(1)所述视频识别单元的启动在所述音频识别单元的识别成功后进行，此时的视频识别对象是音频识别单元的识别成功时刻前后规定时间段内的视频流；

(2)所述音频识别单元的启动在所述视频识别单元的识别成功后进行，此时的音频识别对象是视频识别单元的识别成功时刻前后规定时间段内的音频流；

(3)所述音频识别单元的启动与所述视频识别单元的启动相互独立。

3.如权利要求1所述的音视频处理装置，其特征在于，

所述音频识别单元的识别结果与所述视频识别单元的识别结果是否匹配是指音频识别单元识别出指定音频内容的音频时间戳和所述视频识别单元识别出指定视频内容的视频时间戳是否匹配，在二者的时间戳匹配的情况下，则将与该两个时间戳对应的音频信息和视频信息记录在所述信息存储单元中。

4.如权利要求3所述的音视频处理装置，其特征在于，所述信息提取单元还包括：

时钟校正单元，所述时钟校正单元确定所述音频时间戳和所述视频时间戳是否匹配。

5.如权利要求4所述的音视频处理装置，其特征在于，

确定所述音频时间戳和所述视频时间戳是否匹配是指二者所对应的识别成功时刻的时间差在规定范围内。

6.如权利要求5所述的音视频处理装置，其特征在于，

所述规定范围是指如下范围之一：0以上300毫秒以下；0以上100毫秒以下；0以上50毫秒以下；0毫秒。

7.如权利要求3所述的音视频处理装置，其特征在于，

将与所述两个时间戳对应的音频信息和视频信息记录在所述信息存储单元中可以是覆盖记录也可以是追加记录。

8.如权利要求1所述的音视频处理装置，其特征在于，所述音频识别单元包括：

音频采集单元(21)，该音频采集单元从来自所述解码单元的音频流中采集音频信号；和

音频关键词提取与匹配单元(24)，将所述音频采集单元所采集的音频信号与所述指定音频内容进行匹配，以从来自所述解码单元的音频流中识别出从所述指定内容中的指定音频内容。

9.如权利要求1所述的音视频处理装置，其特征在于，所述视频识别单元包括：

视频采集单元(22)，该视频采集单元从来自所述解码单元的视频流中按照规定采样方式采集视频图像；和

图像关键词识别单元，对所述视频采集单元所采集的视频图像进行检测确认该图像中是否有所述指定视频内容，以从来自所述解码单元的视频流中识别出从所述指定内容中的指定视频内容。

10.如权利要求9所述的音视频处理装置，其特征在于，还包括：

图像缓存单元，存储所述视频采集单元(22)所采集的视频图像，并在需要时将所存储的视频图像送到所述图像关键词识别单元进行识别。

11.如权利要求9所述的音视频处理装置，其特征在于，

所述规定采样方式是连续抽取视频流中的每一图像帧或者按照规定抽取规则抽取规定的图像帧。

12.如权利要求11所述的音视频处理装置，其特征在于，

所述按照规定抽取规则抽取规定的图像帧是指间隔规定时间提取规定数目的视频图像、或者是指仅提取规定类型的图像帧。

13.如权利要求1所述的音视频处理装置，其特征在于，

所述规定内容是指如下内容中的至少一个：作为与所述指定视频内容对应的视频信息的视频图像截屏信息、作为与所述指定音频内容对应的音视频信息的音视频片段、所述音频识别单元的识别结果及所述视频识别单元的识别结果的文本。

14.如权利要求1所述的音视频处理装置，其特征在于，

所述指定音频内容和所述指定视频内容相同。

15.一种音视频处理装置，包括：接收播放信号输出传输流的接收单元；对所述接收单元输出的传输流进行解码的解码单元；接收用户输入的指定内容的用户接口单元，其特征在于，该音视频处理装置还包括：提取规定内容的信息提取单元；和存储所述规定内容的信息存储单元，

所述指定内容包括指定视频内容和指定音频内容，

所述信息提取单元包括：

信息匹配单元，接收来自所述音频识别单元的识别结果和所述视频识别单元的识别结果，对于识别出指定音频内容的音频流和识别出指定视频内容的视频流，确定音频识别单元的识别结果与所述视频识别单元的识别结果否匹配，在二者匹配的情况下，则将与所述指定视频内容和所述指定音频内容对应的规定内容记录在所述信息存储单元中。

16.一种音视频处理方法，包括：接收播放信号输出传输流的接收工序；对所述接收工序输出的传输流进行解码的解码工序；接收用户输入的指定内容的用户输入工序；基于用户的指定内容提取规定内容的信息提取工序；和存储所述规定内容的信息存储工序，其中，

所述指定内容包括指定视频内容和指定音频内容的一方或者两方，在只包括其中一方的情况下，另一方由预先存储的音视频对照关系表来确定，

所述信息提取工序包括：

音频识别工序，从来自所述解码工序的音频流中识别出指定音频内容；

视频识别工序，从来自所述解码工序的视频流中识别出指定视频内容；和

信息匹配工序，根据所述音频识别工序的识别结果和所述视频识别工序的识别结果，对于识别出指定音频内容的音频流和识别出指定视频内容的视频流，确定音频识别结果与视频识别结果是否匹配，在二者匹配的情况下，则将与所述指定视频内容和所述指定音频内容对应的规定内容记录在信息存储单元中。

17.如权利要求16所述的音视频处理方法，其特征在于，

所述规定内容是指如下内容中的至少一个：作为与所述指定视频内容对应的视频信息的视频图像截屏信息、作为与所述指定音频内容对应的音视频信息的音视频片段、所述音频识别工序的识别结果及所述视频识别工序的识别结果的文本。

18.如权利要求16所述的音视频处理方法，其特征在于，

所述指定内容还包括：所述信息提取工序的规定的启动模式，

所述规定的启动模式是指如下模式之一：

(1)所述视频识别工序的启动在所述音频识别工序的识别成功后进行，此时的视频识别对象是音频识别工序的识别成功时刻前后规定时间段内的视频流；

(2)所述音频识别工序的启动在所述视频识别工序的识别成功后进行，此时的音频识别对象是视频识别工序的识别成功时刻前后规定时间段内的音频流；

(3)所述音频识别工序的启动与所述视频识别工序的启动相互独立。

19.如权利要求16所述的音视频处理方法，其特征在于，

所述音频识别工序的识别结果与所述视频识别工序的识别结果是否匹配是指音频识别工序识别出指定音频内容的音频时间戳和所述视频识别工序识别出指定视频内容的视频时间戳是否匹配，在二者的时间戳匹配的情况下，则将与该两个时间戳对应的音频信息和视频信息加以存储。

20.如权利要求19所述的音视频处理方法，其特征在于，所述信息提取工序还包括：

确定所述音频时间戳和所述视频时间戳是否匹配的时钟校正工序。

21.如权利要求20所述的音视频处理方法，其特征在于，

22.如权利要求21所述的音视频处理方法，其特征在于，

23.如权利要求19所述的音视频处理方法，其特征在于，

将与所述两个时间戳对应的音频信息和视频信息进行覆盖记录或者追加记录。

24.如权利要求16所述的音视频处理方法，其特征在于，所述音频识别工序包括：

从来自所述解码工序的音频流中采集音频信号的音频采集工序；和

音频关键词提取与匹配工序，将所采集的音频信号与所述指定音频内容进行匹配，以从所述音频流中识别出从所述指定音频内容。

25.如权利要求16所述的音视频处理方法，其特征在于，所述视频识别工序包括：

视频采集工序，从所述视频流中按照规定采样方式采集视频图像；和

图像关键词识别工序，对所采集的视频图像进行检测确认该图像中是否有所述指定视频内容，以从所述视频流中识别出从所述指定视频内容。

26.如权利要求25所述的音视频处理方法，其特征在于，

27.如权利要求26所述的音视频处理方法，其特征在于，

28.如权利要求16所述的音视频处理方法，其特征在于，

所述指定音频内容和所述指定视频内容相同。