CN105516651A

CN105516651A - 用于在成像设备中提供组合摘要的方法和设备

Info

Publication number: CN105516651A
Application number: CN201510661822.9A
Authority: CN
Inventors: 赵成峯
Original assignee: Samsung Techwin Co Ltd
Current assignee: Hanhua Vision Co ltd
Priority date: 2014-10-14
Filing date: 2015-10-14
Publication date: 2016-04-20
Anticipated expiration: 2035-10-14
Also published as: US20160104045A1; US20170076155A1; US9542604B2; KR101994291B1; CN105516651B; US9798934B2; KR20160043865A

Abstract

提供用于在成像设备中提供组合摘要的方法和设备。提供一种通过接收监控的音频和视频而提供组合摘要的方法和设备。所述方法包括：接收至少一个网络相机捕获的音频和视频；通过从音频和视频中的至少一个检测至少一个视频事件来产生视频摘要；通过从音频和视频中的至少一个检测至少一个音频事件来产生音频摘要；提取与所述至少一个音频事件相应的视频摘要的至少一个段，并将提取的视频摘要的至少一个段与音频摘要进行存储；向视频再现设备的显示器提供用于控制视频摘要的视频摘要控制接口和用于控制音频摘要的音频摘要控制接口。

Description

用于在成像设备中提供组合摘要的方法和设备

本申请要求于2014年10月14日提交到韩国知识产权局的第10-2014－0138611号韩国专利申请的优先权，该申请的公开通过引用全部合并于此。

技术领域

与示例性实施例一致的设备和方法涉及视频监控，更具体地讲，涉及在视频监控系统中基于音频数据产生并提供视频摘要或视频梗概。

背景技术

在视频监控系统中，使用基于视频数据的视频摘要/视频梗概功能对输入视频的视频数据进行概括。

如果在视频监控系统中仅对视频数据进行概括，那么在监控相机的盲点发生的事件或者没有视频事件而发生的重要的音频事件可能被漏掉。

如果在视频监控系统中仅对音频数据进行概括，与视频数据不同，当音频数据没有按照时间顺序被听到的时候，音频数据的内容难以理解。当同时再现多种音频数据时，音频数据的内容不太可能被识别。

发明内容

示例性实施例提供一种视频再现设备和一种在视频再现设备提供组合摘要(combinedsummary)的方法。

各个方面将在下面的描述中部分阐述，部分从该描述将是清楚的，或者可以通过本实施例的实践获知。

根据示例性实施例，提供一种在视频再现设备中提供组合摘要的方法。所述方法可包括：接收至少一个网络相机捕获的音频和视频；通过从音频和视频中的至少一个检测至少一个视频事件来产生视频摘要；通过从音频和视频中的至少一个检测至少一个音频事件来产生音频摘要；提取与所述至少一个音频事件相应的视频摘要的至少一个段，并将提取的视频摘要的至少一个段与音频摘要进行存储；向视频再现设备的显示器提供用于控制视频摘要的视频摘要控制接口和用于控制音频摘要的音频摘要控制接口。

上面的方法还可包括：使用视频摘要控制接口，选择视频摘要的检测到特定视频事件的段；使用音频摘要控制接口，选择音频摘要的检测到特定音频事件的段；如果选择的视频摘要的段和选择的音频摘要的段互相重叠，则在视频再现设备的显示器中，标识重叠的段以与视频摘要和音频摘要的其他段进行区分。

可选地，上述方法还可包括：使用音频摘要控制接口，选择音频摘要的检测到特定音频事件的段；使用视频摘要控制接口，选择视频摘要的检测到特定视频事件的段；如果选择的视频摘要的段和选择的音频摘要的段互相重叠，则在视频再现设备的显示器中，标识重叠的段以与其他段进行区分。

可通过如果从所述音频和视频中的至少一个检测到可识别的特征则确定所述至少一个音频事件已经发生，来从所述音频和视频中的至少一个检测所述至少一个音频事件。所述可识别的特征可包括以下项中的至少一个：特定词、特定特征、特定声音。

上面的方法还包括：将可识别的特征转换为文字；将音频摘要中的文字与关于检测到可识别的特征时的时间信息进行显示。

根据另一个示例性实施例，提供从终端接收音频和视频并提供组合摘要的方法。所述方法可包括：从音频和视频提取包括可识别的特征的音频帧；提取与音频帧相应的视频帧或视频帧的视频摘要；将音频帧链接到视频帧或者视频帧的视频摘要；插入表示音频帧所属的视频的时间的时间标签。

根据另一个示例性实施例，提供一种用于提供组合摘要的视频再现设备，所述视频再现设备可包括：接收器，被配置为接收至少一个网络相机捕获的音频和视频；视频摘要产生器，被配置为通过从音频和视频中的至少一个检测至少一个视频事件来产生视频摘要；音频摘要产生器，被配置为通过从音频和视频中的至少一个检测至少一个事件来产生音频摘要；音频摘要存储器，被配置为提取与所述至少一个音频事件相应的视频摘要的至少一个段，并将提取的视频摘要的至少一个段与音频摘要进行存储；视频摘要控制接口，被提供用于控制视频再现设备的显示器上的视频摘要；音频摘要控制接口，被提供用于控制视频再现设备的显示器上的音频摘要。

附图说明

通过下面结合附图对实施例进行的描述，这些和/或其他方面将变得清楚和更容易理解，其中：

图1是根据示例性实施例的能够提供组合摘要的视频再现设备的框图；

图2示出根据示例性实施例的能够提供组合摘要的视频再现设备的组件的一些功能；

图3示出根据示例性实施例的组合摘要搜索屏幕；

图4是根据另一示例性实施例的视频再现设备的框图；

图5是根据示例性实施例的通过使用音频帧提取单元处理音频信号的处理的流程图；

图6是根据示例性实施例的用于将音频信号转换为文字的文字转换器的框图；

图7示出根据示例性实施例的组合摘要再现屏幕。

具体实施方式

现在，将对参照附图在此描述的示例性实施例进行详细地参考。在这点上，实施例可具有不同的形式，并且不应被解释为局限于在此阐述的描述。因此，以下仅通过参照附图描述实施例，以解释本发明构思的各个方面。如在此所使用的，术语“和/或”包括一个或多个相关所列项的任意和所有组合。当诸如“中的至少一个”的表述在一列元素之后时，所述表述修饰整列元素，而不是修饰列的单个元素。

图1是根据示例性实施例的能够提供组合摘要的视频再现设备的框图。图3示出根据示例性实施例的组合摘要搜索屏幕，所述组合摘要搜索屏幕包括视频再现设备中被支持的视频摘要控制接口和音频摘要控制接口。图7示出根据示例性实施例的组合摘要再现屏幕，以解释再现组合摘要的方法。下面将参照图1、图3和图7对多个示例性实施例进行描述。

根据示例性实施例，组合摘要可被理解为根据用户的选择，选择性地再现视频摘要或音频摘要，或者同时再现视频摘要和音频摘要。

可以通过从音频中选择包括特定声音(sound)和特定词语的音频摘要，设置通过对包括特定事件的视频摘要进行组合而被压缩的视频的时间范围，并提取音频和视频帧来再现组合摘要。

根据一个示例性实施例，即使单独地对音频摘要进行再现，与所述音频摘要相应的段的视频帧或者视频摘要也与音频摘要一起被再现。

根据参照图1的示例性实施例，视频再现设备100包括视频接收器110、视频摘要产生器120、视频摘要存储器130、包括视频摘要控制接口142的视频摘要再现器140、音频摘要产生器121、音频摘要存储器131以及包括文字显示器143和音频摘要控制接口145的音频摘要再现器141。

视频接收器110从至少一个相机CH1至CHN(例如，网络相机)接收音频/视频。视频摘要产生器120通过对由视频接收器110接收到的音频/视频的视频数据进行处理来产生视频摘要，并且将视频摘要存储在视频摘要存储器130中。

视频摘要产生器120通过从音频/视频(即，原始音频/视频)中检测事件来产生视频摘要。在此情况下，事件可被定义为包括可识别的特征的场景。例如，事件可包含对象(例如，建筑物、汽车、人、动物等)和场景(例如，火灾、爆炸、事故等)这二者。

视频摘要存储器130将以下二者之一与视频摘要一起进行存储：当视频摘要产生器120产生视频摘要时检测到的运动、分析检测到的事件的视频的结果。

音频摘要产生器121通过对由视频接收器110接收到的音频/视频的音频数据进行处理来产生音频摘要，并且将音频摘要存储在音频摘要存储器131中。音频摘要存储器131提取与检测到事件的音频数据的每个段相应的视频帧或者视频摘要，或者提取视频摘要，并且将视频摘要与音频摘要一起进行存储。

根据示例性实施例，音频摘要产生器121可执行基于时间的音频/视频压缩、基于特定词语的音频/视频压缩、基于声音的音频/视频压缩或者作为这些压缩的组合的混合音频/视频压缩。

在基于时间的音频/视频压缩中，在包括音频数据的特定时间段的范围内执行采样，并且提取所述特定时间段中的视频帧。

在此情况下，对包括特定词语、特定句子或者特定声音的特定时间段进行采样。即使在不存在音频数据的时间段中的视频数据中检测到了事件，包括事件的视频帧也被采样。当大部分时间段中没有发生事件时，选择与任意时间段相应的视频帧以产生压缩的音频和视频。

在基于特定词语的音频/视频压缩中，在包括特定词语或句子的特定时间段内提取视频帧。在此情况下，可基于转换为文字的数据确定是否包括特定词语。当语音(voice)数据只包括一个特定的词语时，语音数据的上下文不能够被理解。因此，不仅在包括所述词语的时间范围内提取视频，而且在所述时间范围之前的时间段和之后的时间段提取视频。

在基于声音的音频/视频压缩中，根据通过从音频数据提取的特定声音的模式获取的数据来获取时间范围，并且以执行基于特定词语的音频/视频压缩的方式在此时间范围内提取视频帧。

在图3中，视频再现设备100(图1)的视频摘要控制接口142和音频摘要控制接口145被示出为组合摘要搜索屏幕300。

参照图3，组合摘要搜索屏幕300包括原始数据搜索通道输入单元305、原始数据搜索范围显示单元310、语音识别搜索词输入单元315、原始数据开始时间输入单元320、原始数据结束时间输入单元325、声音识别搜索条件选择单元330、视频搜索条件设置单元335、视频事件搜索类型选择单元340、视频事件区域设置单元345、视频摘要搜索开始按钮350、视频摘要搜索结束按钮355以及初始的原始数据输出屏幕360。

原始数据搜索通道输入单元305是这样的区域：通过该区域，用户(例如，监控系统管理者)输入将产生视频摘要的原始数据的通道。这里，所述原始数据可为在视频再现设备的视频接收器110接收到的原始音频/视频数据。原始数据搜索范围显示单元310是这样的区域：通过该区域，用户显示将产生视频摘要的原始数据的范围。当使用原始数据搜索通道输入单元305确定获取原始数据的相机的通道时，在原始数据搜索范围显示单元310上，以时间为单位呈现原始数据的量。

显示在原始数据搜索范围显示单元310上的原始数据的量帮助用户将合适的时间输入到原始数据开始时间输入单元320和原始数据结束时间输入单元325中。

语音识别搜索词输入单元315是这样的区域：通过该区域，用户可输入将从原始数据的音频数据被搜索的词语或句子。

原始数据开始时间输入单元320和原始数据结束时间输入单元325是这样的区域：通过该区域，用户可输入时间信息，例如，提取原始数据的视频摘要所需的原始数据的开始时间点和结束时间点。

声音识别搜索条件选择单元330是这样的区域：通过该区域，用户可选择将从原始数据的音频数据被搜索的声音的类型。用户可选择的声音的示例可为枪声、玻璃窗破碎的声音、尖叫声等。用户可任意的添加或删除声音的类型。

视频搜索条件设置单元335是这样的区域：通过该区域，视频搜索条件可被设置为以时间为单位或以特定事件为单位来对视频帧进行采样。

视频事件搜索类型选择单元340是这样的屏幕：当通过使用视频搜索条件设置单元335将视频搜索条件设置为以特定事件为单位对视频帧进行采样时，该屏幕被激活。通过视频事件搜索类型选择单元340，用户可选择将从原始数据被提取的视频事件的类型。

视频事件区域设置单元345是这样的屏幕：当通过使用视频搜索条件设置单元335将视频搜索条件设置为以特定事件为单位对视频帧进行采样时，该屏幕被激活。通过视频事件区域设置单元345，用户可设置将从原始数据被提取的视频事件的区域。用户可使用视频事件区域设置单元345搜索捕获到事件的源视频的部分片段，从而，可更有效地提取包含视频事件的视频帧。

根据一个示例性实施例，音频摘要控制接口145(图1)可包括语音识别搜索词输入单元315，声音识别搜索条件选择单元330以及其他用于控制、存储和再现音频摘要的各种接口。

根据一个示例性实施例，视频摘要控制接口142可包括视频搜索条件设置单元335、视频事件搜索类型选择单元340、视频事件区域设置单元345以及其他用于控制、存储和再现视频摘要的各种接口。

图7示出根据示例性实施例的组合摘要再现屏幕。

参照图7，当用户同时再现视频摘要和音频摘要时，视频摘要或者音频摘要根据预设条件(例如，时间顺序或者事件发生的顺序)进行再现。这样的标准可使用组合摘要再现控制接口716进行设置。组合摘要再现控制接口716是包括图1所示的音频摘要控制接口145和视频摘要控制接口142二者的概念。

在组合摘要再现屏幕700中，标识标志被分配给视频摘要和音频摘要互相重叠的时间段，从而用户可识别出：视频事件和音频事件在所述时间段中重叠。

根据另一示例性实施例，使用音频摘要控制接口(例如，组合摘要再现控制接口716)仅选择音频摘要的发生特定事件的段，并且使用视频摘要控制接口(例如，组合摘要再现控制接口716)可另外选择性地仅选择视频摘要的发生特定事件的段。在此情况下，当音频摘要的发生特定事件的段和视频摘要的发生特定事件的段互相重叠时，音频摘要和视频摘要也可以按重叠段被标识出的方式(见标号710、712和714)被再现。

图2示出根据示例性实施例的能够提供组合摘要的视频再现设备的组件的一些功能。

视频摘要产生器210通过对从输入视频接收器200接收到的视频数据进行处理来产生视频摘要，并将产生的视频摘要存储在视频摘要存储器230中。视频摘要产生器210从视频数据检测具有可识别特征的事件(见S211、S213和S215)，并且将与检测到事件的视频数据的段相关的信息存储到视频摘要存储器230中。参照图2，在10:07时检测到携带炸弹的男人，发生在10:10的炸弹爆炸和发生在10:20的汽车炸弹爆炸被作为视频事件的示例示出。

音频摘要产生器220通过对从输入视频接收器200接收到的音频数据进行处理来产生音频摘要，并将产生的音频摘要存储在音频摘要存储器240中。音频摘要产生器220从音频数据检测具有可识别特征的事件(见S228、S224和S215)，并且将检测到的事件的段存储到音频摘要存储器240中。

音频摘要产生器220从音频数据的包含显著数据的段S222、S224和S226检测具有可识别特征(见S228、S224和S215)的事件。此外，将段S222、S224和S226所对应的视频帧段S238、S234和S215与段S222、S224和S226一起进行存储。

参照图2，在10:05检测到的语音数据“举起手来”，在10:10检测到的爆炸的声音和在10:20检测到的爆炸的声音被作为音频事件的示例被检测到。根据一个示例性实施例，音频事件和与检测到的音频事件时的时间点相应的视频帧或者视频摘要被一起存储。

虽然在图2中未示出，但是在10:05检测到的语音数据“举起手来”与10:05所对应的视频帧被一起存储。在音频摘要存储器240中，数据以音频/视频交错的文件格式被存储，在所述文件格式中音频帧和视频帧被混合在一起。在此情况下，表示与视频帧和音频帧中的每个相应的原始视频的时间的时间标签可被插入到视频帧和音频帧的每个中。

当包括10:05检测到的语音数据“举起手来”的音频摘要被再现时，时间点10:05所对应的视频帧或者视频摘要与所述音频摘要一起被再现。

根据一个示例性实施例，由于音频摘要和视频摘要包括检测到事件的视频/音频帧的原始数据的时间信息，所以当需要时移动到并再现原始数据是可能的(见图7中的740、720、722和730)。

被配置为再现音频摘要或视频摘要的集成再现单元250可显示表示音频或视频事件的标签S251或S252。此外，集成再现单元250可以标签S253的形式显示从音频事件转换的文字。

图4是根据另一个示例性实施例的视频再现设备的框图。

视频再现设备包括输入视频接收器410、视频/音频数据处理器420、组合摘要产生器430、组合摘要再现器460、视频/音频时间段信息数据库(DB)440和文字转换器450。

视频/音频处理器420包括视频帧提取器422和音频帧提取器424。组合摘要产生器430包括视频摘要提取器432和音频摘要提取器434。

视频帧提取器422可以时间为单位或以事件为单位从接收到的视频数据提取可识别的特征。在此情况下，可使用各种技术，例如，直线检测、场景检测、融合、分离和人脸检测。

组合摘要产生器430可基于视频/音频时间段信息DB440，将音频摘要提取器434提取的音频事件段和与音频事件段对应的视频事件段进行组合，以形成链接。文字转换器450将音频摘要提取器434提取的语音数据转换为文字，并以文字的形式输出语音数据。

组合摘要再现器460包括分别包含视频摘要控制接口472和音频摘要控制接口482的视频摘要提供器470和音频摘要提供器480。

图5示出根据示例性实施例的通过使用图4的视频帧提取器处理音频信号的处理的流程图。

当接收到音频数据(操作S510)时，音频帧提取器424基于音频数据的频率特征将音频数据分离成一个或更多个段(操作S522)。可根据频率特征(例如，根据高频、中频和低频)对音频数据进行分离。另外，可根据成年男人的语音、成年女人的语音和儿童的语音对音频数据进行分离。在此情况下，可参考关于由音频配置单元(未示出)提供的音频的特征的各种信息。

在执行语音预处理(操作S520)后，根据频率分离的音频数据的特征点被提取为以特征向量的形式表示，并且被处理为能够被分析语音/声音的音色或模式的数据(操作S530)。详细来说，在从音频数据提取显著词、音节或句子之前执行操作S530，在操作S530中使用特征向量处理音频数据并且确定用于合适地处理每个数据的滤波器。

例如，可使用根据频率分离的女人的语音数据的特征向量，首先对女人的语音的音调、发音和语速进行分析，其次对另外的信息(例如，女人的年龄)可进行分析，然后确定应用于语音数据的滤波器和处理语音数据的方法。声音数据可类似于语音数据被分析。

在分析特征向量(操作S530)之后，分析的特征向量的模式被识别出，并与预定的参考模式进行对比(操作S540)。参考模式包括关于声音的信息，例如，发出语音的人的年龄、性别和语速、语音的音调、枪声、尖叫、警报声、打碎玻璃窗的声音等。

此外，可通过各个地识别词(例如，通过孤立词识别)、通过连续的语音识别来识别句子或者检测关键词对语音的模式进行识别。

音频帧提取器提取音频帧和音频帧的时间段信息，其中，所述音频帧包括分析的特征向量的模式之中的与预设参考模式相同的音频模式。这里，音频帧的时间段信息是指表示当音频帧所对应的原始数据的部分被再现时的时间段的信息。

根据一个示例性实施例，可从具有特定含义的音频数据提取一系列的音频帧。

由于仅基于特定的词，不可以理解上下文，所以，可基于通过将与对应于音频事件的特定词相应的时间段的范围增加为包括所述时间段之前的时间段和之后的时间段而获取的时间段信息，来提取音频帧，从而实现监控系统的目标。提取音频帧的方法也适用于特定声音。下面将参考示出图4的文字转换器450的详细配置的图6描述将音频转换为文字的处理。根据一个示例性实施例，文字转换器450包括转换处理器610和元数据存储器630。转换处理器610包括语言模型分析器613和语言词典提供器616。

返回到图5，在完成上面的模式识别(操作S540)之后，提取的音频帧被接收并转换为文字(操作S550)。语言模型分析器613接收语音数据，首先确定包含在语音数据中的语言的类型，指定语言的类型，并将语音数据和关于指定的语言的信息提供给语言词典提供器616。

语言词典提供器616从语言模型分析器613接收关于指定的语言的信息，并为转换处理器610提供信息以将语音数据转换为文字。

基于在操作S540执行的模式识别得到的信息而从语音数据转换的文字不但可包括显著词或句子，而且也包括诸如发声的人的性别、语音的音调、人的年龄等信息。例如，当从包括在语音数据的语音识别出一位20多岁的爱尔兰女人正在求救时，在监控系统的监控器上显示字幕“帮帮我，20多岁的爱尔兰女人”。

元数据存储器630接收并存储通过转换处理器610转换为文字的音频数据。在此情况下，不但存储转换为文字的音频数据，还将根据频率特征将音频数据分离为段所对应的音频时间信息存储为视频元数据。

与根据频率特征分离的音频数据相应的视频时间段信息可被与转换为文字的音频数据相应的视频时间段信息所替换。此外，存储为视频元数据的音频时间段信息可被转换并存储为文字。

例如，如果与根据频率特征分离的音频数据相应的视频段对应于12:00到12:20，与转换为文字的音频数据相应的视频段(检测到音频事件的段)对应于12:05到12:06，则在监控系统的屏幕上显示字幕的视频时间段信息可对应于12:05到12:06。

但是，由于需要与12:00到12:20相应的视频时间段信息以确定产生包括音频事件的语音/声音数据时的准确时间从而理解音频数据的内容，因此用户可选择性地使用所述两个视频段。

如上所描述的，根据上面的示例性实施例，能够提供组合摘要的视频再现设备可概括音频数据和视频数据这二者，使得关于未发生视频事件的时间段的数据也可被概括，从而提高数据的精度。

此外，还可通过介质(例如，计算机可读介质)内/上的计算机可读的代码/指令来实现以上实施例，以控制至少一个处理元件来实现视频再现设备的上述操作或功能。所述介质可与允许计算机可读代码的存储和/或传送的任何介质(medium)/媒体(media)相应。

计算机可读代码可以以多种方式在介质上记录/传输，所述介质的示例包括：诸如磁存储介质(例如，ROM、软盘、硬盘等)和光记录介质(例如，CD-ROMs或DVDs)的记录介质以及诸如互联网传输介质的传输介质。因此，所述介质可为这样定义的和可测量的结构，其包括或携带信号或者信息，诸如，根据一个或多个示例性实施例的携带比特流的装置。所述介质也可以是分布式网络，从而以分布式的方式存储/传送和执行计算机可读代码。此外，所述处理元件可包括处理器或者计算机处理器，并且处理元件可进行分布和/或包括在单个装置中。

根据示例性实施例，如图1、2、4和6所示的由框图表示的组件、元件或单元中的至少一个可被实施为执行上述各个功能的各种数量的硬件、软件和/或固件结构。例如，这些组件、元件或者单元中的至少一个可使用可通过一个或多个微处理器或其它控制设备的控制来执行各个功能的直接电路结构，例如，存储器、处理、逻辑、查表等。此外，这些组件、元件或者单元中的至少一个可通过包括一个或多个用于执行特定逻辑功能的可执行指令的模块、程序或部分代码来专门实施。此外，这些组件、元件或者单元中的至少一个还可包括执行各个的功能的处理器(例如，中央处理单元)、微处理器等。这些组件、元件或者单元中的两个或者更可被组合为一个组件、元件或单元中，所述一个组件、元件或单元执行组合的两个或者更多个组件、元件或单元的所有操作或者功能。此外，虽然在上述框图中没有示出总线，但是所述组件、元件或者单元之间的通信可通过总线来执行。上述示例性实施例的功能性方面可被实施为在一个或多个处理器上运行的算法。此外，通过框表示的组件、元件或单元或处理步骤可采用任何数量的用于电子配置、信号处理和/或控制、数据处理等的相关领域的技术。

应该理解，在此描述的示例性实施例应被认为仅是描述性的意义，而不是为了限制的目的。每个实施例内的特征或方面的描述通常应该被认为是可用于其他实施例中的其他类似特征或方面。

尽管已经参照附图描述了一个或多个示例性实施例，但是本领域普通技术人员将理解，在不脱离由权利要求限定的本发明构思的精神和范围的情况下，可在此做出形式和细节上的各种改变。

Claims

1.一种在视频再现设备中提供组合摘要的方法，所述方法包括：

接收至少一个相机捕获的音频和视频；

通过从音频和视频中的至少一个检测至少一个视频事件来产生视频摘要；

通过从音频和视频中的至少一个检测至少一个音频事件来产生音频摘要；

提取与所述至少一个音频事件相应的视频摘要的至少一个段，并将提取的视频摘要的至少一个段与音频摘要进行存储；

向视频再现设备的显示器提供用于控制视频摘要的视频摘要控制接口和用于控制音频摘要的音频摘要控制接口。

2.如权利要求1所述的方法，还包括：

使用视频摘要控制接口，选择视频摘要的检测到特定视频事件的段；

使用音频摘要控制接口，选择音频摘要的检测到特定音频事件的段；

如果选择的视频摘要的段和选择的音频摘要的段互相重叠，则在视频再现设备的显示器中，标识重叠的段以与视频摘要和音频摘要的其他段进行区分。

3.如权利要求1所述的方法，还包括：

使用音频摘要控制接口，选择音频摘要的检测到特定音频事件的段；使用视频摘要控制接口，选择视频摘要的检测到特定视频事件的段；

如果选择的视频摘要的段和选择的音频摘要的段互相重叠，则在视频再现设备的显示器中，标识重叠的段以与其他段进行区分。

4.如权利要求1所述的方法，还包括：再现音频摘要和视频摘要中的至少一个。

5.如权利要求1所述的方法，其中，通过如果从所述音频和视频中的至少一个检测到可识别的特征则确定所述至少一个音频事件已经发生，来从所述音频和视频中的至少一个检测所述至少一个音频事件，

其中，所述可识别的特征包括以下项中的至少一个：特定词语、特定特征、特定声音。

6.如权利要求5所述的方法，其中，产生所述音频摘要的步骤包括：

确定与检测到的至少一个音频事件相应的时间范围；

确定可识别的特征是否满足预设条件；

如果可识别的特征满足预设条件，则将所述时间范围增加在检测到的至少一个音频事件之前和之后的预定量；

提取与增加的时间范围相应的音频帧以产生音频摘要。

7.如权利要求5所述的方法，还包括：

将可识别的特征转换为文字；

将音频摘要中的文字与关于检测到可识别的特征时的时间信息进行显示。

8.如权利要求7所述的方法，还包括：

使用音频摘要控制接口，选择显示在音频摘要中的文字；

作为选择的结果，检测构成音频摘要的至少一个音频段和视频摘要的与所述至少一个音频段相应的至少一个段。

9.如权利要求7所述的方法，还包括：在音频摘要中以标签的其形式提供转换为文字的可识别的特征。

10.如权利要求5所述的方法，其中，基于频率特征从音频检测特定声音。

11.如权利要求5所述的方法，还包括：通过音频摘要控制接口接收输入的频率特征值；

检测匹配输入频率特征值的声音作为所述特定声音。

12.如权利要求11所述的方法，其中，所述音频摘要控制接口支持用于选择或者输入所述输入的频率特征值的声音选择接口，

其中，所述声音选择接口基于所述输入的频率特征值提供用于选择以下项中的至少一个项的接口：女人、男人、幼儿、老人、高音调的声音、低音调的声音、紧急状态。

13.一种从终端接收音频和视频并提供组合摘要的方法，所述方法包括：

从音频和视频提取包括可识别的特征的音频帧；

提取与音频帧相应的视频帧或视频帧的视频摘要；

将音频帧链接到视频帧或者视频帧的视频摘要；

插入表示音频帧所属的视频的时间的时间标签。

14.如权利要求13所述的方法，其中，可识别的特征包括以下项中的至少一个：特定词语、特定特性、特定声音。

15.一种用于提供组合摘要的视频再现设备，所述视频再现设备包括：

接收器，被配置为接收至少一个相机捕获的音频和视频；

视频摘要产生器，被配置为通过从音频和视频中的至少一个检测至少一个视频事件来产生视频摘要；

音频摘要产生器，被配置为通过从音频和视频中的至少一个检测至少一个音频事件来产生音频摘要；

音频摘要存储器，被配置为提取与所述至少一个音频事件相应的视频摘要的至少一个段，并将提取的视频摘要的至少一个段与音频摘要进行存储；

视频摘要控制接口，被提供用于控制视频再现设备的显示器上的视频摘要；

音频摘要控制接口，被提供用于控制视频再现设备的显示器上的音频摘要。

16.如权利要求15所述的视频再现设备，其中，所述音频摘要产生器还被配置为：通过如果从所述音频和视频中的至少一个检测到可识别的特征，则确定所述至少一个音频事件已经发生，来从所述音频和视频中的至少一个检测所述至少一个音频事件，

其中，所述可识别的特征包括以下项中的至少一个：特定词语、特定特性、特定声音。

17.如权利要求16所述的视频再现设备，还包括：文字转换器，被配置为将可识别的特征转换为文字，并将音频摘要中的文字与关于检测到可识别的特征时的时间信息进行显示。

18.如权利要求17所述的视频再现设备，其中，所述音频摘要控制接口被配置为允许选择显示在视频摘要中的文字，

作为选择的结果，所述音频摘要产生器被配置为检测构成音频摘要的至少一个音频段和视频摘要的与所述至少一个音频段相应的至少一个段。

19.如权利要求16所述的视频再现设备，其中，所述音频摘要产生器还被配置为通过所述音频摘要控制接口接收输入的频率特征值，并检测匹配输入的频率特征值的声音作为所述特定声音。

20.如权利要求15所述的视频再现设备，其中，所述音频摘要产生器包括音频帧提取器，

其中，所述音频帧提取器被配置为确定与检测到的至少一个音频事件相应的时间范围，确定可识别的特征是否满足预设条件，如果可识别的特征满足预设条件，则将所述时间范围增加在检测到的至少一个音频事件之前和之后的预定量，提取与增加的时间范围相应的视频帧以产生音频摘要。