CN109726726A

CN109726726A - 视频中的事件检测方法及装置

Info

Publication number: CN109726726A
Application number: CN201711023244.1A
Authority: CN
Inventors: 刘武; 马华东; 李雅楠; 刘婷婷; 黄婷婷
Original assignee: Tencent Technology Shenzhen Co Ltd; Beijing University of Posts and Telecommunications
Current assignee: Tencent Technology Shenzhen Co Ltd; Beijing University of Posts and Telecommunications
Priority date: 2017-10-27
Filing date: 2017-10-27
Publication date: 2019-05-07
Anticipated expiration: 2037-10-27
Also published as: CN109726726B

Abstract

本发明公开了一种视频中的事件检测方法及装置，属于计算机技术领域。所述方法包括：对待检测的视频进行特征提取，得到单帧特征向量集合，所述单帧特征向量集合包括至少两个单帧特征向量，所述单帧特征向量中的每个分量表示所述视频中的关键帧属于概念集合中对应的概念的概率，所述概念集合包括所述视频中的事件；对所述单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量；将所述视频特征向量输入预先训练得到的事件分类器中；将所述事件分类器输出的事件作为所述视频中的事件。本发明解决了只对特征向量进行均值池化，或者，只对特征向量进行最大值池化，导致检测结果不准确的问题，提高了事件检测的准确性。

Description

视频中的事件检测方法及装置

技术领域

本发明涉及计算机技术领域，特别涉及一种视频中的事件检测方法及装置。

背景技术

一些视频是对事件进行记录得到的，比如，记录骑车事件的视频。对于这类视频，用户可能需要确定该视频中包括哪些事件，因此，需要对视频中的事件进行检测。

相关技术中，电子设备对视频提取关键帧，基于尺度不变特征变换(Scale-invariant feature transform，SIFT)得到每个关键帧的特征向量，对所有特征向量进行均值池化或最大值池化，得到该视频的特征向量；利用大量标注了事件的视频正样本和视频负样本进行训练，得到事件分类器；将该视频的特征向量输入事件分类器中，将事件分类器输出的事件作为该视频中的事件。

在视频中特征不明显的情况下，对特征向量进行均值池化，即对视频中的相关特征和不相关特征进行平均，降低了相关特征的相关性，导致检测结果不准确。对特征向量进行最大值池化，即选取视频中的相关特征和不相关特征中的最大值，提高了不相关特征的相关性，导致检测结果不准确。

发明内容

为了解决对特征向量进行均值池化或最大值池化，导致检测结果不准确的问题，本发明实施例提供了一种视频中的事件检测方法及装置。所述技术方案如下：

第一方面，提供了一种视频中的事件检测方法，所述方法包括：

对待检测的视频进行特征提取，得到单帧特征向量集合，所述单帧特征向量集合包括至少两个单帧特征向量，所述单帧特征向量中的每个分量表示所述视频中的关键帧属于概念集合中对应的概念的概率，所述概念集合包括所述视频中的事件；

对所述单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量；

将所述视频特征向量输入预先训练得到的事件分类器中；

将所述事件分类器输出的事件作为所述视频中的事件。

第二方面，提供了一种视频中的事件检测装置，所述装置包括：

提取模块，用于对待检测的视频进行特征提取，得到单帧特征向量集合，所述单帧特征向量集合包括至少两个单帧特征向量，所述单帧特征向量中的每个分量表示所述视频中的关键帧属于概念集合中对应的概念的概率，所述概念集合包括所述视频中的事件；

池化模块，用于对所述提取模块得到的所述单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量；

输入模块，用于将所述池化模块得到的所述视频特征向量输入预先训练得到的事件分类器中；

第一确定模块，用于将所述事件分类器输出的事件作为所述视频中的事件。

在第二方面的第一种可能的实现方式中，所述提取模块，具体用于：

将所述待检测的视频划分成M个时长相等的视频片段，M为大于1的正整数；

对每个视频片段提取关键帧；

利用深度神经网络计算每个关键帧的单帧特征向量，得到所述单帧特征向量集合。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述池化模块，具体用于：

对于每个视频片段，对所述单帧特征向量集合中所述视频片段对应的所有单帧特征向量进行均值池化，得到分段特征向量；

对所有视频片段对应的分段特征向量进行最大值池化，得到所述视频特征向量。

在第二方面的第三种可能的实现方式中，所述装置还包括：

获取模块，用于在所述输入模块将所述视频特征向量输入预先训练得到的事件分类器中之前，对于所述概念集合中的每个概念，获取标注有所述概念的视频正样本和未标注所述概念的视频负样本，所述视频负样本的数量大于所述视频正样本的数量；

训练模块，用于利用所述获取模块得到的每个概念对应的所述视频正样本和所述视频负样本训练得到所述事件分类器。

结合第二方面的第三种可能的实现方式，当所述事件分类器的参数包括每个概念的权重和每个概念的偏置时，在第二方面的第四种可能的实现方式中，所述装置还包括：

计算模块，用于在所述确定模块将所述事件分类器输出的事件作为所述视频中的事件之前，将所述视频特征向量中的每个分量乘以对应的概念的权重，将得到的乘积与所述概念对应的偏置相加得到计算结果；

第二确定模块，用于将所述计算模块得到的最大的计算结果所对应的概念作为所述事件分类器输出的事件。

结合第二方面或第二方面的第一种可能的实现方式至第二方面的第四种可能的实现方式，在第二方面的第五种可能的实现方式中，所述装置还包括：

定位模块，用于在所述确定模块将所述事件分类器输出的事件作为所述视频中的事件之后，在所述视频中定位所述事件的各个子事件，并获取每个子事件的子事件描述，得到包含子事件且具有子事件描述的各个视频片段。

结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述定位模块，具体用于：

将标注有所述事件的视频正样本和所述视频输入所述事件分类器中；

利用所述事件分类器将所述视频中每个视频片段对应的分段特征向量中的每个分量乘以对应的概念的权重，将得到的乘积与所述概念对应的偏置相加得到计算结果，将大于第一阈值的各个计算结果所对应的视频片段作为包含子事件的视频片段；

生成各个子事件的子事件描述；

输出包含所述子事件且带有所述子事件描述的各个视频片段。

结合第二方面的第六种可能的实现方式，在第二方面的第七种可能的实现方式中，所述定位模块，还用于：

生成所述事件对应的概念白名单；

对于包含子事件的每个视频片段，选择所述视频片段对应的最大的计算结果，将所述计算结果所对应的概念和所述概念白名单中重复的内容作为所述子事件描述。

结合第二方面的第七种可能的实现方式，在第二方面的第八种可能的实现方式中，所述定位模块，还用于：

选择一个文本集合；

计算所述文本集合中每个词语的向量和所述事件的向量之间的余弦值，所述余弦值的大小与相关性呈正相关关系，所述相关性是所述词语和所述事件的相关性；

对大于第二阈值的余弦值所对应的词语进行二折交叉验证，得到每个词语的准确率；

对准确率低于第三阈值的词语和在s个事件中准确率均高于第四阈值的词语进行删除，得到所述概念白名单，s为大于1的正整数。

第三方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的视频中的事件检测方法。

第四方面，提供了一种视频中的事件检测设备，所述视频中的事件检测设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现如第一方面所述的视频中的事件检测方法。

本发明实施例提供的技术方案的有益效果是：

通过对提取到的单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量；利用视频特征向量进行事件检测，即，先对视频中的各个特征进行平均，再选取特征中的最大值，这样，可以选取出相关性最大的特征，根据该特征确定事件，解决了只对特征向量进行均值池化，或者，只对特征向量进行最大值池化，导致检测结果不准确的问题，提高了事件检测的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的视频中的事件检测方法的方法流程图；

图2是本发明一个实施例提供的视频中的事件检测方法的方法流程图；

图3是本发明一个实施例提供的三种池化方式的概念直方图；

图4是本发明另一实施例提供的视频中的事件定位方法的方法流程图；

图5是本发明一个实施例提供的视频中的事件检测装置的结构框图；

图6是本发明一个实施例提供的视频中的事件检测设备的结构框图；

图7是本发明一个实施例提供的终端的结构框图；

图8是本发明一个实施例提供的服务器的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

请参考图1，其示出了本发明一个实施例提供的视频中的事件检测方法的方法流程图，该视频中的事件检测方法可以应用于终端或服务器中，该终端可以是智能电视、智能手机或者平板电脑等等。该视频中的事件检测方法，包括：

步骤101，对待检测的视频进行特征提取，得到单帧特征向量集合。

单帧特征向量集合包括至少个单帧特征向量。

单帧特征向量是对视频中的关键帧进行特征提取得到的向量。在一种实现方式中，单帧特征向量中的每个分量表示视频中的关键帧属于概念集合中对应的概念的概率，概念集合包括视频中的事件。

步骤102，对单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量。

本实施例中，先对单帧特征向量集合进行均值池化，再对均值池化后得到的结果进行最大值池化，将最大值池化后得到的结果作为视频特征向量，该视频特征向量用于反映视频的特征。

步骤103，将视频特征向量输入预先训练得到的事件分类器中。

事件分类器用于识别视频中的事件，即，根据视频特征向量对视频中的事件进行分类。

步骤104，将事件分类器输出的事件作为视频中的事件。

比如，事件分类器输出的事件为骑车，则确定视频中的事件为骑车事件。

综上所述，本发明实施例提供的视频中的事件检测方法，通过对提取到的单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量；利用视频特征向量进行事件检测，即，先对视频中的各个特征进行平均，再选取特征中的最大值，这样，可以选取出相关性最大的特征，根据该特征确定事件，解决了只对特征向量进行均值池化，或者，只对特征向量进行最大值池化，导致检测结果不准确的问题，提高了事件检测的准确性。

请参考图2，其示出了本发明另一实施例提供的视频中的事件检测方法的方法流程图，该视频中的事件检测方法可以应用于终端或服务器中，该终端可以是智能电视、智能手机或者平板电脑等等。该视频中的事件检测方法，包括：

步骤201，将待检测的视频划分成M个时长相等的视频片段。

其中，M为大于1的正整数。

假设视频为V，视频片段为P，则V＝{P₁，P₂，…，P_M}。

本实施例中，可以在实施本实施例之前，多次对M的取值进行试验，得到一个经验值，最终将M的取值设置为该经验值，使得将视频划分成M个视频片段时，视频片段中只包括一个完整的事件的概率较高，保证了事件的完整性。

步骤202，对每个视频片段提取关键帧。

相关技术中对视频片段提取关键帧的技术已经非常成熟，此处不作赘述。

由于每个视频片段的时长相等，所以对每个视频片段提取出的关键帧的帧数相等，以便于后续的事件检测。

步骤203，利用深度神经网络计算每个关键帧的单帧特征向量，得到单帧特征向量集合。

在一种可能的实现中，利用深度神经网络对一个关键帧进行多次卷积，对卷积结果进行全连接处理，通过softmax层输出一个向量，该向量即为该关键帧的单帧特征向量。其中，单帧特征向量中的每个分量表示关键帧属于概念集合中对应的概念的概率，概念集合包括视频中的事件。

其中，单帧特征向量的维数和概念集合包括的概念的数量相同。假设概念集合C＝＝{C₁，C₂，…，C_N}，N为概念集合包括的概念的数量，则单帧特征向量为一个N维的向量。比如，对于第k(k＜M)个视频片段来说，其第i个关键帧的单帧特征向量为

本实施例将视频中所有关键帧的单帧特征向量称为单帧特征向量集合。

步骤204，对于每个视频片段，对单帧特征向量集合中视频片段对应的所有单帧特征向量进行均值池化，得到分段特征向量。

均值池化是指对一个视频片段对应的所有单帧特征向量中同一概念对应的所有分量计算平均值，将该平均值作为该视频片段对应的分段特征向量中该概念对应的分量的数值。

假设第k(k＜M)个视频片段包含n_k个关键帧，即对第k个视频片段对应的所有关键帧进行均值池化，那么第k个视频片段对应的分段特征向量的第j个分量可以表示为

由于M个视频片段是按照时间先后顺序排列的，所以，M个视频片段的分段特征向量可以保留时间信息，从而提高事件检测的准确性。

步骤205，对所有视频片段对应的分段特征向量进行最大值池化，得到视频特征向量。

最大值池化是指在视频中所有视频片段对应的分段特征向量中取同一概念对应的所有分量中的最大值，将该最大值作为该视频特征向量中该概念对应的分量的数值。

假设视频特征向量为X，则X的第i个分量可以表示为

为了便于理解，请参考图3，其示出了单独进行均值池化、单独进行最大值池化和混合池化(先进行均值池化再进行最大值池化)时的概念直方图。

在得到视频特征向量后，需要将视频特征向量输入事件分类器中以确定视频中的事件。在将视频特征向量输入事件分类器中之前，还需要训练事件分类器，训练过程详见步骤206-207中的描述。需要说明的是，步骤206-207需要在步骤208之前执行，本实施例不限定步骤206-207和步骤201-205的先后执行顺序。

步骤206，对于概念集合中的每个概念，获取标注有概念的视频正样本和未标注概念的视频负样本，视频负样本的数量大于视频正样本的数量。

视频正样本中的事件与概念有关。比如，概念为骑车时，视频正样本可以是标注有骑车的上坡骑车视频、标注有骑车的下坡骑车视频、标注有骑车的平地骑车视频等等。

视频负样本中的事件与概念无关，且包含不同类的事件。比如，概念为骑车，视频负样本可以是开骑车视频、开卡车视频、通话视频、观影视频等等。

在一种可能的实现方式中，用户人工标注概念。在这种实现方式中，用户需要观看完视频后才能知道视频所记录的事件，再对该视频进行标注，需要消耗大量的人力和时间。相关技术中，需要对所有的视频正样本和视频负样本进行标注，才能够训练得到事件分类器，而本实施例中，由于事件分类器是用深度神经网络训练得到的，所以，只需要少量标注有概念的视频正样本和大量未标注概念的视频负样本就可以训练得到事件分类器，既节省了人力，也提高了样本的获取效率，从而提高了事件分类器的训练效率。

步骤207，利用每个概念对应的视频正样本和视频负样本训练得到事件分类器。

在一种可能的实现方式中，通过核岭回归训练得到的事件分类器为其中，x_i∈R^N是第i个视频的视频特征向量。y_i是视频的二进制标签，当视频为视频正样本时，y_i为1；当视频为视频负样本时，y_i为0。这样，通过训练可以得到每个概念的权重w_k∈R^N和每个概念的偏置b。

其中，偏置是一个一维矩阵，偏置中的每个分量对应于一个概念。通过对概念设置偏置可以提高事件检测的准确性。

当然，还可以用其他方式训练得到事件分类器，本实施例不作限定。

步骤208，将视频特征向量输入预先训练得到的事件分类器中。

步骤209，当事件分类器的参数包括每个概念的权重和每个概念的偏置时，将视频特征向量中的每个分量乘以对应的概念的权重，将得到的乘积与该概念对应的偏置相加得到计算结果。

其中，视频特征向量中所有分量对应的计算结果的和为1。

步骤210，将最大的计算结果所对应的概念作为事件分类器输出的事件。

分量对应的计算结果越大，说明该视频中的事件是该权重对应的概念的概率越高，所以，最大的计算结果所对应的概念为视频中的事件。

步骤211，将事件分类器输出的事件作为视频中的事件。

由于事件分类器是用深度神经网络训练得到的，所以，只需要少量标注有概念的视频正样本和大量未标注概念的视频负样本就可以训练得到事件分类器，解决了需要对所有的视频正样本和视频负样本进行人工标注才能够训练得到事件分类器的问题，既节省了人力，也提高了样本的获取效率，从而提高了事件分类器的训练效率。

将待检测的视频划分成M个时长相等的视频片段，由于各个视频片段是按照时间先后顺序排列的，所以，在后续进行事件检测时可以保留时间信息，从而提高事件检测的准确性。

一个事件可以包括多个子事件，比如，骑车事件可以包括扫码得共享单车事件、骑共享单车子事件、停车子事件、锁车子事件。在一种实现方式中，在步骤211检测出视频中的事件之后，还可以在视频中定位事件的各个子事件，并获取每个子事件的子事件描述，得到包含子事件且具有子事件描述的各个视频片段。即，对视频中的子事件进行定位，详见图4，其示出了本发明一实施例提供的视频中的事件定位方法的方法流程图。该视频中的事件定位方法，包括：

步骤401，将标注有事件的视频正样本和视频输入事件分类器中。

标注的事件即为输入的视频中的事件，此处的事件分类器可以是图2所示的实施例中训练得到的事件分类器。

步骤402，利用事件分类器将视频中每个视频片段对应的分段特征向量中的每个分量乘以对应的概念的权重，将得到的乘积与该概念对应的偏置相加得到计算结果，将大于第一阈值的各个计算结果所对应的视频片段作为包含子事件的视频片段。

其中，分段特征向量中每个分量对应的计算结果的计算过程与步骤209中记载的视频特征向量中每个分量对应的计算结果的计算过程相同，此处不作赘述。

分量对应的计算结果越大，说明该视频片段中包含子事件的概率越高，所以，将大于第一阈值的各个计算结果所对应的视频片段作为包含子事件的视频片段。

步骤403，生成事件对应的概念白名单。

概念白名单是与该事件相关、准确率较高且具有辨识度的概念的集合。

在一种可能的实现方式中，生成概念白名单，包括：选择一个文本集合；计算文本集合中每个词语的向量和事件的向量之间的余弦值，余弦值的大小与相关性呈正相关关系，相关性是词语和事件的相关性；对大于第二阈值的余弦值所对应的词语进行二折交叉验证，得到每个词语的准确率；对准确率低于第三阈值的词语和在s个事件中准确率均高于第四阈值的词语进行删除，得到概念白名单，s为大于1的正整数。

文本集合是包含大量的概念集合，比如，xx百科、xx词库等。

本实施例中，将文本集合中的每个词语用向量表示，将事件用向量表示，计算每个词语的向量和事件的向量之间的余弦值。相关技术中将词语用向量表示以及计算向量之间的余弦值的技术已经非常成熟，此处不作赘述。

由于余弦值越大，该词语与事件的相关性越高，所以，可以选择余弦值大于第二阈值的词语，将这些词语作为与事件相关的词语。由于这些词语可能在视觉上与事件不相关或者缺乏辨识度，所以，还可以对得到的词语进行二折交叉验证，得到每个词语的准确率，该词语的准确率是该词语相对于视频中的事件的准确率。

词语的准确率越高，该词语与事件在视觉上越相关，所以，可以删除准确率低于第三阈值的词语，以提高词语与事件在视觉上的相关性。词语在大多数事件中的准确率都高，说明该词语是诸如人、树之类缺乏辨识度的词语，所以，可以删除在s个事件中准确率均高于第四阈值的词语，以提高词语的辨识度。其中，词语在大多数事件中的准确率是指每个词语相对于该词语所在的事件的准确率。

最终过滤后得到的词语被称为概念白名单。

通过概念过滤来生成概念白名单保留辨识度高的概念，既可以减少能够产生的子事件描述的概念候选，也可以增加子事件描述的丰富度，提高定位的准确性。

步骤404，对于包含子事件的每个视频片段，选择视频片段对应的最大的计算结果，将计算结果所对应的概念和概念白名单中重复的内容作为子事件描述。

每个视频片段都对应于一个最大的计算结果，读取该计算结果对应的概念，当概念白名单中存在该概念时，说明该概念与概念白名单存在重复的内容，将该重复的内容作为子事件描述，即，将该概念作为子事件描述。

步骤405，输出包含子事件且带有子事件描述的各个视频片段。

对事件分类器输出的包含子事件的视频片段添加子事件描述，得到包含子事件且带有子事件描述的各个视频片段。

需要说明的是，概念过滤和事件分类器的结合可以在没有子事件标注的情况下生成子事件描述，即，在没有细粒度的标注的情况下生成细粒度描述，以方便视频的检索和快速定位。

综上所述，本发明实施例提供的视频中的事件定位方法，通过对视频中的各个子事件进行定位，可以得到包含子事件且具有子事件描述的各个视频片段，使用户能够明确视频中每个视频片段记录的是什么内容。

通过对准确率低于第三阈值的词语和在s个事件中准确率均高于第四阈值的词语进行删除，可以过滤掉无关概念，保留辨识度高的概念，既增加了子事件描述的丰富度，也提高了定位的准确性。

请参考图5，其示出了本发明再一实施例提供的视频中的事件检测装置的结构框图，该视频中的事件检测装置可以应用于终端或服务器中，该终端可以是智能电视、智能手机或者平板电脑等等。该视频中的事件检测装置，包括：提取模块501、池化模块502、输入模块503和第一确定模块504。

提取模块501，用于实现上述步骤201-203及各个步骤中隐含的有关提取的功能。

池化模块502，用于实现上述步骤204和205及各个步骤中隐含的有关池化的功能。

输入模块503，用于实现上述步骤208及各个步骤中隐含的有关输入的功能。

第一确定模块504，用于实现上述步骤211及各个步骤中隐含的有关确定的功能。

可选的，该视频中的事件检测装置还可以包括获取模块、训练模块、计算模块、第二确定模块和定位模块。获取模块用于实现上述步骤206及各个步骤中隐含的有关获取的功能。训练模块用于实现上述步骤207及各个步骤中隐含的有关训练的功能。计算模块用于实现上述步骤209及各个步骤中隐含的有关训练的功能。第二确定模块用于实现上述步骤210及各个步骤中隐含的有关确定的功能。定位模块用于实现上述步骤401-405及各个步骤中隐含的有关定位的功能。

综上所述，本发明实施例提供的视频中的事件检测装置，通过对提取到的单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量；利用视频特征向量进行事件检测，即，先对视频中的各个特征进行平均，再选取特征中的最大值，这样，可以选取出相关性最大的特征，根据该特征确定事件，解决了只对特征向量进行均值池化，或者，只对特征向量进行最大值池化，导致检测结果不准确的问题，提高了事件检测的准确性。

将待检测的视频划分成M个时长相等的视频片段，由于各个视频片段之间是按照时间先后顺序排列的，所以，在进行事件检测时可以保留时间信息，从而提高了事件检测的准确性。

通过对视频中的各个子事件进行定位，可以得到包含子事件且具有子事件描述的各个视频片段，使用户能够明确视频中每个视频片段记录的是什么内容。

请参考图6，其示出了本发明再一实施例提供的视频中的事件检测设备的结构框图，该视频中的事件检测设备可以是终端或服务器，该终端可以是智能电视、智能手机或者平板电脑等等。该视频中的事件检测设备，包括：处理器601、存储器602以及通信接口603。

通信接口603通过总线或其它方式与处理器601相连。

处理器601可以是中央处理器(英文：central processing unit，CPU)，网络处理器(英文：network processor，NP)或者CPU和NP的组合。处理器603还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文：application-specific integratedcircuit，ASIC)，可编程逻辑器件(英文：programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文：complex programmable logic device，CPLD)，现场可编程逻辑门阵列(英文：field-programmable gate array，FPGA)，通用阵列逻辑(英文：generic array logic，GAL)或其任意组合。

存储器602通过总线或其它方式与处理器601相连，存储器601中存储有至少一条指令、至少一段程序、代码集或指令集，上述至少一条指令、至少一段程序、代码集或指令集由处理器601加载并执行以实现如图1或图2或图4的视频中的事件检测方法。存储器602可以为易失性存储器(英文：volatile memory)，非易失性存储器(英文：non-volatilememory)或者它们的组合。易失性存储器可以为随机存取存储器(英文：random-accessmemory，RAM)，例如静态随机存取存储器(英文：static random access memory，SRAM)，动态随机存取存储器(英文：dynamic random access memory，DRAM)。非易失性存储器可以为只读存储器(英文：read only memory image，ROM)，例如可编程只读存储器(英文：programmable read only memory，PROM)，可擦除可编程只读存储器(英文：erasableprogrammable read only memory，EPROM)，电可擦除可编程只读存储器(英文：electrically erasable programmable read-only memory，EEPROM)。非易失性存储器也可以为快闪存储器(英文：flash memory)，磁存储器，例如磁带(英文：magnetic tape)，软盘(英文：floppy disk)，硬盘。非易失性存储器也可以为光盘。

请参考图7，其示出了本发明一个实施例提供的终端700的结构框图，该终端可以包括射频(RF，Radio Frequency)电路701、包括有一个或一个以上计算机可读存储介质的存储器702、输入单元703、显示单元704、传感器705、音频电路706、无线保真(WiFi，Wireless Fidelity)模块707、包括有一个或者一个以上处理核心的处理器709、以及电源709等部件。本领域技术人员可以理解，图7中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路701可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器709处理；另外，将涉及上行的数据发送给基站。通常，RF电路701包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路701还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器702可用于存储软件程序以及模块，处理器709通过运行存储在存储器702的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器702可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器702可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器702还可以包括存储器控制器，以提供处理器708和输入单元703对存储器702的访问。

输入单元703可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元703可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器709，并能接收处理器708发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元703还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元704可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元704可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid CrystalDisplay)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器708以确定触摸事件的类型，随后处理器708根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图7中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器705，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路706、扬声器，传声器可提供用户与终端之间的音频接口。音频电路706可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路706接收后转换为音频数据，再将音频数据输出处理器709处理后，经RF电路701以发送给比如另一终端，或者将音频数据输出至存储器702以便进一步处理。音频电路706还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块707可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图7示出了WiFi模块707，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器708是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器702内的软件程序和/或模块，以及调用存储在存储器702内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器708可包括一个或多个处理核心；优选的，处理器708可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器708中。

终端还包括给各个部件供电的电源709(比如电池)，优选的，电源可以通过电源管理系统与处理器708逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源709还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器708会运行存储在存储器702中的一个或一个以上的程序指令，从而实现上述各个方法实施例中所提供的行为定向方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

请参考图8，其示出了本发明一个实施例提供的服务器的结构框图。服务器800包括中央处理单元(CPU)801、包括随机存取存储器(RAM)802和只读存储器(ROM)803的系统存储器804，以及连接系统存储器804和中央处理单元801的系统总线805。服务器800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)806，和用于存储操作系统813、应用程序814和其他程序模块815的大容量存储设备807。

基本输入/输出系统806包括有用于显示信息的显示器808和用于用户输入信息的诸如鼠标、键盘之类的输入设备809。其中显示器808和输入设备807都通过连接到系统总线805的输入输出控制器810连接到中央处理单元801。基本输入/输出系统806还可以包括输入输出控制器810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器810还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备807通过连接到系统总线805的大容量存储控制器(未示出)连接到中央处理单元801。大容量存储设备809及其相关联的计算机可读介质为服务器800提供非易失性存储。也就是说，大容量存储设备809可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器804和大容量存储设备807可以统称为存储器。

根据本发明的各种实施例，服务器800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器800可以通过连接在系统总线805上的网络接口单元811连接到网络812，或者说，也可以使用网络接口单元811来连接到其他类型的网络或远程计算机系统(未示出)。

存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，一个或者一个以上程序用于执行上述实施例提供的视频中的事件检测方法。

本发明一个实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如图1或图2或图4所示的视频中的事件检测方法。可选的，该计算机可读存储介质包括高速存取存储器、非易失性存储器。

需要说明的是：上述实施例提供的视频中的事件检测装置在进行视频中的事件检测时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将视频中的事件检测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频中的事件检测装置与视频中的事件检测方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频中的事件检测方法，其特征在于，所述方法包括：

将所述视频特征向量输入预先训练得到的事件分类器中；

将所述事件分类器输出的事件作为所述视频中的事件。

2.根据权利要求1所述的方法，其特征在于，所述对待检测的视频进行特征提取，得到单帧特征向量集合，包括：

对每个视频片段提取关键帧；

3.根据权利要求2所述的方法，其特征在于，所述对所述单帧特征向量集合进行均值池化和最大值池化，得到视频特征向量，包括：

4.根据权利要求1所述的方法，其特征在于，在所述将所述视频特征向量输入预先训练得到的事件分类器中之前，所述方法还包括：

对于所述概念集合中的每个概念，获取标注有所述概念的视频正样本和未标注所述概念的视频负样本，所述视频负样本的数量大于所述视频正样本的数量；

利用每个概念对应的所述视频正样本和所述视频负样本训练得到所述事件分类器。

5.根据权利要求4所述的方法，其特征在于，当所述事件分类器的参数包括每个概念的权重和每个概念的偏置时，在所述将所述事件分类器输出的事件作为所述视频中的事件之前，所述方法还包括：

将所述视频特征向量中的每个分量乘以对应的概念的权重，将得到的乘积与所述概念对应的偏置相加得到计算结果；

将最大的计算结果所对应的概念作为所述事件分类器输出的事件。

6.根据权利要求1至5任一项所述的方法，其特征在于，在所述将所述事件分类器输出的事件作为所述视频中的事件之后，所述方法还包括：

在所述视频中定位所述事件的各个子事件，并获取每个子事件的子事件描述，得到包含子事件且具有子事件描述的各个视频片段。

7.根据权利要求6所述的方法，其特征在于，所述在所述视频中定位所述事件的各个子事件，并获取每个子事件的子事件描述，得到包含子事件且具有子事件描述的各个视频片段，包括：

生成各个子事件的子事件描述；

8.根据权利要求7所述的方法，其特征在于，所述生成各个子事件的子事件描述，包括：

生成所述事件对应的概念白名单；

9.根据权利要求8所述的方法，其特征在于，所述生成所述事件对应的概念白名单，包括：

选择一个文本集合；

10.一种视频中的事件检测装置，其特征在于，所述装置包括：

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的视频中的事件检测方法。

12.一种视频中的事件检测设备，其特征在于，所述视频中的事件检测设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述指令由所述处理器加载并执行以实现权利要求1至9任一项所述的视频中的事件检测方法。