CN105138953A - 一种基于连续的多实例学习的视频中动作识别的方法 - Google Patents

一种基于连续的多实例学习的视频中动作识别的方法 Download PDF

Info

Publication number
CN105138953A
CN105138953A CN201510405296.XA CN201510405296A CN105138953A CN 105138953 A CN105138953 A CN 105138953A CN 201510405296 A CN201510405296 A CN 201510405296A CN 105138953 A CN105138953 A CN 105138953A
Authority
CN
China
Prior art keywords
video
action
frame
classification
sigma
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510405296.XA
Other languages
English (en)
Other versions
CN105138953B (zh
Inventor
宋明黎
栾乔
张珂瑶
宋新慧
邱画谋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201510405296.XA priority Critical patent/CN105138953B/zh
Publication of CN105138953A publication Critical patent/CN105138953A/zh
Application granted granted Critical
Publication of CN105138953B publication Critical patent/CN105138953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于连续的多实例学习的视频中动作识别的方法。本发明包括如下步骤:1、从视频网站上收集电影数据作为训练数据样本集,同时对网站上收集字幕和剧本进行预处理,将剧本中的动作描述作为训练数据的视频级别的弱标记;2、通过弱标记将视频切分成多个视频片段,每个视频片段由一个动作组成;对于每个动作,利用视频片段训练基于连续的多实例学习的动作分类器;3、用户将待识别视频输入至训练好的多个动作分类器,计算待识别视频的每一帧属于该动作的概率;4、通过视频切割模型得到每一帧的动作类别,将动作类别返回给用户。本发明减少了人工标记费时费力的问题,同时减少了弱标记和转折帧带来的二义性问题。

Description

一种基于连续的多实例学习的视频中动作识别的方法
技术领域
本发明属于识别与检测领域,涉及一种基于连续的多实例学习的视频中动作识别的方法,一种利用弱标记的训练数据,从视频中识别与检测人的动作的方法。
背景技术
近年来,人的动作识别在很多计算机视觉应用上面体现着越来越重要的作用。例如视频监控,基于内容的视频检索,标记和视觉交互。如何解决人的动作识别这一实用价值高,但又富有挑战性的任务成为现阶段各视频网站花费大笔财力人力关注的问题。
一般的动作识别系统将该任务看作分类或检测问题。利用全标记的训练数据来训练一个有效的分类器或者检测器是目前常用的方法,它们利用准确的时间戳将一段视频分割为多个片段。但是想要获得全标记的训练数据是非常费时费力的,这也是目前实际应用所遇到的最大问题。
为了解决标记的费时费力问题,可以利用弱标记的视频训练动作分类器。比如视频字幕中的时间戳和剧本中的动作描述可以用作视频级别的弱标记。然而,由于弱标记的不准确性和动作视频中的一些转折帧,弱标记的训练数据有一定的二义性,可以利用多实例学习来解决这一问题。多实例学习是有监督学习的一个变种,它的训练数据是以“包”的形式提供的,标签也是“包”级别的。多实例学习可以通过判断正样本包中的实例是否真的是正样本来解决二义性问题。但是,普通的多实例学习并不适用于视频数据,因为视频数据带有时间维度的信息。
连续的多实例学习与普通多实例学习的不同之处是,连续的多实例学习根据视频时间连续性的特点,加入了时间连续的约束项,通过该项的约束,相邻的视频帧应该尽可能属于同一个动作类别,因为视频是时间上连续的,动作类别的变化不应过于频繁。通过加入该项约束,可以较好的解决弱标记及转折帧所引起的二义性。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于连续的多实例学习的视频中动作识别的方法。
本发明解决其技术问题所采用的技术方案包括如下步骤:
为实现上述目的,本发明所述的基于连续的多实例学习的视频中动作识别的方法包括如下步骤:
步骤1、从视频网站上收集电影数据作为训练数据样本集,同时从网站上收集字幕和剧本,对字幕和剧本进行预处理,将剧本中的动作描述作为训练数据的视频级别的弱标记;
步骤2、通过弱标记将视频切分成多个视频片段,每个视频片段由一个动作组成。对于每个动作,利用视频片段训练基于连续的多实例学习的动作分类器;
步骤3、用户将待识别视频输入至训练好的多个动作分类器,计算待识别视频的每一帧属于该动作的概率;
步骤4、利用所述步骤3)得到的概率,利用视频切割模型,得到每一帧的动作类别,将动作类别结果返回给用户。
所述的训练数据样本集包含由14个动作组成的937个视频,每个视频由2到11个动作组成。所述的14个动作为打电话、开车、吃、打人、握手、拥抱、亲吻、打开车门、开门、跑、坐下、端坐、起立和威胁。
所述的字幕和剧本的预处理如下:利用动态时间规整算法对字幕和剧本中的对话进行对齐,通过对齐将剧本和视频进行同步;对于同步后的剧本,将其中的动作描述作为视频对应片段的弱标记。
所述的视频片段定义为其中Ck包含Nk其中fi k是视频片段第k帧的特征,使用ImageNet数据集预训练的深度卷积网络的第六层节点值作为特征fi k表示该动作中的这一帧是正样本,反之表示该动作中的这一帧是负样本。
所述的动作分类器的定义如公式(1):
min { y k } k = 1 K , w , b 1 2 | | w | | 2 + γ Σ k = 1 K Σ i = 1 N k L ( y i k , w T f i k + b ) + γ p Σ k = 1 K Σ i = 1 N k | I ( y i k = 1 ) - I ( Y k = 1 ) | + γ n Σ k = 1 K Σ { p , q } ∈ N δ ( y p k , y q k ) s . t . δ ( y p k , y q k ) = 1 , y p k ≠ y q k 0 , y p k = y q k 公式(1)
式中:第一项是经典的支持向量机,w是权值向量,最小化该项能够找到两类的最大分类间隔;第二项中的L是标签与预测结果的经验损失函数,b是函数的偏置,γ是第二项的权重;第三项中Yk是视频级别的标签,I是指示函数,当等式为真的时候,其值为1,反之为0,第三项是帧标签与视频标签不同时的惩罚项,γp是第三项的权重;第四项是保证视频时间连续性的约束项,N是视频中相邻帧的集合,γn是第四项的权重。所述的对于用户输入的待识别视频利用训练得到的动作分类器,计算待识别视频的每一帧属于某一动作的概率p(ym=1|Fm):
p ( y m = 1 | F m ) ≈ P D , B ( g ) = 1 exp ( G g ( F m ) + B ) 公式(2)
其中g(x)是训练分类器得到的支持向量机的决策函数。PD,B(g)表示以D和B为参数的函数;D和B是两个参数,其最优值通过下面的公式求解:
min z = ( D , B ) F ( z ) = - Σ i = 1 I ( t i log ( p i ) + ( 1 - t i ) log ( 1 - p i ) ) s . t . p i = p D , B ( g ) , t i = { N + + 1 N + + 2 , y i = 1 1 N - + 2 , y i = - 1 , i = 1 , ... , I 公式(3)
所述的公式(3)参看文献:Probabilisticoutputsforsupportvectormachinesandcomparisonstoregularizedlikelihoodmethods。
所述的利用动作分类器得到的概率,通过视频切割模型,即可识别出每一帧的动作类别,该动作类别限于训练数据所包含的14种常见的动作类别。
所述的视频切割模型是基于马尔科夫随机场的视频切割模型:
E { A m } = - λ Σ m = 1 M ( log p ( A m | F m ) + U ( { A m } ) 公式(4)
其中,p(Am|Fm)的值等于公式(2)所得的结果p(ym=1|Fm),λ为第一项的权重,U({Am})的定义如下:
U ( { A m } ) = Σ m = 1 M min ( F m , F m + 1 ) · δ ( A m , A m + 1 )
s . t . δ ( A m , A m + 1 ) = 1 , A m ≠ A m + 1 0 , A m = A m + 1 公式(5)
该视频切割模型的输出Am即为每一帧的动作识别结果。
本发明的有益效果如下:
本发明方法是一种基于连续的多实例学习的视频中动作识别的方法,该方法利用弱标记的视频片段作为输入,训练多个基于连续的多实例学习的动作分类器,该分类器可以减少由于弱标记及转折帧引起的二义性。对于用户给定的视频,利用训练得到的分类器计算每一帧属于某一动作的概率,最后用视频切割模型来检测视频帧最终的动作类别。由于该方法解决了二义性的问题,在很大程度上提高了最终检测结果的准确性。
与传统方法相比,本发明通过使用视频的字幕和剧本作为弱标记,减少了人工标记的费时费力问题,使该方法的实际应用价值提高。同时,本发明通过使用连续的多实例学习方法,减少了弱标记和转折帧带来的二义性问题,并且使该模型适用于视频这种带有时间维度的数据。
附图说明
图1是本发明方法的流程示意图。
具体实施方式
下面将结附图对本发明作进一步描述。
本发明提出了一种基于连续的多实例学习的视频中动作识别的方法。该方法首先从视频网站上收集电影数据作为训练数据,同时从网站上面收集字幕和剧本,通过字幕和剧本中的对话匹配,将字幕和剧本进行同步,并利用剧本中的动作描述作为对应视频片段的弱标记。通过视频级别的弱标记,训练数据中的每个视频被切分成若干视频片段。然后,对于每一种标记,训练一个基于连续的多实例学习的动作分类器。在测试的过程中,首先利用训练好的动作分类器计算用户输入的视频的每一帧属于该动作的概率。然后,每一帧的识别最终结果通过视频切割模型得到。
如图1所示,本发明基于连续的多实例学习的视频中动作识别的方法,包括以下步骤:
步骤1、从视频网站上收集电影数据作为训练数据样本集,同时从网站上收集字幕和剧本,对字幕和剧本进行预处理,将剧本中的动作描述作为训练数据的视频级别的弱标记;
所述的训练数据样本集包含由14个动作组成的937个视频,每个视频由2到11个动作组成。所述的14个动作为打电话、开车、吃、打人、握手、拥抱、亲吻、打开车门、开门、跑、坐下、端坐、起立和威胁。
所述的字幕和剧本的预处理如下:利用动态时间规整算法对字幕和剧本中的对话进行对齐,通过对齐将剧本和视频进行同步;对于同步后的剧本,将其中的动作描述作为视频对应片段的弱标记。
步骤2、通过弱标记将视频切分成多个视频片段,每个视频片段由一个动作组成。对于每个动作,利用视频片段训练基于连续的多实例学习的动作分类器;
所述的视频片段定义为其中Ck包含Nk其中fi k是视频片段第k帧的特征,使用ImageNet数据集预训练的深度卷积网络的第六层节点值作为特征fi k表示该动作中的这一帧是正样本,反之表示该动作中的这一帧是负样本。
所述的动作分类器的定义如公式(1):
min { y k } k = 1 K , w , b 1 2 | | w | | 2 + γ Σ k = 1 K Σ i = 1 N k L ( y i k , w T f i k + b ) + γ p Σ k = 1 K Σ i = 1 N k | I ( y i k = 1 ) - I ( Y k = 1 ) | + γ n Σ k = 1 K Σ { p , q } ∈ N δ ( y p k , y q k ) s . t . δ ( y p k , y q k ) = 1 , y p k ≠ y q k 0 , y p k = y q k 公式(1)
式中:第一项是经典的支持向量机,w是权值向量,最小化该项能够找到两类的最大分类间隔;第二项中的L是标签与预测结果的经验损失函数,b是函数的偏置,γ是第二项的权重;第三项中Yk是视频级别的标签,I是指示函数,当等式为真的时候,其值为1,反之为0,第三项是帧标签与视频标签不同时的惩罚项,γp是第三项的权重;第四项是保证视频时间连续性的约束项,N是视频中相邻帧的集合,γn是第四项的权重。
步骤3、用户将待识别视频输入至训练好的多个动作分类器,计算待识别视频的每一帧属于该动作的概率;
所述的对于用户输入的待识别视频利用训练得到的动作分类器,计算待识别视频的每一帧属于某一动作的概率p(ym=1|Fm):
p ( y m = 1 | F m ) ≈ P D , B ( g ) = 1 exp ( D g ( F m ) + B ) 公式(2)
其中g(x)是训练分类器得到的支持向量机的决策函数。PD,B(g)表示以D和B为参数的函数;D和B是两个参数,其最优值通过下面的公式求解:
min z = ( D , B ) F ( z ) = - Σ i = 1 I ( t i log ( p i ) + ( 1 - t i ) log ( 1 - p i ) ) s . t . p i = p D , B ( g ) , t i = { N + + 1 N + + 2 , y i = 1 1 N - + 2 , y i = - 1 , i = 1 , ... , I 公式(3)
所述的公式(3)参看文献:Probabilisticoutputsforsupportvectormachinesandcomparisonstoregularizedlikelihoodmethods。
所述的利用动作分类器得到的概率,通过视频切割模型,即可识别出每一帧的动作类别,该动作类别限于训练数据所包含的14种常见的动作类别。
步骤4、利用所述步骤3)得到的概率,利用视频切割模型,得到每一帧的动作类别,将动作类别结果返回给用户。
所述的视频切割模型是基于马尔科夫随机场的视频切割模型,利用alpha-expansion算法来求解该模型,得到视频每一帧的标签:
E { A m } = - λ Σ m = 1 M ( log p ( A m | F m ) + U ( { A m } ) 公式(4)
其中,p(Am|Fm)的值等于公式(2)所得的结果p(ym=1|Fm),λ为第一项的权重,U({Am})的定义如下:
U ( { A m } ) = Σ m = 1 M min ( F m , F m + 1 ) · δ ( A m , A m + 1 )
s . t . δ ( A m , A m + 1 ) = 1 , A m ≠ A m + 1 0 , A m = A m + 1 公式(5)
该视频切割模型的输出Am即为每一帧的动作识别结果。

Claims (7)

1.一种基于连续的多实例学习的视频中动作识别的方法,其特征在于包括如下步骤:
步骤1、从视频网站上收集电影数据作为训练数据样本集,同时从网站上收集字幕和剧本,对字幕和剧本进行预处理,将剧本中的动作描述作为训练数据的视频级别的弱标记;
步骤2、通过弱标记将视频切分成多个视频片段,每个视频片段由一个动作组成;对于每个动作,利用视频片段训练基于连续的多实例学习的动作分类器;
步骤3、用户将待识别视频输入至训练好的多个动作分类器,计算待识别视频的每一帧属于该动作的概率;
步骤4、根据所述步骤3得到的概率,通过视频切割模型得到每一帧的动作类别,将动作类别结果返回给用户。
2.如权利要求1所述的一种基于连续的多实例学习的视频中动作识别的方法,其特征在于步骤1中所述的训练数据样本集包含由14个动作组成的937个视频,每个视频由2到11个动作组成;所述的14个动作为打电话、开车、吃、打人、握手、拥抱、亲吻、打开车门、开门、跑、坐下、端坐、起立和威胁。
3.如权利要求1所述的一种基于连续的多实例学习的视频中动作识别的方法,其特征在于步骤1中所述的字幕和剧本的预处理如下:利用动态时间规整算法对字幕和剧本中的对话进行对齐,通过对齐将剧本和视频进行同步;对于同步后的剧本,将其中的动作描述作为视频对应片段的弱标记。
4.如权利要求1所述的一种基于连续的多实例学习的视频中动作识别的方法,其特征在于步骤2中所述的视频片段定义为其中Ck包含Nk其中fi k是视频片段第k帧的特征,使用ImageNet数据集预训练的深度卷积网络的第六层节点值作为特征fi k表示该动作中的这一帧是正样本,反之表示该动作中的这一帧是负样本;
所述的动作分类器的定义如公式(1):
min { y k } k = 1 K , w , b 1 2 | | w | | 2 + γ Σ k = 1 K Σ i = 1 N k L ( y i k , w T f i k + b ) + γ p Σ k = 1 K Σ i = 1 N k | I ( y i k = 1 ) - I ( Y k = 1 ) | + γ n Σ k = 1 K Σ { p , q } ∈ N δ ( y p k , y q k ) s . t . δ ( y p k , y q k ) = 1 , y p k ≠ y q k 0 , y p k = y q k 公式(1)
式中:第一项是经典的支持向量机,w是权值向量,最小化该项能够找到两类的最大分类间隔;第二项中的L是标签与预测结果的经验损失函数,b是函数的偏置,γ是第二项的权重;第三项中Yk是视频级别的标签,I是指示函数,当等式为真的时候,其值为1,反之为0,第三项是帧标签与视频标签不同时的惩罚项,γp是第三项的权重;第四项是保证视频时间连续性的约束项,是视频中相邻帧的集合,γn是第四项的权重。
5.如权利要求1所述的一种基于连续的多实例学习的视频中动作识别的方法,其特征在于步骤3中待识别视频的每一帧属于该动作的概率的计算如下:
所述的对于用户输入的待识别视频利用训练得到的动作分类器,计算待识别视频的每一帧属于某一动作的概率p(ym=1|Fm):
p ( y m = 1 | F m ) ≈ P D , B ( g ) = 1 exp ( D g ( F m ) + B ) 公式(2)
其中g(x)是训练分类器得到的支持向量机的决策函数;PD,B(g)表示以D和B为参数的函数;D和B是两个参数,其最优值通过下面的公式求解:
min z = ( D , B ) F ( z ) = - Σ i = 1 I ( t i log ( p i ) + ( 1 - t i ) log ( 1 - p i ) ) s . t . p i = p D , B ( g ) , t i = { N + + 1 N + + 2 , y i = 1 1 N - + 2 , y i = 1 , i = 1 , ... , I 公式(3)
所述的公式(3)参看文献:Probabilisticoutputsforsupportvectormachinesandcomparisonstoregularizedlikelihoodmethods。
6.如权利要求1所述的一种基于连续的多实例学习的视频中动作识别的方法,其特征在于步骤4中所述的利用动作分类器得到的概率,通过视频切割模型,即可识别出每一帧的动作类别,该动作类别限于训练数据所包含的14种常见的动作类别。
7.如权利要求1所述的一种基于连续的多实例学习的视频中动作识别的方法,其特征在于步骤4中所述的视频切割模型是基于马尔科夫随机场的视频切割模型:
E { A m } = - λ Σ m = 1 M ( log p ( A m | F m ) + U ( { A m } ) 公式(4)
其中,p(Am|Fm)的值等于公式(2)所得的结果p(ym=1|Fm),λ为第一项的权重,U({Am})的定义如下:
U ( { A m } ) = Σ m = 1 M min ( F m , F m + 1 ) · δ ( A m , A m + 1 ) 公式(5)
s . t . δ ( A m , A m + 1 ) = 1 , A m ≠ A m + 1 0 , A m = A m + 1
该视频切割模型的输出Am即为每一帧的动作识别结果。
CN201510405296.XA 2015-07-09 2015-07-09 一种基于连续的多实例学习的视频中动作识别的方法 Active CN105138953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510405296.XA CN105138953B (zh) 2015-07-09 2015-07-09 一种基于连续的多实例学习的视频中动作识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510405296.XA CN105138953B (zh) 2015-07-09 2015-07-09 一种基于连续的多实例学习的视频中动作识别的方法

Publications (2)

Publication Number Publication Date
CN105138953A true CN105138953A (zh) 2015-12-09
CN105138953B CN105138953B (zh) 2018-09-21

Family

ID=54724297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510405296.XA Active CN105138953B (zh) 2015-07-09 2015-07-09 一种基于连续的多实例学习的视频中动作识别的方法

Country Status (1)

Country Link
CN (1) CN105138953B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845375A (zh) * 2017-01-06 2017-06-13 天津大学 一种基于层级化特征学习的动作识别方法
CN107037878A (zh) * 2016-12-14 2017-08-11 中国科学院沈阳自动化研究所 一种基于手势的人机交互方法
CN107770598A (zh) * 2017-10-12 2018-03-06 维沃移动通信有限公司 一种同步播放的检测方法、移动终端
CN108062505A (zh) * 2016-11-09 2018-05-22 微软技术许可有限责任公司 基于神经网络的动作检测
CN108229285A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 物体分类方法、物体分类器的训练方法、装置和电子设备
CN109145942A (zh) * 2018-07-05 2019-01-04 北京泛化智能科技有限公司 用于智能识别的图像处理方法及装置
CN109271876A (zh) * 2018-08-24 2019-01-25 南京理工大学 基于时间演化建模和多示例学习的视频动作检测方法
CN109325910A (zh) * 2018-07-28 2019-02-12 曹典 计算机数据收发平台
CN110287816A (zh) * 2019-06-05 2019-09-27 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN110381391A (zh) * 2019-07-11 2019-10-25 北京字节跳动网络技术有限公司 视频快速切片方法、装置及电子设备
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110555117A (zh) * 2019-09-10 2019-12-10 联想(北京)有限公司 一种数据处理方法、装置及电子设备
WO2021190078A1 (zh) * 2020-03-26 2021-09-30 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
CN114743137A (zh) * 2022-03-31 2022-07-12 大连理工大学 一种基于多实例学习的在线考试作弊识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090080731A1 (en) * 2007-09-26 2009-03-26 Siemens Medical Solutions Usa, Inc. System and Method for Multiple-Instance Learning for Computer Aided Diagnosis
CN101743537A (zh) * 2007-07-13 2010-06-16 微软公司 用于学习高效级联检测器的多实例修剪
CN102156686A (zh) * 2011-04-08 2011-08-17 上海交通大学 基于组示多示例学习模型的视频特定包含语义检测方法
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法
CN103544503A (zh) * 2013-11-14 2014-01-29 中国科学院自动化研究所 一种基于多实例马尔科夫模型的行为识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101743537A (zh) * 2007-07-13 2010-06-16 微软公司 用于学习高效级联检测器的多实例修剪
US20090080731A1 (en) * 2007-09-26 2009-03-26 Siemens Medical Solutions Usa, Inc. System and Method for Multiple-Instance Learning for Computer Aided Diagnosis
CN102156686A (zh) * 2011-04-08 2011-08-17 上海交通大学 基于组示多示例学习模型的视频特定包含语义检测方法
CN103198333A (zh) * 2013-04-15 2013-07-10 中国科学院电子学研究所 一种高分辨率遥感图像自动语义标记方法
CN103544503A (zh) * 2013-11-14 2014-01-29 中国科学院自动化研究所 一种基于多实例马尔科夫模型的行为识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
栾乔: "Video Summarization based on Nonnegative Linear Reconstruction", 《MULTIMEDIA AND EXPO(ICME)2014 IEEE INTERNATIONAL CONFERENCE ON.IEEE》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108062505A (zh) * 2016-11-09 2018-05-22 微软技术许可有限责任公司 基于神经网络的动作检测
CN108062505B (zh) * 2016-11-09 2022-03-18 微软技术许可有限责任公司 用于基于神经网络的动作检测的方法和设备
CN107037878A (zh) * 2016-12-14 2017-08-11 中国科学院沈阳自动化研究所 一种基于手势的人机交互方法
CN106845375A (zh) * 2017-01-06 2017-06-13 天津大学 一种基于层级化特征学习的动作识别方法
CN108229285A (zh) * 2017-05-27 2018-06-29 北京市商汤科技开发有限公司 物体分类方法、物体分类器的训练方法、装置和电子设备
CN108229285B (zh) * 2017-05-27 2021-04-23 北京市商汤科技开发有限公司 物体分类方法、物体分类器的训练方法、装置和电子设备
CN107770598A (zh) * 2017-10-12 2018-03-06 维沃移动通信有限公司 一种同步播放的检测方法、移动终端
CN107770598B (zh) * 2017-10-12 2020-06-30 维沃移动通信有限公司 一种同步播放的检测方法、移动终端
CN109145942A (zh) * 2018-07-05 2019-01-04 北京泛化智能科技有限公司 用于智能识别的图像处理方法及装置
CN109145942B (zh) * 2018-07-05 2022-02-01 北京泛化智能科技有限公司 用于智能识别的图像处理方法及装置
CN109325910B (zh) * 2018-07-28 2020-04-17 山东汇佳软件科技股份有限公司 计算机数据收发平台
CN109325910A (zh) * 2018-07-28 2019-02-12 曹典 计算机数据收发平台
CN109271876A (zh) * 2018-08-24 2019-01-25 南京理工大学 基于时间演化建模和多示例学习的视频动作检测方法
CN109271876B (zh) * 2018-08-24 2021-10-15 南京理工大学 基于时间演化建模和多示例学习的视频动作检测方法
CN110287816B (zh) * 2019-06-05 2021-12-28 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN110287816A (zh) * 2019-06-05 2019-09-27 北京字节跳动网络技术有限公司 车门动作检测方法、装置和计算机可读存储介质
CN110381391B (zh) * 2019-07-11 2021-11-09 北京字节跳动网络技术有限公司 视频快速切片方法、装置及电子设备
CN110381391A (zh) * 2019-07-11 2019-10-25 北京字节跳动网络技术有限公司 视频快速切片方法、装置及电子设备
CN110443182A (zh) * 2019-07-30 2019-11-12 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110443182B (zh) * 2019-07-30 2021-11-09 深圳市博铭维智能科技有限公司 一种基于多实例学习的城市排水管道视频异常检测方法
CN110555117A (zh) * 2019-09-10 2019-12-10 联想(北京)有限公司 一种数据处理方法、装置及电子设备
CN110555117B (zh) * 2019-09-10 2022-05-31 联想(北京)有限公司 一种数据处理方法、装置及电子设备
WO2021190078A1 (zh) * 2020-03-26 2021-09-30 华为技术有限公司 短视频的生成方法、装置、相关设备及介质
CN114743137A (zh) * 2022-03-31 2022-07-12 大连理工大学 一种基于多实例学习的在线考试作弊识别方法

Also Published As

Publication number Publication date
CN105138953B (zh) 2018-09-21

Similar Documents

Publication Publication Date Title
CN105138953A (zh) 一种基于连续的多实例学习的视频中动作识别的方法
CN106934346B (zh) 一种目标检测性能优化的方法
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN104392071B (zh) 一种基于复杂网络的高速列车系统安全评估方法
CN107346340A (zh) 一种用户意图识别方法及系统
CN103984943A (zh) 一种基于贝叶斯概率框架的场景文本识别方法
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN103400391A (zh) 一种基于改进的随机森林的多目标跟踪方法及装置
CN107247956A (zh) 一种基于网格判断的快速目标检测方法
CN105893208A (zh) 基于隐半马尔可夫模型的云计算平台系统故障预测方法
CN104850617B (zh) 短文本处理方法及装置
CN102254183B (zh) 一种基于AdaBoost算法的人脸检测方法
CN103853744B (zh) 一种面向用户生成内容的欺骗性垃圾意见检测方法
CN101251896B (zh) 一种基于多分类器的物体检测系统及方法
CN109472462A (zh) 一种基于多模型堆栈融合的项目风险评级方法及装置
CN104952073A (zh) 基于深度学习的镜头边缘检测方法
CN105574489A (zh) 基于层次级联的暴力群体行为检测方法
CN101398846A (zh) 基于局部颜色空间特征的图像语义概念检测的方法
CN109889436A (zh) 一种社交网络中垃圾邮件发送者的发现方法
CN107392254A (zh) 一种通过联合嵌入从像素中构造图像的语义分割方法
CN106777040A (zh) 一种基于情感极性感知算法的跨媒体微博舆情分析方法
CN111031330A (zh) 一种基于多模态融合的网络直播内容分析方法
CN111274786A (zh) 一种自动量刑的方法和系统
CN104915679A (zh) 一种基于随机森林加权距离的大规模高维数据分类方法
CN109800756A (zh) 一种用于中文历史文献密集文本的文字检测识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant