CN117496594A - 动作识别方法、装置、电子设备及计算机可读存储介质 - Google Patents
动作识别方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN117496594A CN117496594A CN202311455448.8A CN202311455448A CN117496594A CN 117496594 A CN117496594 A CN 117496594A CN 202311455448 A CN202311455448 A CN 202311455448A CN 117496594 A CN117496594 A CN 117496594A
- Authority
- CN
- China
- Prior art keywords
- vector
- video data
- target video
- action recognition
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000009471 action Effects 0.000 title claims abstract description 98
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000003860 storage Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 162
- 238000013145 classification model Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims description 46
- 230000004927 fusion Effects 0.000 claims description 26
- 238000012549 training Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000007499 fusion processing Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 abstract description 24
- 230000006870 function Effects 0.000 description 19
- 238000004891 communication Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 239000000872 buffer Substances 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种动作识别方法、装置、电子设备及计算机可读存储介质,可用于金融领域或其他领域,该动作识别方法包括:获取目标视频数据;根据所述目标视频数据,得到图像向量和语音向量;判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果,本申请能够在保证动作识别过程的准确性的基础上,提高动作识别过程的效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种动作识别方法、装置、电子设备及计算机可读存储介质。
背景技术
随着网络技术的发展,视频逐渐成为信息交互的主要载体。然而大量的视频数据在为工作生活提供便利的同时,也为视频数据的处理工作带来了极大的压力,尤其是对于银行来说,其数据量巨大、场景繁多。目前,通过应用人工智能模型的方式进行动作识别,但是在模型训练初期,素材量很少,无法满足模型训练过程中对大量数据的需求,影响动作识别过程的准确性;并且对大量视频数据进行处理,影响动作识别过程的效率。
发明内容
针对现有技术中的至少一个问题,本申请提出了一种动作识别方法、装置、电子设备及计算机可读存储介质,能够在保证动作识别过程的准确性的基础上,提高动作识别过程的效率。
为了解决上述技术问题,本申请提供以下技术方案:
第一方面,本申请提供一种动作识别方法,包括:
获取目标视频数据;
根据所述目标视频数据,得到图像向量和语音向量;
判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
在一个实施例中,所述根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果,包括:
将所述图像向量和语音向量进行自适应融合处理,得到融合向量;
将所述融合向量输入所述预设的小样本分类模型,将该预设的小样本分类模型的输出结果确定为所述目标视频数据对应的动作识别结果。
在一个实施例中,所述的动作识别方法,还包括:
获取批量历史融合向量及其各自对应的实际动作识别结果;
应用批量历史融合向量及其各自对应的实际动作识别结果,训练得到所述预设的小样本分类模型。
在一个实施例中,所述根据所述目标视频数据,得到图像向量和语音向量,包括:
按照预设的帧间隔从所述目标视频数据中,提取得到多张图像;
将各张图像转换成各自对应的中间图像向量,将各个中间图像向量进行拼接处理,得到所述图像向量;
根据所述目标视频数据,得到语音向量。
在一个实施例中,所述根据所述目标视频数据,得到图像向量和语音向量,包括:
从所述目标视频数据中提取得到音频数据,对所述音频数据进行增强处理;
将增强处理后的音频数据转化为所述语音向量;
根据所述目标视频数据,得到图像向量。
在一个实施例中,在所述确定所述目标视频数据对应的动作识别结果之后,还包括:
应用所述图像向量、语音向量和所述动作识别结果再次对所述预设的小样本分类模型进行训练。
在一个实施例中,在所述确定所述目标视频数据对应的动作识别结果之后,还包括:
将所述动作识别结果输出显示。
第二方面,本申请提供一种动作识别装置,包括:
获取模块,用于获取目标视频数据;
得到模块,用于根据所述目标视频数据,得到图像向量和语音向量;
识别模块,用于判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
在一个实施例中,所述识别模块包括:
融合处理单元,用于将所述图像向量和语音向量进行自适应融合处理,得到融合向量;
识别单元,用于将所述融合向量输入所述预设的小样本分类模型,将该预设的小样本分类模型的输出结果确定为所述目标视频数据对应的动作识别结果。
在一个实施例中,所述的动作识别装置,还包括:
获取历史数据模块,用于获取批量历史融合向量及其各自对应的实际动作识别结果;
训练模块,用于应用批量历史融合向量及其各自对应的实际动作识别结果,训练得到所述预设的小样本分类模型。
在一个实施例中,所述得到模块包括:
第一提取单元,用于按照预设的帧间隔从所述目标视频数据中,提取得到多张图像;
拼接单元,用于将各张图像转换成各自对应的中间图像向量,将各个中间图像向量进行拼接处理,得到所述图像向量;
第一得到单元,用于根据所述目标视频数据,得到语音向量。
在一个实施例中,所述得到模块包括:
第二提取单元,用于从所述目标视频数据中提取得到音频数据,对所述音频数据进行增强处理;
转化单元,用于将增强处理后的音频数据转化为所述语音向量;
第二得到单元,用于根据所述目标视频数据,得到图像向量。
在一个实施例中,所述的动作识别装置,还包括:
迭代训练模块,用于应用所述图像向量、语音向量和所述动作识别结果再次对所述预设的小样本分类模型进行训练。
在一个实施例中,所述的动作识别装置,还包括:
输出模块,用于将所述动作识别结果输出显示。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的动作识别方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时实现所述的动作识别方法。
由上述技术方案可知,本申请提供一种动作识别方法、装置、电子设备及计算机可读存储介质。其中,该方法包括:获取目标视频数据;根据所述目标视频数据,得到图像向量和语音向量;判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果,能够在保证动作识别过程的准确性的基础上,提高动作识别过程的效率;通过融入小样本学习、视频处理与图像识别方法,实现场景初期缺乏大量数据的情况下的动作识别,并具有较高的精度。基于小样本学习的视频原子动作识别方法能够避免对视频片段进行大量的人工抽取、筛选和标注工作,可以提升处理效率;通过不断的将处理后的数据加入模型进行优化,可以提升模型的性能,并为之后的大规模应用奠定基础。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例中的动作识别方法的第一流程示意图;
图2是本申请实施例中的动作识别方法的第二流程示意图;
图3是本申请实施例中的动作识别方法的第三流程示意图;
图4是本申请实施例中的动作识别装置的结构示意图;
图5是本申请应用实例中的动作识别装置的逻辑示意图;
图6为本申请实施例的电子设备的系统构成示意框图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于对本方案的理解,首先对与本方案相关的技术术语进行说明。
小样本学习:小样本学习是一种基于少量样本学习的任务,通过少量的标注样本,构建含有多个不同子任务的任务集,通过归纳不同子任务之间的共性,模型得以学习独立于任务的泛化能力,并得到某一类事物概念,进而满足实际需求。
原子动作:原子动作定义为在时间和空间上具有一致性且无法进一步拆分的基础动作单元。
为了解决上述现有技术中存在的问题,本申请提供一种动作识别方法、装置、电子设备及计算机可读存储介质,基于小样本学习方法对处理后的连续多帧视频进行处理,识别出当前用户的基础动作,减少银行大量的视频处理工作,避免对视频片段进行大量的人工抽取、筛选和标注,同时不断将处理结果进行迭代更新模型的数据,提升模型的性能。
需要说明的是,本申请公开的动作识别方法、装置、电子设备及计算机可读存储介质可用于金融技术领域,也可用于除金融技术领域之外的任意领域,本申请公开的动作识别方法、装置、电子设备及计算机可读存储介质的应用领域不做限定。本申请各实施例的技术方案中对数据的获取、存储、使用、处理等均符合法律法规的相关规定。
具体通过下述各个实施例进行说明。
为了在保证动作识别过程的准确性的基础上,提高动作识别过程的效率,本实施例提供一种执行主体是动作识别装置的动作识别方法,该动作识别装置包括但不限于服务器,如图1所示,该方法具体包含有如下内容:
步骤100:获取目标视频数据。
具体地,所述目标视频数据可以为一段包含有音频的人像视频片段。
步骤200:根据所述目标视频数据,得到图像向量和语音向量。
步骤300:判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
具体地,可以从所述目标视频数据中提取得到音频数据,从该音频数据至提取到多个词汇,将该词汇确定为语音向量对应的词汇。所述预设的关键词可以根据实际需要进行设置,本申请对此不作限制,例如,“正在”“坐着”“斜着”“排队”“取钱”等。小样本学习在场景研究初期,仅需少量样本就实现较高的分类精度。基于小样本学习的视频原子动作识别方法,采用视频处理技术与图像处理技术,通过连续多帧图像的判断,识别出视频中用户的基础动作,实现在场景初期能够以较高精度对视频进行理解,将工作人员从巨量的视频中释放出来,并通过将识别结果扩充到已有的数据中,不断迭代提升模型的性能。进一步地,若所述语音向量对应的词汇中未包含有预设的关键词,则可以根据所述图像向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果,也可以看作自适应融合处理的参数值a=0。
在取款机取款场景中,可以应用设置在取款机处的摄像头采集客户的目标视频数据;根据所述目标视频数据,得到图像向量和语音向量;判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。所述动作识别结果可以为:打电话、被挟持和正常取款操作等中的一种,以实现对客户交易过程的人身安全的监控。
为了进一步提高动作识别的可靠性,在一个实施例中,如图2所示,步骤300所述的根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果,包括:
步骤301:将所述图像向量和语音向量进行自适应融合处理,得到融合向量。
具体地,图像向量和语音向量可以按照(1-a):a的比例进行融合,其中,a可以为大于等于零并且小于1的数,可以根据实际需要进行设置,本申请对此不作限制。
步骤302:将所述融合向量输入所述预设的小样本分类模型,将该预设的小样本分类模型的输出结果确定为所述目标视频数据对应的动作识别结果。
为了提高小样本分类模型的可靠性,在一个实施例中,所述的动作识别方法,还包括:
步骤001:获取批量历史融合向量及其各自对应的实际动作识别结果。
步骤002:应用批量历史融合向量及其各自对应的实际动作识别结果,训练得到所述预设的小样本分类模型。
为了进一步提高图像向量的可靠性,如图3所示,在一个实施例中,步骤200包括:
步骤201:按照预设的帧间隔从所述目标视频数据中,提取得到多张图像。
具体地,所述预设的帧间隔可以根据实际情况进行设置,本申请对此不作限制,作为优选,每间隔10帧提取图像。
步骤202:将各张图像转换成各自对应的中间图像向量,将各个中间图像向量进行拼接处理,得到所述图像向量。
具体地,可以将连续的m(一般设置m=10)张图像的向量进行拼接。所述图像对应的中间图像向量为将该图像转换得到的图像向量。
步骤203:根据所述目标视频数据,得到语音向量。
为了进一步提高语音向量的可靠性,在一个实施例中,步骤200包括:
步骤211:从所述目标视频数据中提取得到音频数据,对所述音频数据进行增强处理。
具体地,可以对来自视频相对应的音频进行捕捉,随后其进行滤噪、增强等操作,滤除音频中其他的杂音,提升音质效果。
步骤212:将增强处理后的音频数据转化为所述语音向量。
步骤213:根据所述目标视频数据,得到图像向量。
在一个实施例中,在步骤300之后还包括:
步骤400:应用所述图像向量、语音向量和所述动作识别结果再次对所述预设的小样本分类模型进行训练。
具体地,通过不断将处理结果进行迭代更新模型的数据,可以提升模型的性能。
为了提高动作识别结果的可视化程度,在一个实施例中,在步骤300之后,还包括:
步骤500:将所述动作识别结果输出显示。
从软件层面来说,为了在保证动作识别过程的准确性的基础上,提高动作识别过程的效率,本申请提供一种用于实现所述动作识别方法中全部或部分内容的动作识别装置的实施例,参见图4,所述动作识别装置具体包含有如下内容:
获取模块01,用于获取目标视频数据;
得到模块02,用于根据所述目标视频数据,得到图像向量和语音向量;
识别模块03,用于判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
在一个实施例中,所述识别模块包括:
融合处理单元,用于将所述图像向量和语音向量进行自适应融合处理,得到融合向量;
识别单元,用于将所述融合向量输入所述预设的小样本分类模型,将该预设的小样本分类模型的输出结果确定为所述目标视频数据对应的动作识别结果。
在一个实施例中,所述的动作识别装置,还包括:
获取历史数据模块,用于获取批量历史融合向量及其各自对应的实际动作识别结果;
训练模块,用于应用批量历史融合向量及其各自对应的实际动作识别结果,训练得到所述预设的小样本分类模型。
在一个实施例中,所述得到模块包括:
第一提取单元,用于按照预设的帧间隔从所述目标视频数据中,提取得到多张图像;
拼接单元,用于将各张图像转换成各自对应的中间图像向量,将各个中间图像向量进行拼接处理,得到所述图像向量;
第一得到单元,用于根据所述目标视频数据,得到语音向量。
在一个实施例中,所述得到模块包括:
第二提取单元,用于从所述目标视频数据中提取得到音频数据,对所述音频数据进行增强处理;
转化单元,用于将增强处理后的音频数据转化为所述语音向量;
第二得到单元,用于根据所述目标视频数据,得到图像向量。
在一个实施例中,所述的动作识别装置,还包括:
迭代训练模块,用于应用所述图像向量、语音向量和所述动作识别结果再次对所述预设的小样本分类模型进行训练。
在一个实施例中,所述的动作识别装置,还包括:
输出模块,用于将所述动作识别结果输出显示。
本说明书提供的动作识别装置的实施例具体可以用于执行上述动作识别方法的实施例的处理流程,其功能在此不再赘述,可以参照上述动作识别方法实施例的详细描述。
为了进一步说明本方案,本申请提供一种动作识别装置的应用实例,如图5所示,在本应用实例中,该装置包括:视频处理模块、语音处理模块和小样本识别模块三个部分。其中,视频处理模块包括:视频增强单元、人员捕捉单元和向量转换单元;语音处理模块包括:音频增强单元、音频捕捉单元和语义识别单元;小样本识别模块包括:自适应融合单元、小样本识别单元和模型迭代单元;其中,视频处理模块和语音处理模块结合实现的功能可以相当于上述获取模块和得到模块结合实现的功能,小样本识别模块实现的功能可以相当于上述识别模块实现的功能;具体描述如下:
(一)视频处理模块:用于将摄像机拍摄下来的视频数据进行处理,对视频中的区域的画质做重点的增强修复。并实时对人员的进行跟踪,将视频分解成一帧一帧的图像,并将连续的多帧图像送入图像处理模块。具体地:
视频增强单元:该单元主要将得到的视频进行增强,提升视频的画质,为接下来的视频跟踪和视频拆分图像做准备,主要采取的方式包括视频增强、色彩增强、视频降噪。
人员捕捉单元:该单元使用目标跟踪技术将人员从视频中识别出来并做到实时跟踪,随后将人员从画面中截出来,并将其按照每间隔n(一般设置n=10)帧提取图像输入到向量转换单元。
向量转化单元:该单元接收人员捕捉单元输入的图像,将其转换成相应的图像向量,并将连续的m(一般设置m=10)张图像的向量进行拼接,最后输入到自适应融合单元。
(二)语音处理模块:用于收集与视频处理模块相同时长的来自视频的语音,并对其进行滤噪、增强的操作,并将其转换为相应的向量。具体地:
音频增强单元:该单元首先对来自视频相对应的音频进行捕捉,随后其进行滤噪、增强等操作,滤除音频中其他的杂音,提升音质效果。
音频捕捉单元:对于增强后的音频内容,该单元捕捉与输入视频处理模块相同时长的来自视频的语音,并将其送入语音识别单元。
语义识别单元:该单元提取音频捕捉单元传来的音频,并将其转换为相应的向量,随后对语音中的词汇进行识别,当词汇中存在“正在”“坐着”“斜着”“排队”“取钱”等用语,输入一个较大的参数a(0~0.3)的值用语接下来的自适应融合,根据词汇中存在的动作、时间的数目来确定a值的大小。
(三)小样本识别模块:依赖于已有的相关动作数据库进行预训练,并通过少量的银行标注数据对其参数进行优化,当接收到来自图像处理模块的向量对其动作类别进行分类,并将分类结果形成报告输出到工作人员。最后进过工作人员处理后的结果将推入数据库中从而不断优化模型的性能。具体地:
自适应融合单元:自适应融合单元接收来自视频处理模块和音频处理模块的图像向量和音频向量,并按照(1-a):a的比例进行融合,并将融合后的向量传递到小样本识别单元。
小样本识别单元:小样本识别单元对来自自适应融合单元的向量进行处理,并通过小样本分类方法识别出当前视频的原子动作以及判断为此动作的置信度,并将相应的结果输出到分类结果报告和模型迭代单元。
模型迭代单元:该单元将接受的置信度与阈值进行比较,若该原子动作视频的置信度大于阈值则将视频对应的图像加入到数据库中,若小于阈值且阈值较低(一般低于0.1)的则将视频交由工作人员判定,则将并根据判定结果加入到数据库中,每次迭代后根据数据库重新训练模型,以提升模型的性能。
由上述描述可知,本应用实例提供的动作识别装置,基于小样本学习方法对处理后的连续多帧视频进行处理,识别出当前用户的基础动作,减少银行大量的视频处理工作,避免对视频片段进行大量的人工抽取、筛选和标注,同时不断将处理结果进行迭代更新模型的数据,提升模型的性能。
从硬件层面来说,为了在保证动作识别过程的准确性的基础上,提高动作识别过程的效率,本申请提供一种用于实现所述动作识别方法中的全部或部分内容的电子设备的实施例所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现所述动作识别装置以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例用于实现所述动作识别方法的实施例及用于实现所述动作识别装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
图6为本申请实施例的电子设备9600的系统构成的示意框图。如图6所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图6是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
在本申请一个或多个实施例中,动作识别功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤100:获取目标视频数据。
步骤200:根据所述目标视频数据,得到图像向量和语音向量。
步骤300:判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
从上述描述可知,本申请的实施例提供的电子设备,能够在保证动作识别过程的准确性的基础上,提高动作识别过程的效率。
在另一个实施方式中,动作识别装置可以与中央处理器9100分开配置,例如可以将动作识别装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现动作识别功能。
如图6所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图6中所示的所有部件;此外,电子设备9600还可以包括图6中没有示出的部件,可以参考现有技术。
如图6所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
上述描述可知,本申请的实施例提供的电子设备,能够在保证动作识别过程的准确性的基础上,提高动作识别过程的效率。
本申请的实施例还提供能够实现上述实施例中的动作识别方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的动作识别方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤100:获取目标视频数据。
步骤200:根据所述目标视频数据,得到图像向量和语音向量。
步骤300:判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
从上述描述可知,本申请实施例提供的计算机可读存储介质,能够在保证动作识别过程的准确性的基础上,提高动作识别过程的效率。
本申请中上述方法的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。相关之处参见方法实施例的部分说明即可。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请中应用了具体实施例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种动作识别方法,其特征在于,包括:
获取目标视频数据;
根据所述目标视频数据,得到图像向量和语音向量;
判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
2.根据权利要求1所述的动作识别方法,其特征在于,所述根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果,包括:
将所述图像向量和语音向量进行自适应融合处理,得到融合向量;
将所述融合向量输入所述预设的小样本分类模型,将该预设的小样本分类模型的输出结果确定为所述目标视频数据对应的动作识别结果。
3.根据权利要求1所述的动作识别方法,其特征在于,还包括:
获取批量历史融合向量及其各自对应的实际动作识别结果;
应用批量历史融合向量及其各自对应的实际动作识别结果,训练得到所述预设的小样本分类模型。
4.根据权利要求1所述的动作识别方法,其特征在于,所述根据所述目标视频数据,得到图像向量和语音向量,包括:
按照预设的帧间隔从所述目标视频数据中,提取得到多张图像;
将各张图像转换成各自对应的中间图像向量,将各个中间图像向量进行拼接处理,得到所述图像向量;
根据所述目标视频数据,得到语音向量。
5.根据权利要求1所述的动作识别方法,其特征在于,所述根据所述目标视频数据,得到图像向量和语音向量,包括:
从所述目标视频数据中提取得到音频数据,对所述音频数据进行增强处理;
将增强处理后的音频数据转化为所述语音向量;
根据所述目标视频数据,得到图像向量。
6.根据权利要求1所述的动作识别方法,其特征在于,在所述确定所述目标视频数据对应的动作识别结果之后,还包括:
应用所述图像向量、语音向量和所述动作识别结果再次对所述预设的小样本分类模型进行训练。
7.根据权利要求1所述的动作识别方法,其特征在于,在所述确定所述目标视频数据对应的动作识别结果之后,还包括:
将所述动作识别结果输出显示。
8.一种动作识别装置,其特征在于,包括:
获取模块,用于获取目标视频数据;
得到模块,用于根据所述目标视频数据,得到图像向量和语音向量;
识别模块,用于判断所述语音向量对应的词汇中是否包含有预设的关键词,若是,则根据所述图像向量、语音向量和预设的小样本分类模型,确定所述目标视频数据对应的动作识别结果。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述的动作识别方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述指令被处理器执行时实现权利要求1至7任一项所述的动作识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311455448.8A CN117496594A (zh) | 2023-11-03 | 2023-11-03 | 动作识别方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311455448.8A CN117496594A (zh) | 2023-11-03 | 2023-11-03 | 动作识别方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117496594A true CN117496594A (zh) | 2024-02-02 |
Family
ID=89673862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311455448.8A Pending CN117496594A (zh) | 2023-11-03 | 2023-11-03 | 动作识别方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117496594A (zh) |
-
2023
- 2023-11-03 CN CN202311455448.8A patent/CN117496594A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111370020B (zh) | 一种将语音转换成唇形的方法、系统、装置和存储介质 | |
CN112889108B (zh) | 使用视听数据进行说话分类 | |
EP3617946B1 (en) | Context acquisition method and device based on voice interaction | |
CN108920640B (zh) | 基于语音交互的上下文获取方法及设备 | |
CN111312283B (zh) | 跨信道声纹处理方法及装置 | |
CN113327621A (zh) | 模型训练方法、用户识别方法、系统、设备及介质 | |
WO2024140430A1 (zh) | 基于多模态深度学习的文本分类方法、设备及存储介质 | |
CN111176442A (zh) | 一种基于vr虚拟现实技术的交互式政务服务系统及方法 | |
CN116310983A (zh) | 多模态情感识别方法及装置 | |
CN113065879A (zh) | 一种数据流质检方法及系统 | |
CN111931852B (zh) | 目标物的定价方法及装置 | |
CN117496594A (zh) | 动作识别方法、装置、电子设备及计算机可读存储介质 | |
CN112820298B (zh) | 声纹识别方法及装置 | |
CN113206998B (zh) | 一种业务录制的视频数据质检方法及装置 | |
CN115082828A (zh) | 基于支配集的视频关键帧提取方法和装置 | |
CN115578101A (zh) | 网点用户身份识别方法及装置 | |
CN112261321B (zh) | 字幕处理方法、装置及电子设备 | |
CN110119749A (zh) | 识别产品图像的方法和装置、存储介质 | |
KR20200097446A (ko) | 멀티모달 컨텐츠 제공 시스템 및 방법, 이를 위한 컨텐츠 인덱싱 장치 | |
WO2024082914A1 (zh) | 视频问答方法及电子设备 | |
CN117153166B (zh) | 语音唤醒方法、设备及存储介质 | |
CN118075418B (zh) | 视频会议内容输出优化方法、装置、设备及其存储介质 | |
CN111914777B (zh) | 一种跨模态识别机器人指令的方法及系统 | |
CN115579017A (zh) | 音频数据处理方法及装置 | |
CN115834773A (zh) | 基于automl框架的外呼接通率提升方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |