CN114022828A - 视频流处理方法及装置 - Google Patents
视频流处理方法及装置 Download PDFInfo
- Publication number
- CN114022828A CN114022828A CN202210004046.5A CN202210004046A CN114022828A CN 114022828 A CN114022828 A CN 114022828A CN 202210004046 A CN202210004046 A CN 202210004046A CN 114022828 A CN114022828 A CN 114022828A
- Authority
- CN
- China
- Prior art keywords
- video stream
- time
- behavior
- time slice
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 26
- 230000006399 behavior Effects 0.000 claims abstract description 186
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000005206 flow analysis Methods 0.000 claims abstract description 20
- 230000009471 action Effects 0.000 claims description 30
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000002474 experimental method Methods 0.000 claims description 11
- 238000010801 machine learning Methods 0.000 claims description 8
- 230000003542 behavioural effect Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 51
- 230000008569 process Effects 0.000 description 28
- 238000012015 optical character recognition Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 15
- 230000002452 interceptive effect Effects 0.000 description 5
- 230000004913 activation Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Tourism & Hospitality (AREA)
- Strategic Management (AREA)
- Educational Technology (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Electrically Operated Instructional Devices (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种视频流处理方法及装置。其中,所述方法包括:获取即时视频流的时间切片;根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类;根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。能够将获取视频流中不同对象以及不同对象对应的行为进行关联、分类,从而能够针对性地呈现出相应场景对应的视频内容,便于对相应数据进行精细化分析;并且,通过对获取的实时视频进行实时处理,降低了视频文件所需的存储空间。
Description
技术领域
本申请涉及视频识别技术领域,尤其涉及一种视频流处理方法及装置。
背景技术
随着AI技术的持续发展和普及,市场上出现了很多成熟的AI模块,比如阿里多媒体AI,可以用来处理媒体中的信息流。例如,多媒体中的视频流、音频流,或视频流与音频流结合的信息流。在视频流处理的过程中,可以通过AI模块对存储的视频文件进行结构化处理以及内容理解,从而得到具有结构化、逻辑性的数据统计结果。
在实现现有技术的过程中,发明人发现:
阿里多媒体AI以及市场中其他厂家公开出来的相对成熟的AI模块,虽然能构对存储的多媒体视频的数据进行结构化处理,需要先将视频数据进行存储之后再进行处理,无法对实时视频流数据的中的某些行为进行有效识别,且增大了对存储空间的要求。
因此,需要提供一种视频流处理方法及装置,用以解决现有独立的AI技术无法对实时视频流数据中的行为进行有效识别的技术问题。
发明内容
本申请实施例提供一种视频流处理方法及装置,用以解决现有独立的AI技术无法对实时视频流数据中的行为进行有效识别的技术问题。
具体的,一种视频流处理方法,包括以下步骤:
获取即时视频流的时间切片;
根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类;
根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。
进一步的,根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,具体包括:
使用机器学习算法,根据即时视频流的时间切片中呈现的对象的动作行为,对所述时间切片进行分类。
进一步的,根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,还包括:
根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,对所述时间切片进行分类。
进一步的,根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流,具体包括:
确定表征第一行为属性的、具有第一时间戳标记的第一时间片段;
确定表征第一行为属性的、与所述第一时间片段具有连续的时间戳标记的若干第二时间片段序列;
根据信息流分析算法,将具有连续时间戳标记的所述第一时间片段和若干所述第二时间片段序列,合并形成结构化的视频流。
进一步的,所述视频流处理方法用于处理课堂教学的视频;
所述第一行为属性用于表征课堂教学行为。
进一步的,所述课堂教学行为包括提问行为、板书行为、实验行为至少其中之一。
进一步的,所述视频流处理还包括:
根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,确定所述第一时间片段和所述若干第二时间片段序列。
进一步的,所述结构化的视频流包括课程结构视频流、师生行为视频流、提问视频流、板书视频流或实验视频流至少其中之一。
本申请实施例还提供一种视频流处理装置。
具体的,一种视频流处理装置,包括:
获取模块,用于获取即时视频流的时间切片;
分类模块,用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类;
关联模块,用于根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。
进一步的,所述分类模块用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,具体用于:
使用机器学习算法,根据即时视频流的时间切片中呈现的对象的动作行为,对所述时间切片进行分类。
通过申请实施例提供的技术方案,至少具有如下有益效果:
能够将获取视频流中不同对象以及不同对象对应的行为进行关联、分类,从而能够针对性地呈现出相应场景对应的视频内容,便于对相应数据进行精细化分析;并且,通过对获取的实时视频进行实时处理,降低了视频文件所需的存储空间。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种视频流处理方法的流程图。
图2为本申请实施例提供的一种视频流处理装置的结构示意图。
100 视频流处理装置
11 获取模块
12 分类模块
13 关联模块。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种视频流处理方法,主要用于处理实时获取的视频流数据。这样,无需获取完整的视频流数据,只需针对性地获取某一时间段内的视频,即可进行相应动作行为的识别,之后再针对性地将预处理视频数据的合并/输出等处理即可。这样,能够有效提高视频数据的实时处理效率,并大大降低了视频流数据处理所需的存储空间。
在本申请提供的视频流处理方法可以用来进行课堂教学视频的处理。通过对获取的实时视频流进行分析,能够有效识别教学过程中的课堂行为;之后,再进行不同业务场景的分析,从而能够实现对课堂内容结构化数据的精细化分析。例如,能够对师生互动行为、PPT课程结构、师生语言等并行存在的业务场景进行分析,从而将课堂内容进行全方位的展现,达到了识别课程结构、师生行为、提问、板书、实验等一系列教学场景内容的目的。具体的,请参照图1,为本申请提供的一种视频流处理方法,包括以下步骤:
S100:获取即时视频流的时间切片;
S200:根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类;
S300:根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。
S100:获取即时视频流的时间切片。
这里的即时视频流,在实际应用中,可以理解为通过推流技术实时推送到云端的视频文件。被推送的视频为通过视频拍摄设备实时拍摄的内容。这里的时间切片可以理解为对视频按照预设时长拆分,所得到的若干子视频文件。其中,所述子视频文件可以为由连续若干帧图像构成的视频数据,也可以为被经拆分得到的单帧图像组成的文件。获取即时视频流的时间切片,即获取所述经拆分得到的若干子视频文件,也即获取在某一预设时长的时间段内的连续视频数据。这里时间切片对应的预设时长,可以根据实际需求进行设定。
S200:根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类。
可以理解的是,获取的即时视频流时间切片中对存在不同的对象,并且每一对象存在不同的动作/行为。这里的对象的行为,可以理解为每一时间切片中呈现对象的实时动作。以课堂教学视频的某一时间切片为例,可能存在若干对象同时举手的动作,或某一对象起立的动作,或某一对象的提问动作。这些动作均可以理解为即时视频流的时间切片中呈现的对象的行为。可以理解的是,在课堂教育过程中,涉及的动作实施对象可以为授课讲师,或者若干学生。根据即时视频流的时间切片中呈现的对象的具体行为,即可对时间切片按照所呈现对象的不同以及每一对象实施的不同动作进行分类,从而得到若干具有同一类别特征的时间切片。这里的类别特征,在课堂教学场景中,可以为同一教学场景、同一对象相应动作等等。例如,同一学生在不同科目的教学课堂中的答题行为可以归为同一类别,或同一教师在不同时刻的授课行为可以归为同一类别,或不同教师对同一学生的提问行为可以归为同一类别。
S300:根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。
这里的信息流分析算法,可以理解为预设的对完成分类的时间切片进行合并的算法。将分类后的时间切片进行关联,即将若干具有同一类别特征的时间切片按照预设规则合并。这里的结构化可以理解为在时间或空间上具有一定关联度。通过处理得到的结构化视频流,能够针对性地呈现由具有同一类别特征的若干子视频文件构成的总视频文件,从而能够为不同的用户针对性地输出相关视频。
具体的,在进行课堂教学视频处理中,对应存在多种类别特征。例如,同一学生在不同科目的教学课堂中的答题行为可以归为同一类别,或同一教师在不同时刻的授课行为可以归为同一类别,或不同教师对同一学生的提问行为可以归为同一类别。每一类别中的若干时间切片,经信息流分析算法关联后,即可得到对应的结构化的视频流。例如,同一学生在不同科目的教学课堂中的答题行为视频流合集,或同一教师在不同时刻的授课行为视频流合集,或不同教师对同一学生的提问行为视频流合集。这些视频流合集均可以理解为结构化视频流。可以理解的是,这里的结构化视频流的具体呈现内容,显然不构成对本申请保护范围的限制。
进一步的,在本申请提供的一种优选实施方式中,所述结构化的视频流包括课程结构视频流、师生行为视频流、提问视频流、板书视频流或实验视频流至少其中之一。
可以理解的是,在课堂教学过程中,存在不同的教学场景以及教学行为。这里的课程结构视频流可以理解为经信息流分析算法关联后,对应得到的关于某一完整课程视频流合集。例如,某一授课过程中,关于教师对该堂课设计的各关键节点的讲述内容视频流合集。这样,便于进行教师授课思路分析。可以理解的是,这里所述的课程结构视频流的具体表现形式,显然不构成对本身请保护范围的限制。
这里的师生行为视频流可以理解为某一时间段内,教师与学生之间的互动行为视频流合集。通过师生行为视频流合集,便于掌握教师与学生之间的互动情况,从而便于综合评估教师课堂授课能力以及学生对课程的接受度。同样的,通过提问视频流、板书视频流或实验视频流,同样能够便于对学生或教师的课堂行为进行实时观察,从而便于教学质量的提升。
进一步的,在本申请提供的一种优选实施方式中,根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,具体包括:使用机器学习算法,根据即时视频流的时间切片中呈现的对象的动作行为,对所述时间切片进行分类。
这里的机器学习算法,在实际应用中,可以为根据获取的即使视频流时间切片进行对象识别的视频流实时采集分析识别技术。具体的,视频流实时采集分析识别技术,在实际应用中,可以为对实时获取的视频流进行图像分类识别的能力。这样,可以在视频录制与视频流实时推送过程中实时进行课堂内人员的行为动作识别与分类统计、存储。可以理解的是,接收推送的视频文件,即接收若干帧连续的图像。通过对所述若干帧连续的图像进行对象识别,即可有效得到当前获取的时间切片对应的具体类别。
在本申请提供的一种具体实施方式中,获取的时间切片对应的内容为某一学生发起针对某一题目的起立作答。此时,经图像识别算法识别,该时间切片中对象行为即为学生作答。则可对应将该时间切片分类至学生作答这一类别中。另外,还可以通过图像识别算法识别出是哪一位学生在答题。即,获取的时间切片中对象行为可以具象到哪一学生在作答。
值的注意的是,这里的图像识别算法为经预训练得到的算法。在本申请提供的一种具体实施方式中,可以根据若干训练图像集并通过神经网络,负反馈优化所述图像分类识别算法。经训练得到的图像分类识别算法,即可用于识别每一获取的时间切片中具体的对象类别以及对象实施动作,从而便于根据对象类别或对象实施动作进行时间切片的分类。
进一步的,在本申请提供的一种优选实施方式中,根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,还包括:根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,对所述时间切片进行分类。
可以理解的是,根据获取的即时视频流的时间切片,在确定其对应的对象行为的同时,还能够确定该时间切片对应的具体教学场景。确定时间切片对应的具体教学场景,可以通过阿里云智能媒体标签技术,或者其他具有相同功能的AI技术,进行当前获取的时间切片所对应标签的识别。这里的标签可以理解为与当前处理的时间切片中呈现出的与对象具有一定关联度的场景分析。例如,当前时间切片中可能并行存在的师生互动行为、PPT课程结构、师生语言等业务场景。对其中的语音信息进行拆解,并通过OCR识别,即可得到当前时间切片中存在对象行为所对应的具体应用场景。这样,便于时间切片的精细化分类,完整的将课堂内容进行全方位的展现,从而有效识别出课堂教学过程中不同教学场景内容。
在本申请提供的一种具体实施方式中,获取的时间切片对应的内容仍为某一学生发起针对某一题目的起立作答。经图像识别,可以识别出该时间切片中对象行为对应为哪一学生在作答。但是,某一学生作答的这一对象行为可以体现在英语教学课程、数学教学课堂、物理教学课堂等多种不同课堂教学场景中。即,该时间切片可能并行存在于多种教学场景中。具体的教学场景确定,若通过图像识别技术处理,则对时间切片中呈现内容具有较高的质量要求。并且,某些情况下,无法通过图像内容确定当前对应的具体场景。例如,师生之间的语音交流。这时,可以利用阿里云智能媒体标签中语音、OCR能力,得到对应的具体文字信息,从而便于当前时间切片中具体应用场景的确定。这样,提高了当前时间切片对应的具体教学场景的识别效率。
进一步的,在本申请提供的一种优选实施方式中,所述视频流处理方法中,根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流的触发条件为:获取即时视频流的时间切片完成。
这里的触发条件可以理解为信息流分析算法的激活条件。可以理解的是,进行结构化视频流的合成,需根据若干份已完成分类的时间切片。即,结构化视频流生成之前,需保证获取的时间切片分类完成。也即,保证已经完全获取即时视频流的时间切片。这样,能够保证所生成的结构化视频流的完整性。
进一步的,在本申请提供的一种优选实施方式中,根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流,具体包括:
确定表征第一行为属性的、具有第一时间戳标记的第一时间片段;
确定表征第一行为属性的、与所述第一时间片段具有连续的时间戳标记的若干第二时间片段序列;
根据信息流分析算法,将具有连续时间戳标记的所述第一时间片段和若干所述第二时间片段序列,合并形成结构化的视频流。
这里的第一行为属性还可以理解为获取的时间切片呈现的对象行为中,具有最高优先级的行为。可以理解的是,同一对象在同一时间切片中,对应存在若干不同的具体行为。例如,学生在某一时间切片中,可能对应存在举手、起立、作答、落座、课堂走神等具体行为。但是,若就学生作答这一待分析指标,作答这一具体行为具有最高的优先级。若就学生课堂专注度这一待分析指标,课堂走神这一具体行为具有最高的优先级。由此可知,针对不同的输出指标,不同属性的行为具有不同的优先级。但是,这些不同属性的行为可能对应这同一时间切片中的不同发生时刻。可以理解的是,这里所述第一行为属性的具体表现形式,显然不构成对本申请保护范围的限制。
这里的第一时间戳可以理解为针对具有预设的最高优先级对象行为,在最先获取到的时间切片中存在第一行为属性的开始以及终止时刻。可以理解的是,获取的即使视频流的时间切片,对应不同的拍摄时刻。通过对实时视频流的分析,能够确定每一时间切片中对应第一行为的发生以及终止时刻,从而得到当前类别中最早获取的时间切片。这里的第一时间片段,可以理解为最早获取到的、且存在最高优级的行为的时间切片中,记录有第一行为的时间子切片。对应的,这里的若干第二时间片段序列为在时间上与第一时间片段呈顺延关系、且同样记录有第一行为的若干时间子切片。在本申请提供的另一种实施方式中,还可以根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,确定所述第一时间片段和所述若干第二时间片段序列。可以理解的是,通过即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,能够确定当前时间切片对应的具体场景。值得注意的是,根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式确定的场景内容具有一定的内在逻辑性。因此,还可以根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,确定记录有第一行为的若干时间子切片的先后顺序。这样,无需确定第一时间片段、第二时间片段的时间戳标记并排序,提高了结构化视频流的合成效率。
根据在时间上呈顺延关系的第一时间片段和若干所述第二时间片段,并通过预设的信息流分析算法,即可合成记录有第一行为、且按时间呈现的视频流合集。这样,能够获得时间层次清晰、且具有同一优先级行为的视频流合集,从而便于根据用户根据实际情况进行相关视频流合集的查阅。在实际应用中,当若干即时视频流的时间切片获取完毕,可以根据预设的每一时间切片分类类别中不同对象行为的优先级依次进行结构化视频流的生成。
进一步的,在本申请提供的一种优选实施方式中,所述视频流处理方法用于处理课堂教学的视频;所述第一行为属性用于表征课堂教学行为。
本申请提供的视频流处理方法主要用于处理课堂教学视频的处理。这里的课堂教学视频,可以理解为与课堂教学过程中有所关联的所有视频。所述课堂教学视频可以通过安装于教师的拍摄设备对课堂教学过程拍摄得到。课堂教学过程中,对应存在多种行为类别。例如,教师课堂教学行为、学生课堂听课行为等。实际应用中,不同的行为类别分别对应不同的分析指标。例如,教师课堂教学行为对应教师教学水平分析指标,学生课堂听课行为对应学生课堂专注度分析指标。优选的,本申请提供的视频流处理方法处理课堂教学的视频时,具有最高优先级的待处理时间切片对应的具体行为为课堂教学行为。即,第一行为属性用于表征课堂教学行为。这样,能够得到与课堂教学行为相关的结构化视频流合集,从而能够完成对课堂内容结构化数据的精细化分析。在实际应用中,通过完成对课堂内容结构化数据的精细化分析,便于对教师在课堂教学过程中的相关教学行为进行全面评估,从而能够有效提升教学质量水平。
在本申请提供的一种优选实施方式中,所述课堂教学行为包括提问行为、板书行为、实验行为至少其中之一。
可以理解的是,课堂教学过程无法课堂提问、板书书写、实验授课等环节。通过生成与课堂教学过程中的提问行为、板书行为、实验行为等相关的结构化视频流,可以使得课堂内容结构化数据更加精细,具有更强的针对性。例如,通过生成的与提问行为相关的结构化视频流,便于确定教师提问环节对应的学生反馈度,从而便于评估学生对相应知识的接收度。又例如,通过生成的与板书书写行为或实验行为相关的结构化视频流,便于确定当前教师对象的板书书写水平,便于进行后续的教学能力评估。可以理解的是,这里所述课堂教学行为对应的具体用途,显然不构成对本申请保护范围的限制。
在本申请提供的一种具体实施方式中,获取的即时视频流时间切片对应的呈现场景为老师提出一个问题然后学生作答。进行该时间切片的处理,首先针对实时视频流进行图像分类与识别。此时,能够分别识别出老师提出问题与学生起立回答。之后,利用实时视频流分析学生举手动作、起立动作,并记录动作发生的是时间点。此时,对应得到该视频流对应的完整记录文件。结合阿里云智能媒体标签技术进行语音信息的拆解,并结合之前记录的动作时间节点,进行前后内容的匹配,即可识别出一个完整的提问与回答环节,并对环节内的内容进行有效处理。
本申请实施例还提供一种视频流处理装置,可以用来进行课堂教学视频的处理。
具体的,请参照图2,为本申请提供的一种视频流处理装置100,包括:
获取模块11,用于获取即时视频流的时间切片;
分类模块12,用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类;
关联模块13,用于根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。
获取模块11,用于获取即时视频流的时间切片。这里的即时视频流,在实际应用中,可以理解为通过推流技术实时推送到云端的视频文件。被推送的视频为通过视频拍摄设备实时拍摄的内容。这里的时间切片可以理解为对视频按照预设时长拆分,所得到的若干子视频文件。其中,所述子视频文件可以为由连续若干帧图像构成的视频数据,也可以为被经拆分得到的单帧图像组成的文件。获取即时视频流的时间切片,即获取所述经拆分得到的若干子视频文件,也即获取在某一预设时长的时间段内的连续视频数据。这里时间切片对应的预设时长,可以根据实际需求进行设定。
分类模块12,用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类。可以理解的是,获取的即时视频流时间切片中对存在不同的对象,并且每一对象存在不同的动作/行为。这里的对象的行为,可以理解为每一时间切片中呈现对象的实时动作。以课堂教学视频的某一时间切片为例,可能存在若干对象同时举手的动作,或某一对象起立的动作,或某一对象的提问动作。这些动作均可以理解为即时视频流的时间切片中呈现的对象的行为。可以理解的是,在课堂教育过程中,涉及的动作实施对象可以为授课讲师,或者若干学生。根据即时视频流的时间切片中呈现的对象的具体行为,即可对时间切片按照所呈现对象的不同以及每一对象实施的不同动作进行分类,从而得到若干具有同一类别特征的时间切片。这里的类别特征,在课堂教学场景中,可以为同一教学场景、同一对象相应动作等等。例如,同一学生在不同科目的教学课堂中的答题行为可以归为同一类别,或同一教师在不同时刻的授课行为可以归为同一类别,或不同教师对同一学生的提问行为可以归为同一类别。
关联模块13,用于根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。这里的信息流分析算法,可以理解为预设的对完成分类的时间切片进行合并的算法。将分类后的时间切片进行关联,即将若干具有同一类别特征的时间切片按照预设规则合并。这里的结构化可以理解为在时间或空间上具有一定关联度。通过处理得到的结构化视频流,能够针对性地呈现由具有同一类别特征的若干子视频文件构成的总视频文件,从而能够为不同的用户针对性地输出相关视频。
具体的,在进行课堂教学视频处理中,对应存在多种类别特征。例如,同一学生在不同科目的教学课堂中的答题行为可以归为同一类别,或同一教师在不同时刻的授课行为可以归为同一类别,或不同教师对同一学生的提问行为可以归为同一类别。每一类别中的若干时间切片,经信息流分析算法关联后,即可得到对应的结构化的视频流。例如,同一学生在不同科目的教学课堂中的答题行为视频流合集,或同一教师在不同时刻的授课行为视频流合集,或不同教师对同一学生的提问行为视频流合集。这些视频流合集均可以理解为结构化视频流。可以理解的是,这里的结构化视频流的具体呈现内容,显然不构成对本申请保护范围的限制。
进一步的,在本申请提供的一种优选实施方式中,所述结构化的视频流包括课程结构视频流、师生行为视频流、提问视频流、板书视频流或实验视频流至少其中之一。
可以理解的是,在课堂教学过程中,存在不同的教学场景以及教学行为。这里的课程结构视频流可以理解为经信息流分析算法关联后,对应得到的关于某一完整课程视频流合集。例如,某一授课过程中,关于教师对该堂课设计的各关键节点的讲述内容视频流合集。这样,便于进行教师授课思路分析。可以理解的是,这里所述的课程结构视频流的具体表现形式,显然不构成对本身请保护范围的限制。
这里的师生行为视频流可以理解为某一时间段内,教师与学生之间的互动行为视频流合集。通过师生行为视频流合集,便于掌握教师与学生之间的互动情况,从而便于综合评估教师课堂授课能力以及学生对课程的接受度。同样的,通过提问视频流、板书视频流或实验视频流,同样能够便于对学生或教师的课堂行为进行实时观察,从而便于教学质量的提升。
进一步的,在本申请提供的一种优选实施方式中,所述分类模块12用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,具体用于:使用机器学习算法,根据即时视频流的时间切片中呈现的对象的动作行为,对所述时间切片进行分类。
这里的机器学习算法,在实际应用中,可以为根据获取的即使视频流时间切片进行对象识别的视频流实时采集分析识别技术。具体的,视频流实时采集分析识别技术,在实际应用中,可以为对实时获取的视频流进行图像分类识别的能力。这样,可以在视频录制与视频流实时推送过程中实时进行课堂内人员的行为动作识别与分类统计、存储。可以理解的是,接收推送的视频文件,即接收若干帧连续的图像。通过对所述若干帧连续的图像进行对象识别,即可有效得到当前获取的时间切片对应的具体类别。
在本申请提供的一种具体实施方式中,获取的时间切片对应的内容为某一学生发起针对某一题目的起立作答。此时,经图像识别算法识别,该时间切片中对象行为即为学生作答。则可对应将该时间切片分类至学生作答这一类别中。另外,还可以通过图像识别算法识别出是哪一位学生在答题。即,获取的时间切片中对象行为可以具象到哪一学生在作答。
值的注意的是,这里的图像识别算法为经预训练得到的算法。在本申请提供的一种具体实施方式中,可以根据若干训练图像集并通过神经网络,负反馈优化所述图像分类识别算法。经训练得到的图像分类识别算法,即可用于识别每一获取的时间切片中具体的对象类别以及对象实施动作,从而便于根据对象类别或对象实施动作进行时间切片的分类。
进一步的,在本申请提供的一种优选实施方式中,所述分类模块12用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,还用于:根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,对所述时间切片进行分类。
可以理解的是,根据获取的即时视频流的时间切片,在确定其对应的对象行为的同时,还能够确定该时间切片对应的具体教学场景。确定时间切片对应的具体教学场景,可以通过阿里云智能媒体标签技术,或者其他具有相同功能的AI技术,进行当前获取的时间切片所对应标签的识别。这里的标签可以理解为与当前处理的时间切片中呈现出的与对象具有一定关联度的场景分析。例如,当前时间切片中可能并行存在的师生互动行为、PPT课程结构、师生语言等业务场景。对其中的语音信息进行拆解,并通过OCR识别,即可得到当前时间切片中存在对象行为所对应的具体应用场景。这样,便于时间切片的精细化分类,完整的将课堂内容进行全方位的展现,从而有效识别出课堂教学过程中不同教学场景内容。
在本申请提供的一种具体实施方式中,获取的时间切片对应的内容仍为某一学生发起针对某一题目的起立作答。经图像识别,可以识别出该时间切片中对象行为对应为哪一学生在作答。但是,某一学生作答的这一对象行为可以体现在英语教学课程、数学教学课堂、物理教学课堂等多种不同课堂教学场景中。即,该时间切片可能并行存在于多种教学场景中。具体的教学场景确定,若通过图像识别技术处理,则对时间切片中呈现内容具有较高的质量要求。并且,某些情况下,无法通过图像内容确定当前对应的具体场景。例如,师生之间的语音交流。这时,可以利用阿里云智能媒体标签中语音、OCR能力,得到对应的具体文字信息,从而便于当前时间切片中具体应用场景的确定。这样,提高了当前时间切片对应的具体教学场景的识别效率。
进一步的,在本申请提供的一种优选实施方式中,所述视频流处理方法中,根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流的触发条件为:获取即时视频流的时间切片完成。
这里的触发条件可以理解为信息流分析算法的激活条件。可以理解的是,进行结构化视频流的合成,需根据若干份已完成分类的时间切片。即,结构化视频流生成之前,需保证获取的时间切片分类完成。也即,保证已经完全获取即时视频流的时间切片。这样,能够保证所生成的结构化视频流的完整性。
进一步的,在本申请提供的一种优选实施方式中,所述关联模块13用于根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流,具体用于:
确定表征第一行为属性的、具有第一时间戳标记的第一时间片段;
确定表征第一行为属性的、与所述第一时间片段具有连续的时间戳标记的若干第二时间片段序列;
根据信息流分析算法,将具有连续时间戳标记的所述第一时间片段和若干所述第二时间片段序列,合并形成结构化的视频流。
这里的第一行为属性还可以理解为获取的时间切片呈现的对象行为中,具有最高优先级的行为。可以理解的是,同一对象在同一时间切片中,对应存在若干不同的具体行为。例如,学生在某一时间切片中,可能对应存在举手、起立、作答、落座、课堂走神等具体行为。但是,若就学生作答这一待分析指标,作答这一具体行为具有最高的优先级。若就学生课堂专注度这一待分析指标,课堂走神这一具体行为具有最高的优先级。由此可知,针对不同的输出指标,不同属性的行为具有不同的优先级。但是,这些不同属性的行为可能对应这同一时间切片中的不同发生时刻。可以理解的是,这里所述第一行为属性的具体表现形式,显然不构成对本申请保护范围的限制。
这里的第一时间戳可以理解为针对具有预设的最高优先级对象行为,在最先获取到的时间切片中存在第一行为属性的开始以及终止时刻。可以理解的是,获取的即使视频流的时间切片,对应不同的拍摄时刻。通过对实时视频流的分析,能够确定每一时间切片中对应第一行为的发生以及终止时刻,从而得到当前类别中最早获取的时间切片。这里的第一时间片段,可以理解为最早获取到的、且存在最高优级的行为的时间切片中,记录有第一行为的时间子切片。对应的,这里的若干第二时间片段序列为在时间上与第一时间片段呈顺延关系、且同样记录有第一行为的若干时间子切片。在本申请提供的另一种实施方式中,还可以根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,确定所述第一时间片段和所述若干第二时间片段序列。可以理解的是,通过即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,能够确定当前时间切片对应的具体场景。值得注意的是,根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式确定的场景内容具有一定的内在逻辑性。因此,还可以根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,确定记录有第一行为的若干时间子切片的先后顺序。这样,无需确定第一时间片段、第二时间片段的时间戳标记并排序,提高了结构化视频流的合成效率。
根据在时间上呈顺延关系的第一时间片段和若干所述第二时间片段,并通过预设的信息流分析算法,即可合成记录有第一行为、且按时间呈现的视频流合集。这样,能够获得时间层次清晰、且具有同一优先级行为的视频流合集,从而便于根据用户根据实际情况进行相关视频流合集的查阅。在实际应用中,当若干即时视频流的时间切片获取完毕,可以根据预设的每一时间切片分类类别中不同对象行为的优先级依次进行结构化视频流的生成。
进一步的,在本申请提供的一种优选实施方式中,所述视频流处理方法用于处理课堂教学的视频;所述第一行为属性用于表征课堂教学行为。
本申请提供的视频流处理方法主要用于处理课堂教学视频的处理。这里的课堂教学视频,可以理解为与课堂教学过程中有所关联的所有视频。所述课堂教学视频可以通过安装于教师的拍摄设备对课堂教学过程拍摄得到。课堂教学过程中,对应存在多种行为类别。例如,教师课堂教学行为、学生课堂听课行为等。实际应用中,不同的行为类别分别对应不同的分析指标。例如,教师课堂教学行为对应教师教学水平分析指标,学生课堂听课行为对应学生课堂专注度分析指标。优选的,本申请提供的视频流处理方法处理课堂教学的视频时,具有最高优先级的待处理时间切片对应的具体行为为课堂教学行为。即,第一行为属性用于表征课堂教学行为。这样,能够得到与课堂教学行为相关的结构化视频流合集,从而能够完成对课堂内容结构化数据的精细化分析。在实际应用中,通过完成对课堂内容结构化数据的精细化分析,便于对教师在课堂教学过程中的相关教学行为进行全面评估,从而能够有效提升教学质量水平。
在本申请提供的一种优选实施方式中,所述课堂教学行为包括提问行为、板书行为、实验行为至少其中之一。
可以理解的是,课堂教学过程无法课堂提问、板书书写、实验授课等环节。通过生成与课堂教学过程中的提问行为、板书行为、实验行为等相关的结构化视频流,可以使得课堂内容结构化数据更加精细,具有更强的针对性。例如,通过生成的与提问行为相关的结构化视频流,便于确定教师提问环节对应的学生反馈度,从而便于评估学生对相应知识的接收度。又例如,通过生成的与板书书写行为或实验行为相关的结构化视频流,便于确定当前教师对象的板书书写水平,便于进行后续的教学能力评估。可以理解的是,这里所述课堂教学行为对应的具体用途,显然不构成对本申请保护范围的限制。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,有语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种视频流处理方法,其特征在于,包括以下步骤:
获取即时视频流的时间切片;
根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类;
根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。
2.如权利要求1所述的视频流处理方法,其特征在于,根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,具体包括:
使用机器学习算法,根据即时视频流的时间切片中呈现的对象的动作行为,对所述时间切片进行分类。
3.如权利要求2所述的视频流处理方法,其特征在于,根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,还包括:
根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,对所述时间切片进行分类。
4.如权利要求1所述的视频流处理方法,其特征在于,根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流,具体包括:
确定表征第一行为属性的、具有第一时间戳标记的第一时间片段;
确定表征第一行为属性的、与所述第一时间片段具有连续的时间戳标记的若干第二时间片段序列;
根据信息流分析算法,将具有连续时间戳标记的所述第一时间片段和若干所述第二时间片段序列,合并形成结构化的视频流。
5.如权利要求4所述的视频流处理方法,其特征在于,所述视频流处理方法用于处理课堂教学的视频;
所述第一行为属性用于表征课堂教学行为。
6.如权利要求5所述的视频流处理方法,其特征在于,所述课堂教学行为包括提问行为、板书行为、实验行为至少其中之一。
7.如权利要求4所述的视频流处理方法,其特征在于,所述视频流处理还包括:
根据即时视频流的时间切片中呈现的对象的语音标签、OCR识别方式,确定所述第一时间片段和所述若干第二时间片段序列。
8.如权利要求1所述的方法,其特征在于,所述结构化的视频流包括课程结构视频流、师生行为视频流、提问视频流、板书视频流或实验视频流至少其中之一。
9.一种视频流处理装置,其特征在于,包括:
获取模块,用于获取即时视频流的时间切片;
分类模块,用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类;
关联模块,用于根据信息流分析算法,将若干分类后的时间切片进行关联,形成结构化的视频流。
10.如权利要求9所述的视频流处理装置,其特征在于,所述分类模块用于根据即时视频流的时间切片中呈现的对象的行为,对所述时间切片进行分类,具体用于:
使用机器学习算法,根据即时视频流的时间切片中呈现的对象的动作行为,对所述时间切片进行分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210004046.5A CN114022828A (zh) | 2022-01-05 | 2022-01-05 | 视频流处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210004046.5A CN114022828A (zh) | 2022-01-05 | 2022-01-05 | 视频流处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114022828A true CN114022828A (zh) | 2022-02-08 |
Family
ID=80069581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210004046.5A Pending CN114022828A (zh) | 2022-01-05 | 2022-01-05 | 视频流处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114022828A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109922373A (zh) * | 2019-03-14 | 2019-06-21 | 上海极链网络科技有限公司 | 视频处理方法、装置及存储介质 |
CN110119711A (zh) * | 2019-05-14 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 一种获取视频数据人物片段的方法、装置及电子设备 |
CN111626252A (zh) * | 2020-06-02 | 2020-09-04 | 北京中广上洋科技股份有限公司 | 一种教学视频分析方法及装置 |
EP3890333A1 (en) * | 2018-12-14 | 2021-10-06 | One Connect Smart Technology Co., Ltd. (Shenzhen) | Video cutting method and apparatus, computer device and storage medium |
CN113840109A (zh) * | 2021-09-23 | 2021-12-24 | 杭州海宴科技有限公司 | 一种课堂音视频智能笔记方法 |
-
2022
- 2022-01-05 CN CN202210004046.5A patent/CN114022828A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3890333A1 (en) * | 2018-12-14 | 2021-10-06 | One Connect Smart Technology Co., Ltd. (Shenzhen) | Video cutting method and apparatus, computer device and storage medium |
CN109922373A (zh) * | 2019-03-14 | 2019-06-21 | 上海极链网络科技有限公司 | 视频处理方法、装置及存储介质 |
CN110119711A (zh) * | 2019-05-14 | 2019-08-13 | 北京奇艺世纪科技有限公司 | 一种获取视频数据人物片段的方法、装置及电子设备 |
CN111626252A (zh) * | 2020-06-02 | 2020-09-04 | 北京中广上洋科技股份有限公司 | 一种教学视频分析方法及装置 |
CN113840109A (zh) * | 2021-09-23 | 2021-12-24 | 杭州海宴科技有限公司 | 一种课堂音视频智能笔记方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108648757B (zh) | 一种基于多维度课堂信息的分析方法 | |
CN109359215B (zh) | 视频智能推送方法和系统 | |
CN106485964B (zh) | 一种课堂教学的录制和点播的方法及系统 | |
CN109275046A (zh) | 一种基于双视频采集的教学数据标注方法 | |
JP4451079B2 (ja) | 情報管理サーバ及び情報配信システム | |
CN111046819A (zh) | 一种行为识别处理方法及装置 | |
CN111833861A (zh) | 基于人工智能的事件评估报告生成 | |
CN110910691A (zh) | 一种个性化课程生成方法及系统 | |
CN110675674A (zh) | 一种基于大数据分析的在线教育方法及在线教育平台 | |
CN113254708A (zh) | 一种视频搜索方法、装置、计算机设备及存储介质 | |
CN112001826A (zh) | 一种基于大数据的教育信息智能分类系统 | |
CN114299617A (zh) | 一种教学互动情况识别方法、装置、设备及存储介质 | |
Butko et al. | Automated facial affect analysis for one-on-one tutoring applications | |
CN116050892A (zh) | 一种基于人工智能的智能教育评价监督方法 | |
CN114022828A (zh) | 视频流处理方法及装置 | |
CN110807060A (zh) | 一种教育大数据分析系统 | |
US10593366B2 (en) | Substitution method and device for replacing a part of a video sequence | |
CN111508289B (zh) | 基于字词使用频率的语言学习系统 | |
CN114691904A (zh) | 课程资源标注方法、装置、系统、设备及存储介质 | |
Shapsough et al. | Using machine learning to automate classroom observation for low-resource environments | |
CN111327943B (zh) | 信息管理方法及装置、系统、计算机设备、存储介质 | |
CN109889916B (zh) | 录播数据的应用系统 | |
US10453354B2 (en) | Automatically generated flash cards | |
CN114005079B (zh) | 多媒体流处理方法及装置 | |
CN117057669A (zh) | 教学质量评估方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |