CN110881115B - 会议视频的拆条方法及系统 - Google Patents
会议视频的拆条方法及系统 Download PDFInfo
- Publication number
- CN110881115B CN110881115B CN201911344038.XA CN201911344038A CN110881115B CN 110881115 B CN110881115 B CN 110881115B CN 201911344038 A CN201911344038 A CN 201911344038A CN 110881115 B CN110881115 B CN 110881115B
- Authority
- CN
- China
- Prior art keywords
- data
- voice
- face
- statement
- splitting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开一种会议视频的拆条方法及系统,其中方法包括以下步骤:获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据,所述语音语句数据包括时间数据和人脸标识,其中时间数据包括起始时间戳和/或结束时间戳;判断各人脸标识所对应的身份是否为会议发言者,获得判断结果;根据判断结果和所述时间数据生成拆分点数据,基于所述拆分点数据对待处理视频进行拆条,生成拆条片段。本发明能自动对会议报道进行拆条,节约人力成本,且拆条效率高。
Description
技术领域
本发明涉及视频处理领域,尤其涉及一种会议视频的拆条方法及系统。
背景技术
随着网络的发展,人们除了前往会议现场参加外,还可以观看会议视频;但大部分会议持续时间较长,且观看者通常仅对整场会议中某些会议片段感兴趣,鉴于此,业界通常会将会议视频进行拆条,以便于用户快速查找到其感兴趣的视频片段。
现今存在多种新闻拆条方法,如转场识别,语音指纹及人脸识别;
对于转场识别技术,由于会议通常无需转场,故无法实现对会议视频的拆条;
对于语音指纹技术,由于现今语音指纹技术不够成熟,故在有背景噪声、多人会话的场景下无法进行准确拆条,且会议中通常会存在若干个会议发言者,前期建立人声指纹库的工作量大。
对于人脸识别技术,现今通过计算所出现的人脸在视频时间和空间上的分布,判定是否是主持人,但会议不同于新闻,对会议进行拆条是对各会议发言者的发言内容进行拆条,由于每个会议发言者的发言时长长短不一,故不能简单的以整个视频中人脸的占比确认会议发言者的身份。
综上,现有对新闻进行拆条的方法不能直接转用至会议报道,而现今用于会议报道的拆条方法通常为人工拆条,即,人工预览会议视频进行打点拆条,此方法需要大量的人力且效率低,故需要对现有技术做进一步改进。
发明内容
本发明针对现有技术中的缺点,提供了一种会议视频的拆条方法及系统。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种会议视频的拆条方法,包括以下步骤:
获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据,所述语音语句数据包括时间数据和人脸标识,其中时间数据包括起始时间戳和/或结束时间戳;
判断各人脸标识所对应的身份是否为会议发言者,获得判断结果;
根据判断结果和所述时间数据生成拆分点数据,基于所述拆分点数据对待处理视频进行拆条,生成拆条片段。
作为一种可实施方式,判断各人脸标识所对应的身份是否为会议发言者,获得判断结果的具体步骤为:
判断语音语句数据中的人脸标识是否属于第一会议发言者,当不属于第一发言者时,对后续预设数量的语音语句数据进行检测,根据检测结果记录所述人脸标识的出现次数;
当所述出现次数大于预设的出现次数阈值时,判定所述人脸标识所对应的身份为第二会议发言者,并以所述第二会议发言者作为第一会议发言者对后续人脸标识进行检测。
作为一种可实施方式,根据判断结果和所述时间数据生成拆分点数据的具体步骤为:
基于判断结果将各会议发言者初次出现的语音语句数据作为出现语句;
所述时间数据为起始时间戳时,以出现语句的起始时间戳作为拆分点,生成拆分点数据;
所述时间数据为结束时间戳时,以出现语句前一句的语音语句数据的结束时间戳作为拆分点,生成拆分点数据;
所述时间数据为起始时间戳和结束时间戳时,以出现语句的起始时间戳作为第一开始拆分点,且以出现语句前一句的语音语句数据的结束时间戳作为第一结束拆分点,根据第一开始拆分点和第一结束拆分点生成拆分点数据。
作为一种可实施方式,所述语音语句数据还包括语音文本数据,且所述时间数据为起始时间戳和结束时间戳,根据判断结果和所述时间数据生成拆分点数据的具体步骤为:
基于判断结果将各会议发言者初次出现的语音语句数据作为出现语句,同时基于人脸标识检测各会议发言者最后出现的语音语句数据,将所述语音语句数据作为消失语句;
将消失语句至出现语句之间的语音文本数据,按照时间倒序进行意图检测;
当检测到存在开始意图的语音文本数据时,以所述语音文本数据所对应起始时间戳作为第二开始拆分点,否则以出现语句的起始时间戳作为第二开始拆分点;
当检测到存在结束意图的语音文本数据时,以所述语音文本数据的结束时间戳作为第二结束拆分点,否则以消失语句的结束时间戳作为第二结束拆分点;
根据第二开始拆分点和第二结束拆分点生成拆分点数据。
作为一种可实施方式,将消失语句至出现语句之间的语音文本数据,按照时间倒序进行意图检测的具体步骤为:
将消失语句至出现语句之间的语音文本数据输入预设的特征提取模型,获取相对应的词向量;将同一语音文本数据的词向量进行合并,获得与所述语音文本数据相对应的特征向量;
将所述特征向量输入预设的分类器中,获得所述特征向量的类别,所述类别包括有开始意图、有结束意图和无意图。
作为一种可实施方式,获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据的具体步骤为:
获取待处理视频的图像数据和音频数据,对所述图像数据进行人脸识别,生成人脸数据,对所述音频数据进行语音识别,生成语音文本数据;
按照时间将所述人脸数据映射到所述语音文本数据中,并对语音文本数据进行分句处理,取每句中占比最多的人脸作为该句的人脸标识,生成语音语句数据,所述语音语句数据包括起始时间戳、结束时间戳、语音文本数据和人脸标识。
作为一种可实施方式,所述待处理视频为录像视频或直播视频。
本发明还提出一种会议视频的拆条系统,包括:
语音语句数据生成模块,用于获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据,所述语音语句数据包括时间数据和人脸标识,其中时间数据包括起始时间戳和/或结束时间戳;
判断模块,用于判断各人脸标识所对应的身份是否为会议发言者,获得判断结果;
拆条模块,用于根据判断结果和所述时间数据生成拆分点数据,基于所述拆分点数据对待处理视频进行拆条,生成拆条片段。
作为一种可实施方式,所述判断模块被配置为:
判断语音语句数据中的人脸标识是否属于第一会议发言者,当不属于第一发言者时,对后续预设数量的语音语句数据进行检测,根据检测结果记录所述人脸标识的出现次数;
当所述出现次数大于预设的出现次数阈值时,判定所述人脸标识所对应的身份为第二会议发言者,并以所述第二会议发言者作为第一会议发言者对后续人脸标识进行检测。
本发明还提出一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现上述任意一项所述方法的步骤。
本发明由于采用了以上技术方案,具有显著的技术效果:
1、本发明通过将所述人脸数据和所述语音文本数据按照时间进行映射,从而在检测出会议发言者的人脸数据后,按照映射关系即可确定出现会议发言者时所对应的语音语句数据,从而根据所述语音语句数据的时间数据生成拆分点数据,实现对待处理视频的自动拆条;本发明通过对时间数据的设计,以句子为切分的最小粒度,在对待处理视频进行拆条时,能够避免从中间切断会议讲话者的发言,确保一句话的完整性。
2、本发明通过对后续预设数量的语音语句数据的人脸标识进行检测,以判断该人脸标识是否属于会议发言者,无需预先采集会议发言者的人脸信息,也无需所述人脸信息建立人脸模板库,且此种识别方式不会遗漏发言时长较短的会议发言者,提高拆条的准确度。
3、本发明取每句中占比最多的人脸作为该句的人脸标识,能够有效过滤干扰数据,后续按照人脸标识进行身份判断,计算量低,且不易被视频中其他人脸进行干扰。
4、本发明对第一会议发言者消失到下一会议发言者出现之间的语音文本数据进行意图分析,根据存在开始意图/结束意图的语音文本数据的起始时间戳/结束时间戳生成拆分点数据,从而提高拆条的准确率,避免所得的拆条片段不完整或出现他人的发言内容。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种会议视频的拆条方法的流程示意图;
图2是实施例4中意图检测的流程示意图;
图3是案例中会议视频的拆条方法的流程示意图;
图4是本发明一种会议视频的拆条系统的模块连接示意图。
具体实施方式
下面结合实施例对本发明做进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
实施例1、一种会议视频的拆条方法,如图1所示,包括以下步骤:
S100、获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据,所述语音语句数据包括时间数据和人脸标识,其中时间数据为起始时间戳;
所述起始时间戳为该语音语句数据所对应语句的起始时间。
S200、判断各人脸标识所对应的身份是否为会议发言者,获得判断结果;
S300、根据判断结果和所述时间数据生成拆分点数据,基于所述拆分点数据对待处理视频进行拆条,生成拆条片段。
本实施例中通过将所述人脸数据和所述语音文本数据按照时间进行映射,从而在检测出会议发言者的人脸数据后,按照映射关系即可确定出现会议发言者时所对应的语句,即,确定出现会议发言者的语音语句数据,即可根据所述语音语句数据的时间数据生成拆分点数据,实现对待处理视频的自动拆条;
本实施例中时间数据为起始时间戳;
检测出会议发言者的人脸数据,如直接根据相应人脸数据出现的时间点进行拆分,会出现会议发言者的话没有说完就被切断的情况,而本实施例中将人脸数据映射至语句中,以句子为切分的最小粒度,在对待处理视频进行拆条时,是从某句话的开始进行拆条,从而避免仅根据人脸数据时出现从中间切断会议讲话者的发言的情况,确保一句话的完整性。
所述步骤S200中,判断各人脸标识所对应的身份是否为会议发言者,获得判断结果的具体步骤为:
判断语音语句数据中的人脸标识是否属于第一会议发言者,当不属于第一发言者时,对后续预设数量N(N大于0,N为正整数)的语音语句数据进行检测,根据检测结果记录所述人脸标识的出现次数;
当所述出现次数大于预设的出现次数阈值时,判定所述人脸标识所对应的身份为第二会议发言者,并以所述第二会议发言者作为第一会议发言者对后续人脸标识进行检测。
上述第一会议发言者表示当前会议发言者,第二会议发言者则表示下一会议发言者,即,检测到新的会议发言者出现后,则将该会议发言者作为当前会议发言者对后续语音语句数据进行检测;
本领域的技术人员可根据其实际需要,自行设定预设数量N和出现次数阈值的取值,本实施例中N取10,出现次数阈值取2,即,当检索到新出现的人脸标识时,检测之后10条语音语句数据是否存在与其相同的人脸标识,当存在至少2个与其相同的人脸标识时,则判定所述新出现的人脸标识属于新的一名会议发言者。
注,本实施例中识别获得相同的人脸,即表示识别获得的人脸属于同一个人,同理,相同的人脸标识表示对应人脸标识属于同一个人。将识别获得的人脸进行匹配,判断其是否属于同一个人为现有技术,故不在本说明书中进行详细介绍。
由于识别获得的人脸不一定是会议发言者,例如镜头环摄参加会议的听众、镜头拍摄会议发言者的展示文件等,故本实施例通过对预设数量范围内的人脸标识进行检测,以判断初次出现的人脸标识是否属于会议发言者,无需预先采集会议发言者的人脸信息并基于所述人脸信息建立人脸模板库,即可识别出待处理视频中会议发言者,且此种识别方式不会遗漏发言时长较短的会议发言者,从而有效提高拆条的准确度。
所述步骤S300中,根据判断结果和所述时间数据生成拆分点数据的具体步骤为:
基于判断结果将各会议发言者初次出现的语音语句数据作为出现语句,以出现语句的起始时间戳作为拆分点,生成拆分点数据;
即,当基于人脸标识检测出新的会议发言者时,以该人脸标识所在的语音语句数据的起始时间戳作为拆分点。
所述步骤S100中,获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据的具体步骤为:
S110、获取待处理视频的图像数据和音频数据,对所述图像数据进行人脸识别,生成人脸数据,对所述音频数据进行语音识别,生成语音文本数据;
上述人脸识别和语音识别均采用现有技术,本实施例中采用已开源的face_recognition算法进行人脸识别,采用讯飞和阿里IDST所提供的ASR(AutomaticSpeechRecognition,自动语音识别)算法进行语音识别。
本实施例中,对所述图像数据进行人脸识别获得人脸及其时间戳,按照时间对人脸进行归并操作后,得到每个人脸出现的开始时间和结束时间,即,人脸数据;对所述音频数据进行语音识别,得到若干条语句的文本信息和该语句对应的开始时间和结束时间,即,语音文本数据;
S120、按照时间将所述人脸数据映射到所述语音文本数据中,并对语音文本数据进行分句处理,取每句中占比最多的人脸作为该句的人脸标识,生成语音语句数据,所述语音语句数据包括起始时间戳、语音文本数据和人脸标识。
具体的映射方法为:
基于时间对所述人脸数据和所述语音文本数据进行交集运算,即,将各人脸按照其出现的起止时间映射到相应的语句中,并以每条语句中出现时长最长的人脸作为该语句所对应的人脸标识;
注,当语句中未出现人脸时,人脸标识为空。
根据各语句的开始时间和语音文本数据,以及与该语句所对应的人脸标识生成语音语句数据,其中语句的开始时间作为对应语音语句数据的起始时间戳。
本实施例中取每句中占比最多的人脸作为该句的人脸标识,能够有效过滤干扰数据,后续按照人脸标识进行身份判断,计算量低,且不易被视频中其他人脸进行干扰。
进一步的,所述待处理视频为录像视频或直播视频。
所述待处理视频为直播视频时,获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据的步骤为:
获取会议直播流;
对所述会议直播流进行转码,并按照预设的剪切规则对转码后直播视频进行切分,获得相应的直播视频片段。
具体的,本实施例中将所述会议直播流统一转码成720P的视频格式,并将所得直播视频切分成若干个3min的片段。
提取各直播视频片段的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据;
此时所得直播视频按照上述步骤S100至S300进行拆条工作,所述拆分点数据为单一的拆分点,即,每获得一个拆分点,对直播视频做一次拆分,从而实现对直播视频的实时拆条,大大提高了拆条的实时性和高效性。
当待处理视频为录像视频时,所述拆分点数据可以为单一的拆分点,也可以为所有拆分点构成的拆分点序列。
综上,本实施例结合人脸识别和语音识别的技术自动寻找,与现有人工打点的技术相比,提高了会议视频拆条的效率,且本实施例以语音识别获得的句子作为切分的最小粒度进行自动拆条,能够保证语句的完整性。
实施例2、将实施例1中时间数据由“起始时间戳”更改为“结束时间戳”,其余均等同于实施例1;
本实施例中结束时间戳为该语音语句数据所对应语句的结束时间,此时以出现语句前一句的语音语句数据的结束时间戳作为拆分点,生成拆分点数据。
实施例3、将实施例1中时间数据由“起始时间戳”更改为“起始时间戳和结束时间戳”,其余均等同于实施例1,此时根据判断结果和所述时间数据生成拆分点数据的具体步骤为:
以出现语句的起始时间戳作为第一开始拆分点,且以出现语句前一句的语音语句数据的结束时间戳作为第一结束拆分点,根据第一开始拆分点和第一结束拆分点生成拆分点数据。
由于每句话之间存在停顿时间,本实施例中对第一开始拆分点和第一结束拆分点的设计,使所得的拆条片段的片头/片尾不会出现静音片段,提高用户的观看体验。
实施例4、将实施例1中时间数据由“起始时间戳”更改为“起始时间戳和结束时间戳”,其余均等同于实施例1,此时根据判断结果和所述时间数据生成拆分点数据的具体步骤为:
基于判断结果将各会议发言者初次出现的语音语句数据作为出现语句,同时基于人脸标识检测各会议发言者最后出现的语音语句数据,将所述语音语句数据作为消失语句;
将消失语句至出现语句之间的语音文本数据,按照时间倒序进行意图检测;
当检测到存在开始意图的语音文本数据时,以所述语音文本数据所对应起始时间戳作为第二开始拆分点,否则以出现语句的起始时间戳作为第二开始拆分点;
当检测到存在结束意图的语音文本数据时,以所述语音文本数据的结束时间戳作为第二结束拆分点,否则以消失语句的结束时间戳作为第二结束拆分点;
根据第二开始拆分点和第二结束拆分点生成拆分点数据。
由于拍摄角度或会议现场环境干扰等问题,会出现人脸识别失败的问题,如会议发言者开始讲话后才识别出其人脸、或会议发言者离开前就识别不出其人脸,针对该情况,实施例1至实施例3只能从识别出第一会议发言者的人脸到识别出下一会议发言者人脸,对会议视频进行拆条。
本实施例中针对上述问题,对第一会议发言者消失到下一会议发言者出现之间的语音文本数据进行意图分析,根据存在开始意图/结束意图的语音文本数据的起始时间戳/结束时间戳生成拆分点数据,从而提高拆条的准确率,避免所得的拆条片段不完整或出现他人的发言内容。
注,作为整场会议的第一个会议发言者,对其出现前的语音文本数据进行意图分析。
进一步地,将消失语句至出现语句之间的语音文本数据,按照时间倒序进行意图检测的具体步骤为:
将消失语句至出现语句之间的语音文本数据输入预设的特征提取模型,获取相对应的词向量;将同一语音文本数据的词向量进行合并,获得与所述语音文本数据相对应的特征向量;
本实施例中的特征提取模型为现有的Word2Vec模型,特征提取的具体步骤为:
首先根据已有公开的词汇表查找所述语音文本数据中的核心词汇,然后利用现有的Word2Vec模型提取各核心词汇的词向量,之后将所得词向量进行merge操作(合并操作),得到一个与所述语音文本数据相对应的特征向量。
将所述特征向量输入预设的分类器中,获得所述特征向量的类别,所述类别包括有开始意图、有结束意图和无意图。
本实施例中的分类器为现有的Softmax分类器,Softmax分类器的具体训练过程:
1)、收集样本语句文本,样本语句文本例如为对应会议的历史语句文本,相关领域的技术人员可根据其需要自行收集样本语句文本。对样本语句文本进行标注,标注内容包括样本语句文本的核心词汇和意图标签(有开始意图,有结束意图,无意图三类标签);
2)、将每个样本语句文本的核心词汇通过Word2Vec模型提取特征,获得样本词向量;
3)、利用各样本语句文本的样本词向量和意图标签信息训练Softmax分类器,其中以样本词向量作为Softmax分类器的输入,以意图标签作为Softmax分类器的输出;本实施例中Softmax分类器的损失函数采用交叉熵损失函数,当计算获得的损失值趋于平稳时(损失值不再降低时),判定Softmax分类器已经收敛,此时完成对Softmax分类器的训练,输出分类器。
本实施例中训练获得的分类器的准确率为87%。综上,本实施例通过对人脸识别、语音识别和意图识别的结合,大大提高了拆条结果的准确性。
案例:以直播视频作为待处理视频为例,对实施例4所述的会议视频的拆条方法的具体内容进行详细介绍:
获取会议直播流,将所述会议直播流转码成720P的视频格式,并将所得直播视频切分成3min的直播视频片段;
对所述直播视频片段的图像数据进行人脸识别获得对应的人脸及其时间戳,对所述直播视频片段的音频数据进行自动语音识别,获得若干条语句的语音文本数据和该语句所对应的开始时间和结束时间;按照时间戳依次对各直播视频片段的人脸进行归并操作,得到每个人脸出现的开始时间和结束时间;
根据识别获得的人脸,按照其开始时间和结束时间映射到语音文本数据中,生成具有起始时间戳、结束时间戳、语音文本数据和人脸标识的语音语句数据。
对已有的语音语句数据根据起始时间戳和结束时间戳进行排序,并利用其中的人脸标识检测初始切分点,所述初始切分点包括第一开始切分点和第一结束切分点,具体检测步骤为:
检测将各会议发言者初次出现的语音语句数据,将所述语音语句数据作为出现语句;
以出现语句的起始时间戳作为第一开始拆分点,且以出现语句前一句的语音语句数据的结束时间戳作为第一结束拆分点。
对第一开始拆分点和第一结束拆分点之间的语音语句数据进行意图检测,根据检测结果对初始切分点进行修正,具体步骤为:
基于人脸标识检测各会议发言者最后出现的语音语句数据,将所述语音语句数据作为消失语句;
从第一开始切分点向前检测存在开始意图的语音文本数据,以检测到的语音文本数据所对应起始时间戳作为第二开始拆分点,否则以出现语句的起始时间戳作为第二开始拆分点;
从第一结束切分点向前检测存在结束意图的语音文本数据,以检测到的语音文本数据的结束时间戳作为第二结束拆分点,否则以消失语句的结束时间戳作为第二结束拆分点;
第二开始拆分点和第二结束拆分点即为修正后的拆分点,以第二开始拆分点和第二结束拆分点对直播视频进行拆分,获得对应的拆条片段;如对已有的语音语句数据根据起始时间戳和结束时间戳进行排序,各语句对应的人脸标识顺序如下表所示:
表1
上表中,空表示没有识别出人脸,缺少人脸标识,A表示人物A的人脸标识,B表示人物B的人脸标识,C表示人物C的人脸标识。
针对序号2对应的人脸标识,由于没有第一会议发言者,即缺少当前会议发言者,故直接检测其后续10个人脸标识中A的出现次数判断其是否为会议发言者,本案例中出现次数为5次,超过预设的次数阈值,故判定A为第二会议发言者,此时以序号2对应的语音语句数据的起始时间戳作为第一开始切分点,并以A作为第一会议发言者对后续各人脸标识进行检测。
当检测到序号19对应的人脸标识时,C不属于第一会议发言者(A),且10个人脸标识中C的出现次数为0次,未超过预设的次数阈值,故判定C的身份为非会议发言者。
当检测到序号20对应的人脸标识时,B不属于第一会议发言者(A),且后续10个人脸标识中B的出现次数为5次,超过预设的次数阈值,故判定B的身份为第二会议发言者,此时以序号20对应的语音语句数据的起始时间戳作为下一个第一开始切分点,以其前一句语音语句数据(序号19)的结束时间戳作为第一结束切分点。
对序号1所对应的语音文本数据进行意图检测,本案例中其存在开始意图时,此时以序号1对应的语音语句数据的起始时间戳作为第二开始切分点;对序号16至19所对应的语音文本数据进行意图检测,本案例中序号17所对应的语音文本数据存在结束意图,此时以序号17对应的语音语句数据的结束时间戳作为第二结束切分点;本案例中序号16至19所对应的语音文本数据均不存在开始意图,故仍以序号20对应的语音语句数据的起始时间戳作为下一个第二开始切分点。
此时可拆条获得会议发言者A的拆条片段,结合表1可知,通过意图检测能修正切分点,提高拆条的准确性。
注,如序号16至19所对应的语音文本数据均不存在结束意图时,以序号15对应的语音语句数据的结束时间戳作为第二结束切分点。
实施例5、一种会议视频的拆条系统,包括语音语句数据生成模块、判断模块和拆条模块;
所述语音语句数据生成模块,用于获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据,所述语音语句数据包括时间数据和人脸标识,其中时间数据包括起始时间戳和/或结束时间戳;
所述判断模块,用于判断各人脸标识所对应的身份是否为会议发言者,获得判断结果;
所述拆条模块,用于根据判断结果和所述时间数据生成拆分点数据,基于所述拆分点数据对待处理视频进行拆条,生成拆条片段。
所述判断模块被配置为:
判断语音语句数据中的人脸标识是否属于第一会议发言者,当不属于第一发言者时,对后续预设数量的语音语句数据进行检测,根据检测结果记录所述人脸标识的出现次数;
当所述出现次数大于预设的出现次数阈值时,判定所述人脸标识所对应的身份为第二会议发言者,并以所述第二会议发言者作为第一会议发言者对后续人脸标识进行检测。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
实施例6、一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现实施例1至4任意一项所述方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是:
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
此外,需要说明的是,本说明书中所描述的具体实施例,其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化,均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离本发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (10)
1.一种会议视频的拆条方法,其特征在于包括以下步骤:
获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成若干条语音语句数据,所述语音语句数据的粒度为语句;所述语音语句数据包括时间数据和人脸标识,其中时间数据包括对应语句的起始时间戳和/或结束时间戳,人脸标识为对应语句中占比最多的人脸;
判断各人脸标识所对应的身份是否为会议发言者,获得判断结果;
根据判断结果和所述时间数据生成拆分点数据,基于所述拆分点数据对待处理视频进行拆条,生成拆条片段。
2.根据权利要求1所述的会议视频的拆条方法,其特征在于,判断各人脸标识所对应的身份是否为会议发言者,获得判断结果的具体步骤为:
判断语音语句数据中的人脸标识是否属于第一会议发言者,当不属于第一发言者时,对后续预设数量的语音语句数据进行检测,根据检测结果记录所述人脸标识的出现次数;
当所述出现次数大于预设的出现次数阈值时,判定所述人脸标识所对应的身份为第二会议发言者,并以所述第二会议发言者作为第一会议发言者对后续人脸标识进行检测。
3.根据权利要求1所述的会议视频的拆条方法,其特征在于,根据判断结果和所述时间数据生成拆分点数据的具体步骤为:
基于判断结果将各会议发言者初次出现的语音语句数据作为出现语句;
所述时间数据为起始时间戳时,以出现语句的起始时间戳作为拆分点,生成拆分点数据;
所述时间数据为结束时间戳时,以出现语句前一句的语音语句数据的结束时间戳作为拆分点,生成拆分点数据;
所述时间数据为起始时间戳和结束时间戳时,以出现语句的起始时间戳作为拆分点,且以出现语句前一句的语音语句数据的结束时间戳作为拆分点,根据所有拆分点生成拆分点数据。
4.根据权利要求1所述的会议视频的拆条方法,其特征在于,所述语音语句数据还包括语音文本数据,且所述时间数据为起始时间戳和结束时间戳,根据判断结果和所述时间数据生成拆分点数据的具体步骤为:
基于判断结果将各会议发言者初次出现的语音语句数据作为出现语句,同时基于人脸标识检测各会议发言者最后出现的语音语句数据,将所述语音语句数据作为消失语句;
将消失语句至出现语句之间的语音文本数据,按照时间倒序进行意图检测;
当检测到存在开始意图的语音文本数据时,以所述语音文本数据所对应起始时间戳作为拆分点,否则以出现语句的起始时间戳作为拆分点;
当检测到存在结束意图的语音文本数据时,以所述语音文本数据的结束时间戳作为拆分点,否则以消失语句的结束时间戳作为拆分点;
根据所有拆分点生成拆分点数据。
5.根据权利要求4所述的会议视频的拆条方法,其特征在于,将消失语句至出现语句之间的语音文本数据,按照时间倒序进行意图检测的具体步骤为:
将消失语句至出现语句之间的语音文本数据输入预设的特征提取模型,获取相对应的词向量;将同一语音文本数据的词向量进行合并,获得与所述语音文本数据相对应的特征向量;
将所述特征向量输入预设的分类器中,获得所述特征向量的类别,所述类别包括有开始意图、有结束意图和无意图。
6.根据权利要求1至5任一所述的会议视频的拆条方法,其特征在于,获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成语音语句数据的具体步骤为:
获取待处理视频的图像数据和音频数据,对所述图像数据进行人脸识别,生成人脸数据,对所述音频数据进行语音识别,生成语音文本数据;
按照时间将所述人脸数据映射到所述语音文本数据中,并对语音文本数据进行分句处理,取每句中占比最多的人脸作为该句的人脸标识,生成语音语句数据,所述语音语句数据包括起始时间戳、结束时间戳、语音文本数据和人脸标识。
7.根据权利要求1至5任一所述的会议视频的拆条方法,其特征在于,所述待处理视频为录像视频或直播视频。
8.一种会议视频的拆条系统,其特征在于包括:
语音语句数据生成模块,用于获取待处理视频,提取所述待处理视频中的语音文本数据和人脸数据,并按照时间将所述人脸数据映射到所述语音文本数据中,生成若干条语音语句数据,所述语音语句数据的粒度为语句;所述语音语句数据包括时间数据和人脸标识,其中时间数据包括起始时间戳和/或结束时间戳,人脸标识为对应语句中占比最多的人脸;
判断模块,用于判断各人脸标识所对应的身份是否为会议发言者,获得判断结果;
拆条模块,用于根据判断结果和所述时间数据生成拆分点数据,基于所述拆分点数据对待处理视频进行拆条,生成拆条片段。
9.根据权利要求8所述的会议视频的拆条系统,其特征在于,所述判断模块被配置为:
判断语音语句数据中的人脸标识是否属于第一会议发言者,当不属于第一发言者时,对后续预设数量的语音语句数据进行检测,根据检测结果记录所述人脸标识的出现次数;
当所述出现次数大于预设的出现次数阈值时,判定所述人脸标识所对应的身份为第二会议发言者,并以所述第二会议发言者作为第一会议发言者对后续人脸标识进行检测。
10.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任意一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911344038.XA CN110881115B (zh) | 2019-12-24 | 2019-12-24 | 会议视频的拆条方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911344038.XA CN110881115B (zh) | 2019-12-24 | 2019-12-24 | 会议视频的拆条方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110881115A CN110881115A (zh) | 2020-03-13 |
CN110881115B true CN110881115B (zh) | 2021-06-15 |
Family
ID=69731109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911344038.XA Active CN110881115B (zh) | 2019-12-24 | 2019-12-24 | 会议视频的拆条方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110881115B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111586494B (zh) * | 2020-04-30 | 2022-03-11 | 腾讯科技(深圳)有限公司 | 一种基于音视频分离的智能拆条方法 |
CN111709324A (zh) * | 2020-05-29 | 2020-09-25 | 中山大学 | 一种基于时空一致性的新闻视频拆条方法 |
CN111767805A (zh) * | 2020-06-10 | 2020-10-13 | 云知声智能科技股份有限公司 | 多模态数据自动清洗与标注方法与系统 |
CN112733660B (zh) * | 2020-12-31 | 2022-05-27 | 蚂蚁胜信(上海)信息技术有限公司 | 一种视频拆条的方法和装置 |
CN112929744B (zh) * | 2021-01-22 | 2023-04-07 | 北京百度网讯科技有限公司 | 用于分割视频剪辑的方法、装置、设备、介质和程序产品 |
CN114067391A (zh) * | 2021-10-22 | 2022-02-18 | 北京金茂教育科技有限公司 | 识别课堂教学视频中行为的方法及装置 |
CN113707150A (zh) * | 2021-11-01 | 2021-11-26 | 深圳云集智能信息有限公司 | 一种语音识别处理视频会议系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110085160A (ko) * | 2010-01-19 | 2011-07-27 | 주식회사 소리자바 | 얼굴인식 회의 속기 시스템 및 방법 |
CN104065869A (zh) * | 2013-03-18 | 2014-09-24 | 三星电子株式会社 | 在电子装置中与播放音频组合地显示图像的方法 |
CN109068089A (zh) * | 2018-09-30 | 2018-12-21 | 视联动力信息技术股份有限公司 | 一种会议数据生成方法和装置 |
CN110232925A (zh) * | 2019-06-28 | 2019-09-13 | 百度在线网络技术(北京)有限公司 | 生成会议记录的方法、装置和会议终端 |
CN110324709A (zh) * | 2019-07-24 | 2019-10-11 | 新华智云科技有限公司 | 一种视频生成的处理方法、装置、终端设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8698872B2 (en) * | 2011-03-02 | 2014-04-15 | At&T Intellectual Property I, Lp | System and method for notification of events of interest during a video conference |
US9826001B2 (en) * | 2015-10-13 | 2017-11-21 | International Business Machines Corporation | Real-time synchronous communication with persons appearing in image and video files |
-
2019
- 2019-12-24 CN CN201911344038.XA patent/CN110881115B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110085160A (ko) * | 2010-01-19 | 2011-07-27 | 주식회사 소리자바 | 얼굴인식 회의 속기 시스템 및 방법 |
CN104065869A (zh) * | 2013-03-18 | 2014-09-24 | 三星电子株式会社 | 在电子装置中与播放音频组合地显示图像的方法 |
CN109068089A (zh) * | 2018-09-30 | 2018-12-21 | 视联动力信息技术股份有限公司 | 一种会议数据生成方法和装置 |
CN110232925A (zh) * | 2019-06-28 | 2019-09-13 | 百度在线网络技术(北京)有限公司 | 生成会议记录的方法、装置和会议终端 |
CN110324709A (zh) * | 2019-07-24 | 2019-10-11 | 新华智云科技有限公司 | 一种视频生成的处理方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110881115A (zh) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110881115B (zh) | 会议视频的拆条方法及系统 | |
US10304458B1 (en) | Systems and methods for transcribing videos using speaker identification | |
CN106973305B (zh) | 一种视频中不良内容的检测方法及装置 | |
CN102547139A (zh) | 一种新闻视频节目切分方法、新闻视频编目方法及系统 | |
CN108307250B (zh) | 一种生成视频摘要的方法及装置 | |
CN103561217A (zh) | 一种生成字幕的方法及终端 | |
CN1404688A (zh) | 利用观测到的副本信息线索进行节目分类的装置和方法 | |
WO2013097101A1 (zh) | 分析视频文件的方法和装置 | |
CN103607635A (zh) | 一种字幕识别方法、装置和终端 | |
CN105227966A (zh) | 电视播放控制方法、服务器及电视播放控制系统 | |
CN115460462B (zh) | 一种粤语新闻视频中自动裁剪含主播的视听数据集的方法 | |
CN111432140A (zh) | 一种利用人工神经网络进行电视新闻拆条的方法 | |
CN111242110B (zh) | 一种新闻自动拆条的自适应条件随机场算法的训练方法 | |
CN113705300A (zh) | 音转文训练语料的获取方法、装置、设备以及存储介质 | |
CN112565820B (zh) | 一种视频新闻拆分方法和装置 | |
CN110287376B (zh) | 一种基于剧本和字幕分析的抽取重要电影片段的方法 | |
CN114339451A (zh) | 视频剪辑方法、装置、计算设备及存储介质 | |
CN115497017A (zh) | 一种基于人工智能的广播电视新闻拆条方法及装置 | |
CN114051154A (zh) | 一种新闻视频拆条方法和系统 | |
CN117854507A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN113365109A (zh) | 一种生成视频字幕的方法、装置、电子设备和存储介质 | |
CN109640193B (zh) | 一种基于场景检测的新闻拆条方法 | |
CN116017088A (zh) | 视频字幕处理方法、装置、电子设备和存储介质 | |
CN115985315A (zh) | 说话人标注方法、装置、电子设备和存储介质 | |
CN115499677A (zh) | 基于直播的音视频同步检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |