CN109361886A - 一种基于声音检测的会议录像标注系统 - Google Patents

一种基于声音检测的会议录像标注系统 Download PDF

Info

Publication number
CN109361886A
CN109361886A CN201811245452.0A CN201811245452A CN109361886A CN 109361886 A CN109361886 A CN 109361886A CN 201811245452 A CN201811245452 A CN 201811245452A CN 109361886 A CN109361886 A CN 109361886A
Authority
CN
China
Prior art keywords
video
audio
meeting
data
video data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811245452.0A
Other languages
English (en)
Inventor
田远东
吴宣辉
李华松
卢锡芹
邬文达
胡松涛
赵伯亮
邱彦林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Polytron Technologies Inc
Original Assignee
Hangzhou Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Polytron Technologies Inc filed Critical Hangzhou Polytron Technologies Inc
Priority to CN201811245452.0A priority Critical patent/CN109361886A/zh
Publication of CN109361886A publication Critical patent/CN109361886A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供一种基于声音检测的会议录像标注系统,包括:容器块头,用于存储会议中同一个参与成员的音视频数据位置信息;N个容器块,用于存储会议中各个参与成员的音视频数据;分辨率缩放模块,用于通过解码和编码视频数据缩放视频分辨率;将会议录像中的音视频数据信息存储到容器块头,将会议录像中各个参与成员的不同音视频数据分别存储到对应的容器块中;本发明播放操作简单,根据标签可以快速切换到需要查看的发言成员的画面。本发明播放可以灵活组合,提取所有发言人的画面同时播放,快速对比各个成员的发言内容。本发明定义简单的文件格式,使用块保存数据,数据提取简单也灵活。

Description

一种基于声音检测的会议录像标注系统
技术领域
本发明涉及音视频处理技术领域,具体涉及一种基于声音检测的会议录像标注系统。
背景技术
现有的会议录像生成模式一般是针对每个会议成员单独录制产生一个录像文件,其播放模式为组合各个录像文件进行播放,播放虽然灵活但操作过于繁琐,如下图1。或者直接对整个会议的混屏画面进行录像,其播放模式为播放整个混屏画面的文件,操作简单明了但播放比较单一,不够灵活,如下图2。现希望找寻一种能够灵活播放整个会议过程的方案,可以自由快速地切换到发言成员的画面,也可以所有成员处在一个时间点同时播放,快速对比每个成员的发言内容。
发明内容
本发明的目的在于提供一种基于声音检测的会议录像标注系统,解决了背景技术中所提出的问题。
针对不同的图像数据加以标识和区分,为后续的播放模式做准备,本发明提供一种基于声音检测的会议录像标注系统,包括:
容器块头(II):用于存储会议(I)中同一个参与成员的音视频数据位置信息;
N个容器块(III):指不止附图3中编号的容器块(III),用于存储会议(I)中各个参与成员的音视频数据;
分辨率缩放模块:用于通过解码和编码视频数据缩放视频分辨率;
将会议(I)录像中的音视频数据信息存储到容器块头(II),将会议(I)录像中各个参与成员的不同音视频数据分别存储到对应的容器块(III)中;
其中,音视频数据是指音视频媒体流的RTP数据包;音视频数据信息是指记录音视频数据的存储位置,以及该音视频数据所属于的会议成员的名称等信息内容;
对其中每个容器块(III)进行标签设置,在需要使用N个容器块(III)进行录像播放时,从N个容器块(III)中提取整个会议(I)录像中各段的音视频数据,并调整其中每段视频的分辨率,经过分辨率缩放模块(VI)产生一致的视频分辨率,再根据播放器(VII)模式需求组合,渲染各段视频数据,同步音频数据进行播放。
其中,渲染用于显示视频画面的操作;模式需求组合是指:1.按照会议流程播放录像;2.同时播放所有的会议成员录像;3.按照会议流程快速切换播放某成员的所有会议录像片段等组合方式。
本发明中的会议(I)录像存储机制是:以会议(I)发言人基准,即检测到会议(I)发言人的声音,则开始将该发言人的音视频数据放到容器块(III)中,先存入视频数据后放入音频数据,防止录像播放时有声音没画面的情形;
考虑音视频数据的快速检索定位,将音视频数据和音视频数据信息分别存储到容器块(III)和容器块头(II),当需要某个成员的会议(I)发言音视频图像时,只要从容器块头(II)去检索,完成成员音视频数据查找。
本发明中的容器块头(II)的标签定义:容器块头(II)用于保存会议(I)中各个成员音视频数据在容器块(III)存储的位置,以形成标签,快速定位会议(I)成员的发言起始点;每个标签保存会议(I)成员名称,能够用于快速检索匹配;
考虑某个会议(I)成员在会议(I)中不同时间点会有发言,这些信息也需要被保存起来;
如图4所示,容器块头(II)的标签格式为:起始标识+会议(I)成员名称+有效包长度+记录各段录像在容器块(III)中编号和位置。
本发明中的容器块(III),用于保存各个会议(I)成员发言时的音视频数据,将接收到的原始RTP数据包解析出一整帧的视频数据和音频数据放入到容器块(III),对视频H264数据和音频数据打上时间戳,时间戳主要是为了后续播放时保持音视频的同步使用;
如图5所示,容器块(III)格式为:起始标识+有效包长度+视频标识+长度+时间戳+视频H264数据+音频标识+长度+时间戳+音频数据;其中,视频H264数据包含SPS、PPS、I帧、P帧一整个组成视频完整画面的数据。
本发明中的分辨率缩放模块的机制是:分辨率的缩放主要是为了播放效果考虑,会议(I)成员的视频分辨率可能是高清的,也可能是标清,也可能是超清的,故需要缩放分辨率,选择一个标准分辨率,比如选择第一个发言成员的视频分辨率为基准,其他不是该分辨率的成员进行分辨率的缩放。或者指定一个标准分辨率,所有不是该分辨率的成员进行分辨率的缩放。
本发明中专业概念名称进行如下解释说明:
SPS:(sample per second,每秒采样次数),是衡量模数转换(ADC)时采样速率的单位;
PPS:图像参数集Picture Parameter Set;
I帧:(I frame)又称为内部画面(intra picture),I帧通常是每个GOP(MPEG所使用的一种视频压缩技术)的第一个帧,经过适度地压缩,做为随机访问的参考点,可以当成图像。
P帧:在针对连续动态图像编码时,将连续若干幅图像分成P,B,I三种类型,P帧由在它前面的P帧或者I帧预测而来,它比较与它前面的P帧或者I帧之间的相同信息或数据,也即考虑运动的特性进行帧间压缩。
与现有技术相比,本发明的有益效果如下:
1.本发明播放操作简单,根据标签可以快速切换到需要查看的发言成员的画面。
2.本发明播放可以灵活组合,提取所有发言人的画面同时播放,快速对比各个成员的发言内容。
3.本发明定义简单的文件格式,使用块保存数据,数据提取简单也灵活。
4.相比较一般的会议录像播放方式,本发明更具备实用性和创新性。
附图说明
图1为现有会议录像播放模式之一;
图2为现有会议录像播放模式之二;
图3为本发明中功能流程模块图;
图4为本发明中容器块头标签格式的示意图;
图5为本发明中容器块格式的示意图;
附图数字标注:会议(I),容器块头(II),容器块(III),分辨率缩放(VI),播放器(VII)。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图3,本发明提供一种基于声音检测的会议录像标注系统的具体实施例,包括:
容器块头(II):用于存储会议(I)中同一个参与成员的音视频数据位置信息;
N个容器块(III):指不止附图3中编号的容器块(III),用于存储会议(I)中各个参与成员的音视频数据;
分辨率缩放模块:用于通过解码和编码视频数据缩放视频分辨率;
将会议(I)录像中的音视频数据信息存储到容器块头(II),将会议(I)录像中各个参与成员的不同音视频数据分别存储到对应的容器块(III)中;
其中,音视频数据是指音视频媒体流的RTP数据包;音视频数据信息是指记录音视频数据的存储位置,以及该音视频数据所属于的会议成员的名称等信息内容;
对其中每个容器块(III)进行标签设置,在需要使用N个容器块(III)进行录像播放时,从N个容器块(III)中提取整个会议(I)录像中各段的音视频数据,并调整其中每段视频的分辨率,经过分辨率缩放模块(VI)产生一致的视频分辨率,再根据播放器(VII)模式需求组合,渲染各段视频数据,同步音频数据进行播放。
其中,渲染用于显示视频画面的操作;模式需求组合是指:1.按照会议流程播放录像;2.同时播放所有的会议成员录像;3.按照会议流程快速切换播放某成员的所有会议录像片段等组合方式。
本发明中的会议(I)录像存储机制是:以会议(I)发言人基准,即检测到会议(I)发言人的声音,则开始将该发言人的音视频数据放到容器块(III)中,先存入视频数据后放入音频数据,防止录像播放时有声音没画面的情形;
考虑音视频数据的快速检索定位,将音视频数据和音视频数据信息分别存储到容器块(III)和容器块头(II),当需要某个成员的会议(I)发言音视频图像时,只要从容器块头(II)去检索,完成成员音视频数据查找。
本发明中的容器块头(II)的标签定义:容器块头(II)用于保存会议(I)中各个成员音视频数据在容器块(III)存储的位置,以形成标签,快速定位会议(I)成员的发言起始点;每个标签保存会议(I)成员名称,能够用于快速检索匹配;
考虑某个会议(I)成员在会议(I)中不同时间点会有发言,这些信息也需要被保存起来;
如图4所示,容器块头(II)的标签格式为:起始标识+会议(I)成员名称+有效包长度+记录各段录像在容器块(III)中编号和位置。
本发明中的容器块(III),用于保存各个会议(I)成员发言时的音视频数据,将接收到的原始RTP数据包解析出一整帧的视频数据和音频数据放入到容器块(III),对视频H264数据和音频数据打上时间戳,时间戳主要是为了后续播放时保持音视频的同步使用;
如图5所示,容器块(III)格式为:起始标识+有效包长度+视频标识+长度+时间戳+视频H264数据+音频标识+长度+时间戳+音频数据;其中,视频H264数据包含SPS、PPS、I帧、P帧一整个组成视频完整画面的数据。
本发明中的分辨率缩放模块的机制是:分辨率的缩放主要是为了播放效果考虑,会议(I)成员的视频分辨率可能是高清的,也可能是标清,也可能是超清的,故需要缩放分辨率,选择一个标准分辨率,比如选择第一个发言成员的视频分辨率为基准,其他不是该分辨率的成员进行分辨率的缩放。或者指定一个标准分辨率,所有不是该分辨率的成员进行分辨率的缩放。
基于本发明上述一种基于声音检测的会议录像标注系统,可以采用3种不同播放模式:
1、时间顺序播放
按照时间顺序依次播放录像,重新听取了一边会议内容。
2、随机指定播放
指定某个发言的所有发言内容,通过标签,快速定位和播放。
3、组合播放
比较每个发言人的发言内容,可以让所有发言人同时播放。
1.本发明播放操作简单,根据标签可以快速切换到需要查看的发言成员的画面。
2.本发明播放可以灵活组合,提取所有发言人的画面同时播放,快速对比各个成员的发言内容。
3.本发明定义简单的文件格式,使用块保存数据,数据提取简单也灵活。
4.相比较一般的会议录像播放方式,本发明更具备实用性和创新性。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于声音检测的会议录像标注系统,其特征在于,包括:
容器块头(II):用于存储会议(I)中同一个参与成员的音视频数据位置信息;
N个容器块(III):用于存储会议(I)中各个参与成员的音视频数据;
分辨率缩放模块:用于通过解码和编码视频数据缩放视频分辨率;
将会议(I)录像中的音视频数据信息存储到容器块头(II),将会议(I)录像中各个参与成员的不同音视频数据分别存储到对应的容器块(III)中;
对其中每个容器块(III)进行标签设置,在需要使用N个容器块(III)进行录像播放时,从N个容器块(III)中提取整个会议(I)录像中各段的音视频数据,并调整其中每段视频的分辨率,经过分辨率缩放模块(VI)产生一致的视频分辨率,再根据播放器(VII)模式需求组合,渲染各段视频数据,同步音频数据进行播放。
2.根据权利要求1中所述的一种基于声音检测的会议录像标注系统,其特征在于,会议(I)录像存储机制是:以会议(I)发言人基准,即检测到会议(I)发言人的声音,则开始将该发言人的音视频数据放到容器块(III)中,先存入视频数据后放入音频数据,防止录像播放时有声音没画面的情形;
考虑音视频数据的快速检索定位,将音视频数据和音视频数据信息分别存储到容器块(III)和容器块头(II),当需要某个成员的会议(I)发言音视频图像时,只要从容器块头(II)去检索,完成成员音视频数据查找。
3.根据权利要求1中所述的一种基于声音检测的会议录像标注系统,其特征在于,容器块头(II)用于保存会议(I)中各个成员音视频数据在容器块(III)存储的位置,以形成标签,快速定位会议(I)成员的发言起始点;每个标签保存会议(I)成员名称,能够用于快速检索匹配;
考虑某个会议(I)成员在会议(I)中不同时间点会有发言,这些信息也需要被保存起来;
容器块头(II)的标签格式为:起始标识+会议(I)成员名称+有效包长度+记录各段录像在容器块(III)中编号和位置。
4.根据权利要求1中所述的一种基于声音检测的会议录像标注系统,其特征在于,容器块(III)用于保存各个会议(I)成员发言时的音视频数据,将接收到的原始RTP数据包解析出一整帧的视频数据和音频数据放入到容器块(III),对视频H264数据和音频数据打上时间戳,时间戳主要是为了后续播放时保持音视频的同步使用;
容器块(III)格式为:起始标识+有效包长度+视频标识+长度+时间戳+视频H264数据+音频标识+长度+时间戳+音频数据;其中,视频H264数据包含SPS、PPS、I帧、P帧一整个组成视频完整画面的数据。
5.根据权利要求1中所述的一种基于声音检测的会议录像标注系统,其特征在于,分辨率缩放模块:分辨率的缩放主要是为了播放效果考虑,会议(I)成员的视频分辨率可能是高清的,也可能是标清,也可能是超清的,故需要缩放分辨率,选择一个标准分辨率,比如选择第一个发言成员的视频分辨率为基准,其他不是该分辨率的成员进行分辨率的缩放;或者指定一个标准分辨率,所有不是该分辨率的成员进行分辨率的缩放。
CN201811245452.0A 2018-10-24 2018-10-24 一种基于声音检测的会议录像标注系统 Pending CN109361886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811245452.0A CN109361886A (zh) 2018-10-24 2018-10-24 一种基于声音检测的会议录像标注系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811245452.0A CN109361886A (zh) 2018-10-24 2018-10-24 一种基于声音检测的会议录像标注系统

Publications (1)

Publication Number Publication Date
CN109361886A true CN109361886A (zh) 2019-02-19

Family

ID=65346663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811245452.0A Pending CN109361886A (zh) 2018-10-24 2018-10-24 一种基于声音检测的会议录像标注系统

Country Status (1)

Country Link
CN (1) CN109361886A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111556351A (zh) * 2020-05-15 2020-08-18 宁波菊风系统软件有限公司 一种rtp文件播放系统
CN111629267A (zh) * 2020-04-30 2020-09-04 腾讯科技(深圳)有限公司 音频标注方法、装置、设备及计算机可读存储介质
CN112073543A (zh) * 2020-11-16 2020-12-11 全时云商务服务股份有限公司 一种云视频录制方法、系统和可读存储介质
CN115168650A (zh) * 2022-09-07 2022-10-11 杭州笔声智能科技有限公司 一种会议视频检索方法、装置及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101861583A (zh) * 2007-11-16 2010-10-13 迪维克斯公司 用于多媒体文件的分级及简化索引结构
CN102364952A (zh) * 2011-10-25 2012-02-29 浙江万朋网络技术有限公司 一种多路音视频同时播放时处理音视频同步的方法
CN103678638A (zh) * 2013-12-20 2014-03-26 厦门雅迅网络股份有限公司 一种基于磁盘的对象缓存方法
CN103957371A (zh) * 2013-11-29 2014-07-30 中国航空无线电电子研究所 一种智能可视化的视频记录控制装置
CN104281651A (zh) * 2014-09-16 2015-01-14 福建星网锐捷安防科技有限公司 一种海量视频数据检索的方法及其系统
US20160353061A1 (en) * 2012-01-27 2016-12-01 Google Inc. Multimedia conference broadcast system
CN106409286A (zh) * 2016-09-23 2017-02-15 努比亚技术有限公司 一种实现音频处理的方法及装置
US20170344530A1 (en) * 2016-05-31 2017-11-30 Microsoft Technology Licensing, Llc Unknown word predictor and content-integrated translator
CN107493453A (zh) * 2016-06-13 2017-12-19 宝利通公司 用于网状端对端视频会议的系统和方法
CN107690057A (zh) * 2017-08-30 2018-02-13 四川隧唐科技股份有限公司 会议视频数据交互方法及装置
CN108124061A (zh) * 2017-12-22 2018-06-05 维沃移动通信有限公司 音频数据的存储方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101861583A (zh) * 2007-11-16 2010-10-13 迪维克斯公司 用于多媒体文件的分级及简化索引结构
CN102364952A (zh) * 2011-10-25 2012-02-29 浙江万朋网络技术有限公司 一种多路音视频同时播放时处理音视频同步的方法
US20160353061A1 (en) * 2012-01-27 2016-12-01 Google Inc. Multimedia conference broadcast system
CN103957371A (zh) * 2013-11-29 2014-07-30 中国航空无线电电子研究所 一种智能可视化的视频记录控制装置
CN103678638A (zh) * 2013-12-20 2014-03-26 厦门雅迅网络股份有限公司 一种基于磁盘的对象缓存方法
CN104281651A (zh) * 2014-09-16 2015-01-14 福建星网锐捷安防科技有限公司 一种海量视频数据检索的方法及其系统
US20170344530A1 (en) * 2016-05-31 2017-11-30 Microsoft Technology Licensing, Llc Unknown word predictor and content-integrated translator
CN107493453A (zh) * 2016-06-13 2017-12-19 宝利通公司 用于网状端对端视频会议的系统和方法
CN106409286A (zh) * 2016-09-23 2017-02-15 努比亚技术有限公司 一种实现音频处理的方法及装置
CN107690057A (zh) * 2017-08-30 2018-02-13 四川隧唐科技股份有限公司 会议视频数据交互方法及装置
CN108124061A (zh) * 2017-12-22 2018-06-05 维沃移动通信有限公司 音频数据的存储方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111629267A (zh) * 2020-04-30 2020-09-04 腾讯科技(深圳)有限公司 音频标注方法、装置、设备及计算机可读存储介质
CN111556351A (zh) * 2020-05-15 2020-08-18 宁波菊风系统软件有限公司 一种rtp文件播放系统
CN111556351B (zh) * 2020-05-15 2022-04-15 宁波菊风系统软件有限公司 一种rtp文件播放系统
CN112073543A (zh) * 2020-11-16 2020-12-11 全时云商务服务股份有限公司 一种云视频录制方法、系统和可读存储介质
CN115168650A (zh) * 2022-09-07 2022-10-11 杭州笔声智能科技有限公司 一种会议视频检索方法、装置及存储介质

Similar Documents

Publication Publication Date Title
CN109361886A (zh) 一种基于声音检测的会议录像标注系统
US6621979B1 (en) Trick play signal generation for a digital video recorder using retrieved intra-encoded pictures and generated inter-encoded pictures
US20030095790A1 (en) Methods and apparatus for generating navigation information on the fly
US8457478B2 (en) Method and apparatus for receiving, storing, and presenting multimedia programming without indexing prior to storage
KR100941248B1 (ko) 기록 장치 및 방법, 재생 장치 및 방법, 기록 재생 장치, 컴퓨터 판독가능한 기록 프로그램 기록 매체, 및 컴퓨터 판독가능한 재생 프로그램 기록 매체
KR101819618B1 (ko) 디지털 비디오 스트림에서의 트릭 플레이
US7639924B2 (en) Audio/video decoding process and device, and video driver circuit and decoder box incorporating the same
US20060165375A1 (en) Recordable PVR using metadata and recording control method thereof
CN1311955A (zh) 多媒体时间偏移系统
CN101288298A (zh) 提供即时重放的方法及系统
US20050008336A1 (en) Signal recording apparatus and method and signal reproduction apparatus and method
US7962943B2 (en) Video picture information delivering apparatus and receiving apparatus
JP2009159625A (ja) デジタル放送用ストリームの蓄積方法
KR20190083906A (ko) 복수의 촬영 영상 전송을 위한 시스템 및 그 제어방법
KR101142379B1 (ko) 디지털 방송 재생 방법 및 장치, 디지털 방송 녹화 방법
US20050238316A1 (en) Hybrid video on demand using mpeg2 transport
CN111131874A (zh) 一种解决h.256码流随机接入点播放卡顿的方法及设备
US6754273B1 (en) Method for compressing an audio-visual signal
US7024100B1 (en) Video storage and retrieval apparatus
JP2005123907A (ja) データ再構成装置
JP2001204032A (ja) Mpeg復号装置
CN111918121B (zh) 一种流媒体文件精准剪辑方法
JP2016103714A (ja) 録画再生装置
JP2002077820A (ja) 蓄積再生装置およびデジタル放送送信装置
US8254764B2 (en) Recording apparatus, image reproducing apparatus, and special reproduction method therefor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190219

RJ01 Rejection of invention patent application after publication