CN108712624A - 基于文字记录的录像存档装置及方法 - Google Patents

基于文字记录的录像存档装置及方法 Download PDF

Info

Publication number
CN108712624A
CN108712624A CN201810896152.2A CN201810896152A CN108712624A CN 108712624 A CN108712624 A CN 108712624A CN 201810896152 A CN201810896152 A CN 201810896152A CN 108712624 A CN108712624 A CN 108712624A
Authority
CN
China
Prior art keywords
information
audio
video
picture
spokesman
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810896152.2A
Other languages
English (en)
Inventor
黄永席
胡淇能
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Kai Connaught Mdt Infotech Ltd
Original Assignee
Shanghai Kai Connaught Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Kai Connaught Mdt Infotech Ltd filed Critical Shanghai Kai Connaught Mdt Infotech Ltd
Priority to CN201810896152.2A priority Critical patent/CN108712624A/zh
Publication of CN108712624A publication Critical patent/CN108712624A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明提供了基于文字记录的录像存档装置及方法,涉及音像控制设备技术领域,包括音像联动控制装置、与其相连的第一摄像设备和话筒设备;话筒设备采集发言人的音频信息;音像联动控制装置的语音处理模块根据音频信息生成文字记录信息、确定发声位置和身份信息,并根据发声位置生成画面控制指令;第一摄像设备根据画面控制指令将拍摄画面切换至与发声位置对应的预设位画面并采集视频信息;存储模块将音频信息和视频信息进行压缩处理,并将文字记录信息、身份信息与压缩音频信息、压缩视频信息进行关联存档。本发明在提高音视频会议、庭审或其它重要场合中记录画面细节的丰富性、音频的清晰度的基础上,还降低了存储成本,简化了存档查阅的方式。

Description

基于文字记录的录像存档装置及方法
技术领域
本发明涉及音像控制设备技术领域,尤其是涉及基于文字记录的录像存档装置及方法。
背景技术
传统的会议记录多以记录员或速录员的笔记为主,该方式容易出错出漏,花费人力物力,且信服度较低。对于一些很重要正规的会议开始出现了录音功能,以及对于一些会议记录要求严格的法庭、上市公司股东大会等正规的视频会议,慢慢出现了录音录像功能。
现有的视频会议、会议录像是通过架设摄像机,在一两个方向上进行全景的实时录音录像,以实时录取会议过程中的音视频数据。也就是说,这些所谓的会议记录或会议录像(有些是高清录像),因为都是以摄取全会场全景画面为主的,所以画面上只能看到人头攒动的画面,比如法庭上,只能看到被告或庭长的小人头像,根本无法看清其音容笑貌或肢体语言;有些非常重要的场合,必须要看清发言人音容笑貌的、就只能增加摄像机数量,比如庭审、为了能清晰记录庭长、原告、被告和代理律师的面部表情,就只能给每一个个体增加一个摄像机机位,而每增加一个机位,就对应的多一路视频信息的存储。对于录音如果是摄像头录的,则声音将会吵杂一片,如果是现场话筒录音,则可以听到相对清晰的发言声但无法确定发言人的位置和身份。
现有音视频会议记录的方式,除了缺少画面细节、录音嘈杂和难以定位发言人之外,在存档和调取查阅方面也存在不足。目前,对录像的存档基本上都是直接光盘或硬盘保存,如果录像是高清画面,比如1080P画质,不压缩的话,按每秒30帧来说,1分钟是1920*1080*3*30*60约10GB;如果压缩成目前最好的H.264格式,可以压缩到100M多,但对录制设备会有很高的要求;不管是不压缩还是H.264,这些录像的硬盘开销都很大,比如只需普通录像的、至少要保存两路视频,即:100M*2路*60=1.2G/小时,但如果是要求很高的庭审录像,比如实现庭长、原告、被告、各代理律师、全局,共5路“都有特写画面”的存储,需要的存储空间约为: 100M*5*60=3.0G/小时,以XXX法院2017年光就受理一审案件489166件 (刑事案件65187件、商事案件423979件),就光按一案件一庭审,一庭审 2个小时来估算,XXX法院2017年为了一审类案件的庭审录像,做清晰的庭审记录(5路视频)的话,就有489166*2*3G=5869992G,按普通每个硬盘2T容量(1T=1024G)计算,需要2935个硬盘,再按2T普通硬盘500 元(专业硬盘还要更贵)计算,2935*500=1467500元。也就是说,按最低配来计算,XXX法院2017年光为一审庭审做录像存储最少就要开销146.7 万元。日积月累,对光盘或硬盘的需求量很大,是单位一笔不小的开支。
对录像存档的查阅方式,基本还处于:先估算出会议发生的时间段、找来存储这个时间段会议的硬盘,再查找会议所存在的录像文件,然后将录像文件进行8X、16X或32X的快进去查找,需要耗费人工花费大量的时间去查看调取画面,很是不方便效率极低。
发明内容
有鉴于此,本发明的目的在于提供基于文字记录的录像存档装置及方法,在提高音视频会议记录中画面细节的丰富性、音频的清晰度的基础上,还降低了存储成本,简化了存档查阅的方式。
第一方面,本发明实施例提供了一种基于文字记录的录像存档装置,其中,包括:音像联动控制装置、与所述音像联动控制装置相连的第一摄像设备和话筒设备,所述音像联动控制装置包括语音处理模块和存储模块;
所述话筒设备,用于采集发言人的音频信息;
所述语音处理模块,用于根据所述音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据所述发声位置生成画面控制指令;
所述第一摄像设备,用于根据所述画面控制指令将拍摄画面切换至与所述发声位置对应的预设位画面,并采集所述预设位画面的视频信息;
所述存储模块,用于将所述音频信息和所述视频信息进行压缩处理,并将所述文字记录信息、所述身份信息与压缩音频信息、压缩视频信息进行关联存档。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,还包括与所述音像联动控制装置相连的第二摄像设备;
所述第二摄像设备,用于对全景画面进行视频记录,生成全景视频信息,并将所述全景视频信息发送至所述存储模块,以使所述存储模块将所述全景视频信息进行压缩后存档。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述语音处理模块包括语音转换模块和声纹识别模块;
所述语音转换模块,用于将所述音频信息进行实时语音转换,生成文字记录信息,并根据所述音频信息检测音频波动,确定发言人的所述发声位置;
所述声纹识别模块,用于根据预先存储的数据对所述音频信息进行声纹识别,确定发言人的所述身份信息,并将所述身份信息发送至所述存储模块,以使所述存储模块根据所述身份信息将所述文字记录信息进行标记后存档。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述话筒设备包括主话筒和与所述主话筒反向安装的辅话筒;
所述主话筒,用于采集发言人的原始音频信息;
所述辅话筒,用于采集发言人的背景音频信息。
结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,音像联动控制装置还包括与所述语音处理模块相连的过滤模块;
所述过滤模块,用于根据声音频率将所述原始音频信息进行对比并过滤,以及,根据所述背景音频信息将所述原始音频信息进行对比并过滤。
第二方面,本发明实施例还提供一种基于文字记录的录像存档方法,其中,包括:
采集步骤:采集发言人的音频信息;
处理步骤:根据所述音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据所述发声位置生成画面控制指令;
切换步骤:根据所述画面控制指令将拍摄画面切换至与所述发声位置对应的预设位画面,并采集所述预设位画面的视频信息;
存档步骤:将所述音频信息和所述视频信息进行压缩处理,并将所述文字记录信息、所述身份信息与压缩音频信息、压缩视频信息进行关联存档。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,所述方法还包括:
对全景画面进行视频记录,生成全景视频信息,并将所述全景视频信息进行压缩后存档。
结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,所述处理步骤包括:
将所述音频信息进行实时语音转换,生成文字记录信息,并根据所述音频信息检测音频波动,确定发言人的所述发声位置;
根据预先存储的数据对所述音频信息进行声纹识别,确定发言人的所述身份信息,并将所述身份信息发送至所述存储模块,以使所述存储模块根据所述身份信息将所述文字记录信息进行标记后存档。
结合第二方面,本发明实施例提供了第二方面的第三种可能的实施方式,其中,所述方法还包括:
采集发言人的原始音频信息和背景音频信息;
根据声音频率将所述原始音频信息进行对比并过滤,以及,根据所述背景音频信息将所述原始音频信息进行对比并过滤。
结合第二方面,本发明实施例提供了第二方面的第四种可能的实施方式,其中,所述方法还包括:
采用文字检索的方式在所述文字记录信息中查找匹配的会议文字记录,并调阅对应时间轴上的音频信息和/或视频信息。
本发明实施例带来了以下有益效果:
本发明提供的基于文字记录的录像存档装置及方法,包括:音像联动控制装置、与音像联动控制装置相连的第一摄像设备和话筒设备,音像联动控制装置包括语音处理模块和存储模块;话筒设备,用于采集发言人的音频信息;语音处理模块,用于根据音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据发声位置生成画面控制指令;第一摄像设备,用于根据画面控制指令将拍摄画面切换至与发声位置对应的预设位画面,并采集预设位画面的视频信息;存储模块,用于将音频信息和视频信息进行压缩处理,并将文字记录信息与压缩音频信息、压缩视频信息进行关联存档。本发明通过采集特定的视频信息,并将文字记录与音、视频关联存储,可以在提高音视频会议、庭审或其它重要场合中画面细节的丰富性、音频的清晰度的基础上,还降低存储成本,简化存档查阅的方式。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的基于文字记录的录像存档装置示意图;
图2为本发明实施例一提供的音像联动控制装置示意图;
图3为本发明实施例二提供的基于文字记录的录像存档方法流程图。
图标:
100-音像联动控制装置;110-过滤模块;120-语音转换模块;130-声纹识别模块;140-存储模块;200-主话筒;300-辅话筒;400-第一摄像设备; 500-第二摄像设备。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的视频会议、会议录像都是以摄取全会场全景画面为主的,所以画面上只能看到人头攒动的画面,根本无法看清其音容笑貌或肢体语言;对于录音如果是摄像头录的,则声音将会吵杂一片,如果是现场话筒录音,则可以听到清晰的发言声但无法确定发言人的位置和身份。现有音视频会议记录的方式,除了缺少画面细节、录音嘈杂和难以定位发言人之外,在存档和调取查阅方面也存在不足。目前,对录像的存档基本上都是直接光盘或硬盘保存,这些录像的硬盘开销都很大,日积月累,对光盘或硬盘的需求量很大,是单位一笔不小的开支。对录像存档的查阅方式,需要耗费人工花费大量的时间去查看调取画面,很是不方便效率极低。
基于此,本发明实施例提供的基于文字记录的录像存档装置及方法,通过采集特定的视频信息,以话筒和音频驱动摄像头摄取发言者特写画面的方式,用特写摄像头+全景摄像头,可以实现以往需要庭长、原告、被告、代理律师和全局等至少5个摄像头,才能实现的高清特写录像,而且,将文字记录与音、视频关联存储,可以在提高音视频会议记录中画面细节的丰富性、音频的清晰度的基础上,还降低存储成本,简化存档查阅的方式。
为便于对本实施例进行理解,首先对本发明实施例所公开的基于文字记录的录像存档装置进行详细介绍。
实施例一:
图1为本发明实施例一提供的基于文字记录的录像存档装置示意图。
参照图1,基于文字记录的录像存档装置主要包括:音像联动控制装置 100、与音像联动控制装置100相连的第一摄像设备400、第二摄像设备500 和话筒设备,话筒设备包括主话筒200和辅话筒300。参照图2,音像联动控制装置100包括过滤模块110、语音处理模块和存储模块140,其中,语音处理模块包括语音转换模块120和声纹识别模块130。
音像联动控制装置100上设置有无线通信模块和有线接口,无线通信模块可以为红外模块、蓝牙模块和WIFI模块中的至少一种,有线接口比如为网线接口、音频传输口和数据传输口。
第一摄像设备400、第二摄像设备500、主话筒200和辅话筒300通过无线通信模块或者有线接口与音像联动控制装置100相连。
话筒设备,用于采集发言人的音频信息。
具体的,主话筒200,用于采集发言人的原始音频信息;原始音频信息除了发言人的声音外,还混有背景杂音,比如音乐、远端会场声音等。辅话筒300,用于采集发言人的背景音频信息。主话筒200和辅话筒300可以采用超心型指向咪头,主话筒200的安装方向为正对发言人,辅话筒300 安装于主话筒200旁边且安装方向与主话筒200相反,采集背景音频信息。主话筒200和辅话筒300所采集的音频信息同时传输至音像联动控制装置 100。
音像联动控制装置100中的语音处理模块,用于根根据音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据发声位置生成画面控制指令。
具体的,在对音频信息进行语音识别、处理之前,可以利用过滤模块 110根据现场环境首先对音频信息进行降噪处理:第一种情况、根据声音频率将原始音频信息进行对比并过滤;原始音频信息中存在拍话筒、咳嗽类的声音,这些声音频率普遍比人声要快且连续性小,根据声音频率将拍话筒的声音过滤掉。
以及第二种情况、根据背景音频信息将原始音频信息进行对比并过滤。将背景音频信息与原始音频信息进行比较或反向抵消,得到主话筒200质量较高的发言人声音。
经过过滤模块110的反相过滤后,留下的只有清晰的发言人的音频了,清晰的音频信息有助于提高系统声纹识别率、提高录像存档的声音质量。
语音转换模块120对降噪后的音频信息进行实时语音转换,生成文字记录信息。以及,当会场中有发言人打开话筒或发言时,语音转换模块120 将基于音频信息在多路话筒设备中检测音频的波动,根据音频的波动确定发声话筒,即确定发言人的发声位置,再根据发声位置向第一摄像设备400 发送画面控制指令。第一摄像设备400为一路用来拍摄特写画面/视频的设备。
进一步的,声纹识别模块130,用于对音频信息进行声纹识别,确定发言人的身份信息,并将身份信息发送至存储模块140,以使存储模块140根据身份信息将文字记录信息进行标记后存档。
具体的,通过声纹识别模块130准确的区别出每个发言人的身份,并将对应的发言内容进行标注。标注有发言人身份的音频信息在查阅会议记录的过程中,具有较高的辨识度,进一步的提高了查阅的便捷性和效率。
第一摄像设备400,用于根据画面控制指令将拍摄画面切换至与发声位置对应的预设位画面,并采集预设位画面的视频信息,摄取发言人的特写画面,采集发言人的正面、音容笑貌和肢体语言等全部清晰的视频信息。
这里,通过前述过滤模块110对音频信息的降噪处理,可以避免因拍话筒、背景噪音等造成的摄像设备乱切换拍摄方向的问题。
进一步的,第二摄像设备500为一路用来拍摄会场全景的设备。第二摄像设备500,用于对全景画面进行视频记录,生成全景视频信息,并将全景视频信息发送至存储模块140,以使存储模块140将全景视频信息进行压缩后存档。
具体的,当音像联动控制装置100开启时,第二摄像设备500就开始进行全景录像,以保证完整的会议存档。
上述第一摄像设备400拍摄预设位画面的视频信息、第二摄像设备500 拍摄全景视频信息以及语音转换模块120实时转换文字记录信息,是同时进行的。
采用两路摄像设备的配置方式:一路摄取全景、一路影音联动,即:以话筒和音频驱动摄像头录取发言者特写画面的方式,用特写摄像头+全景摄像头,实现以往需要庭长、原告、被告、代理律师和全局等至少5个摄像头,才能实现的高清特写录像。该配置方式最大的优势是:既可以将会议(庭审)过程全景保存,还可以实现另一路发言者的特写画面保存,达到语音与特写画面完美同步的效果。
第一摄像设备400和第二摄像设备500均可以是但不限于包括多个摄像头,或者,附带多个摄像头的矩阵设备。
存储模块140,用于将音频信息和视频信息进行压缩处理,并将文字记录信息、发言人的身份信息与压缩音频信息、压缩视频信息进行关联存档。
具体的,存储模块140将传输过来的音频信息、特写的视频信息和全景视频信息,进行H.264的压缩,再按照时间轴将压缩后的音视频文件与转换的文字记录信息、身份信息进行关联配合,共同存储于存储器、硬盘、云端等。
这里,对于重要性极高的会议,会议记录采用两路视频(全景视频信息和发言人特写的视频信息)、音频信息并配合文字记录信息的方式存储,会议现场的会议记录是完整且清晰的,但需要较大的存储空间;对于重要性较低的会议,比如董事会,会议记录可以仅采用特写的视频信息、音频信息并配合文字记录信息的方式存储,既能保留重要的会议现场又可以将大大的减少存储空间;甚至,对于不重要的会议,只需存储语音转换后的文字记录信息即可,这样需要的存储空间,几乎可以忽略了。采用以上方式存储的以下一种或多种:音频信息、特写的视频信息、全景视频信息和文字记录信息,共同构成了会议记录。
进一步的,完成会议记录存档后,将对会议记录进行管理和查阅。采用文字检索的方式在所述文字记录信息中查找匹配的会议文字记录,并调阅对应时间轴上的音频信息和/或视频信息。由于会议记录是有文字记录信息的,因此,通过文字检索的方式将会简化管理、查阅的难度。如果想调阅某年某月大概什么会议中、某人说的什么话、或某话什么人说的,都可以用“什么会”、“什么人”或“什么话”做为关键字,以文本方式在系统保存的文字记录信息中进行检索,查找到相关的会议文字记录信息,再按相同的时间轴,跳转到对应的音频信息或视频信息中,实现以文字来查找音视频内容的效果。通过各种信息关联存档与文字检索相配合,极大地提高了存档资料的查阅便捷性。
在其它的实现方式中,音像联动控制装置100还可以进一步的包括与话筒设备相连的调音设备(图中未示出)。调音设备,用于对音频信息的音量大小进行调节。
调音设备包括但不限于:电位器、上位机和话筒放大器。
具体的,在会议中,不同的发言人讲话时,讲话音量和话筒距各不相同,会造成的话筒设备采集到的发言人的音量大小不一样,而采集到的音量太小,就有可能被当背景音过滤掉、或者不足以触发音像联动控制装置 100,因此,可以在音像联动控制装置100中设置手动和自动两种调节采集音量大小的模块。比如,手动功能可以通过音像联动控制装置100中安装的电位器进行调节,也可以通过上位机软件在电脑中进行调节;自动功能是通过线路板的话筒放大器来进行放大,将音量直接扩大到需要的电平量。另外,自动调节功能也可以在上位机软件中通过软件来开启或关闭。
实施例二:
图3为本发明实施例二提供的基于文字记录的录像存档方法流程图。
基于上述实施例所提供的基于文字记录的录像存档装置,本实施例提供了一种基于文字记录的录像存档方法。参照图3,基于文字记录的录像存档方法主要包括:
采集步骤S01,采集发言人的音频信息;
处理步骤S02,根据音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据发声位置生成画面控制指令;
切换步骤S03,根据画面控制指令将拍摄画面切换至与发声位置对应的预设位画面,并采集预设位画面的视频信息;
存档步骤S04,将音频信息和视频信息进行压缩处理,并将文字记录信息、身份信息与压缩音频信息、压缩视频信息进行关联存档。
查阅步骤S05,采用文字检索的方式在文字记录信息中查找匹配的会议文字记录,并调阅对应时间轴上的音频信息和/或视频信息。
进一步的,录像存档方法还包括:对全景画面进行视频记录,生成全景视频信息,并将全景视频信息进行压缩后存档。
进一步的,处理步骤包括:
将音频信息进行实时语音转换,生成文字记录信息,并根据音频信息检测音频波动,确定发言人的发声位置;
根据预先存储的数据对音频信息进行声纹识别,确定发言人的身份信息,并将身份信息发送至存储模块,以使存储模块根据身份信息将文字记录信息进行标记后存档。
进一步的,基于文字记录的录像存档方法还包括:采集发言人的原始音频信息和背景音频信息;根据声音频率将原始音频信息进行对比并过滤,以及,根据背景音频信息将原始音频信息进行对比并过滤。
本发明实施例所提供的方法,其实现原理及产生的技术效果和前述装置实施例相同,为简要描述,方法实施例部分未提及之处,可参考前述装置实施例中相应内容。
本发明实施例带来了以下有益效果:
本发明提供的基于文字记录的录像存档装置及方法,包括:音像联动控制装置、与音像联动控制装置相连的第一摄像设备和话筒设备,音像联动控制装置包括语音处理模块和存储模块;话筒设备,用于采集发言人的音频信息;语音处理模块,用于根据音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据发声位置生成画面控制指令;第一摄像设备,用于根据画面控制指令将拍摄画面切换至与发声位置对应的预设位画面,并采集预设位画面的视频信息;存储模块,用于将音频信息和视频信息进行压缩处理,并将文字记录信息与压缩音频信息、压缩视频信息进行关联存档。本发明通过采集特定的视频信息,并将文字记录与音、视频关联存储,可以在提高音视频会议、庭审或其它重要场合中画面细节的丰富性、音频的清晰度的基础上,还降低存储成本,简化存档查阅的方式。
本发明实施例还提供一种电子设备,包括存储器、处理器,存储器中存储有可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例提供的基于文字记录的录像存档方法的步骤。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述实施例的基于文字记录的录像存档方法的步骤。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的进行基于文字记录的录像存档方法的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于文字记录的录像存档装置,其特征在于,包括:音像联动控制装置、与所述音像联动控制装置相连的第一摄像设备和话筒设备,所述音像联动控制装置包括语音处理模块和存储模块;
所述话筒设备,用于采集发言人的音频信息;
所述语音处理模块,用于根据所述音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据所述发声位置生成画面控制指令;
所述第一摄像设备,用于根据所述画面控制指令将拍摄画面切换至与所述发声位置对应的预设位画面,并采集所述预设位画面的视频信息;
所述存储模块,用于将所述音频信息和所述视频信息进行压缩处理,并将所述文字记录信息、所述身份信息与压缩音频信息、压缩视频信息进行关联存档。
2.根据权利要求1所述的装置,其特征在于,还包括与所述音像联动控制装置相连的第二摄像设备;
所述第二摄像设备,用于对全景画面进行视频记录,生成全景视频信息,并将所述全景视频信息发送至所述存储模块,以使所述存储模块将所述全景视频信息进行压缩后存档。
3.根据权利要求1所述的装置,其特征在于,所述语音处理模块包括语音转换模块和声纹识别模块;
所述语音转换模块,用于将所述音频信息进行实时语音转换,生成文字记录信息,并根据所述音频信息检测音频波动,确定发言人的所述发声位置;
所述声纹识别模块,用于根据预先存储的数据对所述音频信息进行声纹识别,确定发言人的所述身份信息,并将所述身份信息发送至所述存储模块,以使所述存储模块根据所述身份信息将所述文字记录信息进行标记后存档。
4.根据权利要求1所述的装置,其特征在于,所述话筒设备包括主话筒和与所述主话筒反向安装的辅话筒;
所述主话筒,用于采集发言人的原始音频信息;
所述辅话筒,用于采集发言人的背景音频信息。
5.根据权利要求4所述的装置,其特征在于,所述音像联动控制装置还包括与所述语音处理模块相连的过滤模块;
所述过滤模块,用于根据声音频率将所述原始音频信息进行对比并过滤,以及,根据所述背景音频信息将所述原始音频信息进行对比并过滤。
6.一种基于文字记录的录像存档方法,其特征在于,包括:
采集步骤:采集发言人的音频信息;
处理步骤:根据所述音频信息生成文字记录信息和确定发言人的发声位置,根据预先存储的数据进行声纹识别确定发言人的身份信息,并根据所述发声位置生成画面控制指令;
切换步骤:根据所述画面控制指令将拍摄画面切换至与所述发声位置对应的预设位画面,并采集所述预设位画面的视频信息;
存档步骤:将所述音频信息和所述视频信息进行压缩处理,并将所述文字记录信息、所述身份信息与压缩音频信息、压缩视频信息进行关联存档。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
对全景画面进行视频记录,生成全景视频信息,并将所述全景视频信息进行压缩后存档。
8.根据权利要求6所述的方法,其特征在于,所述处理步骤包括:
将所述音频信息进行实时语音转换,生成文字记录信息,并根据所述音频信息检测音频波动,确定发言人的所述发声位置;
根据预先存储的数据对所述音频信息进行声纹识别,确定发言人的所述身份信息,并将所述身份信息发送至所述存储模块,以使所述存储模块根据所述身份信息将所述文字记录信息进行标记后存档。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
采集发言人的原始音频信息和背景音频信息;
根据声音频率将所述原始音频信息进行对比并过滤,以及,根据所述背景音频信息将所述原始音频信息进行对比并过滤。
10.根据权利要求6所述的方法,其特征在于,所述方法还包括:
采用文字检索的方式在所述文字记录信息中查找匹配的会议文字记录,并调阅对应时间轴上的音频信息和/或视频信息。
CN201810896152.2A 2018-08-08 2018-08-08 基于文字记录的录像存档装置及方法 Pending CN108712624A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810896152.2A CN108712624A (zh) 2018-08-08 2018-08-08 基于文字记录的录像存档装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810896152.2A CN108712624A (zh) 2018-08-08 2018-08-08 基于文字记录的录像存档装置及方法

Publications (1)

Publication Number Publication Date
CN108712624A true CN108712624A (zh) 2018-10-26

Family

ID=63875664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810896152.2A Pending CN108712624A (zh) 2018-08-08 2018-08-08 基于文字记录的录像存档装置及方法

Country Status (1)

Country Link
CN (1) CN108712624A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109788235A (zh) * 2019-02-26 2019-05-21 视联动力信息技术股份有限公司 一种基于视联网的会议记录信息的处理方法和系统
CN109783642A (zh) * 2019-01-09 2019-05-21 上海极链网络科技有限公司 多人会议场景的结构化内容处理方法、装置、设备及介质
CN109859753A (zh) * 2019-02-26 2019-06-07 北京华夏电通科技有限公司 应用于数字法庭的语音激励方法及装置
CN110798580A (zh) * 2019-11-12 2020-02-14 深圳市瑞讯云技术有限公司 远程多方语音会议的噪声去除方法、装置及电子设备
CN111698402A (zh) * 2020-04-27 2020-09-22 杨方能 一种庭审速记工作的辅助装置
CN111935432A (zh) * 2020-08-12 2020-11-13 盛素杰 一种新型财务咨询用记录装置
CN112040119A (zh) * 2020-08-12 2020-12-04 广东电力信息科技有限公司 会议发言人追踪方法、装置、计算机设备和存储介质
CN112788278A (zh) * 2020-12-30 2021-05-11 北京百度网讯科技有限公司 视频流的生成方法、装置、设备及存储介质
CN113140223A (zh) * 2021-03-02 2021-07-20 广州朗国电子科技有限公司 一种会议语音数据处理方法、设备及存储介质
CN115529435A (zh) * 2022-11-29 2022-12-27 长沙朗源电子科技有限公司 一种高清会议画面无线传输方法、系统、设备及存储介质
CN116506673A (zh) * 2023-06-30 2023-07-28 安格利(成都)仪器设备有限公司 一种音像记录与检测设备数据同步联动及声控检索方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060061534A (ko) * 2004-12-02 2006-06-08 한국과학기술원 회의록 웹페이지의 자동생성장치 및 그에 따른 이벤트정보를 이용한 회의록 검색시스템
US20090226150A1 (en) * 2008-03-05 2009-09-10 Jang-Zern Tsai Audio/Video Recording Method and Device
CN102368816A (zh) * 2011-12-01 2012-03-07 中科芯集成电路股份有限公司 一种视频会议智能前端系统
JP2012100216A (ja) * 2010-11-05 2012-05-24 Nikon Corp カメラおよび動画撮影プログラム
US20130058471A1 (en) * 2011-09-01 2013-03-07 Research In Motion Limited. Conferenced voice to text transcription
CN104883450A (zh) * 2015-06-05 2015-09-02 宁波萨瑞通讯有限公司 一种增强语音接收能力的通话装置及方法
WO2017045512A1 (zh) * 2015-09-18 2017-03-23 深圳前海达闼科技有限公司 一种语音识别的方法、装置、终端及语音识别设备
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN206575514U (zh) * 2016-01-21 2017-10-20 武汉明科智慧科技有限公司 声音追踪的会议音视频记录装置
CN207560199U (zh) * 2017-09-15 2018-06-29 上海启诺信息科技有限公司 音像联动控制装置及音像联动系统
CN108259801A (zh) * 2018-01-19 2018-07-06 广州视源电子科技股份有限公司 音视频数据显示方法、装置、设备及存储介质
CN208424595U (zh) * 2018-08-08 2019-01-22 上海启诺信息科技有限公司 基于文字记录的录像存档装置及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060061534A (ko) * 2004-12-02 2006-06-08 한국과학기술원 회의록 웹페이지의 자동생성장치 및 그에 따른 이벤트정보를 이용한 회의록 검색시스템
US20090226150A1 (en) * 2008-03-05 2009-09-10 Jang-Zern Tsai Audio/Video Recording Method and Device
JP2012100216A (ja) * 2010-11-05 2012-05-24 Nikon Corp カメラおよび動画撮影プログラム
US20130058471A1 (en) * 2011-09-01 2013-03-07 Research In Motion Limited. Conferenced voice to text transcription
CN102368816A (zh) * 2011-12-01 2012-03-07 中科芯集成电路股份有限公司 一种视频会议智能前端系统
CN104883450A (zh) * 2015-06-05 2015-09-02 宁波萨瑞通讯有限公司 一种增强语音接收能力的通话装置及方法
WO2017045512A1 (zh) * 2015-09-18 2017-03-23 深圳前海达闼科技有限公司 一种语音识别的方法、装置、终端及语音识别设备
CN206575514U (zh) * 2016-01-21 2017-10-20 武汉明科智慧科技有限公司 声音追踪的会议音视频记录装置
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
CN207560199U (zh) * 2017-09-15 2018-06-29 上海启诺信息科技有限公司 音像联动控制装置及音像联动系统
CN108259801A (zh) * 2018-01-19 2018-07-06 广州视源电子科技股份有限公司 音视频数据显示方法、装置、设备及存储介质
CN208424595U (zh) * 2018-08-08 2019-01-22 上海启诺信息科技有限公司 基于文字记录的录像存档装置及系统

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783642A (zh) * 2019-01-09 2019-05-21 上海极链网络科技有限公司 多人会议场景的结构化内容处理方法、装置、设备及介质
CN109788235A (zh) * 2019-02-26 2019-05-21 视联动力信息技术股份有限公司 一种基于视联网的会议记录信息的处理方法和系统
CN109859753A (zh) * 2019-02-26 2019-06-07 北京华夏电通科技有限公司 应用于数字法庭的语音激励方法及装置
CN110798580A (zh) * 2019-11-12 2020-02-14 深圳市瑞讯云技术有限公司 远程多方语音会议的噪声去除方法、装置及电子设备
CN111698402A (zh) * 2020-04-27 2020-09-22 杨方能 一种庭审速记工作的辅助装置
CN112040119A (zh) * 2020-08-12 2020-12-04 广东电力信息科技有限公司 会议发言人追踪方法、装置、计算机设备和存储介质
CN111935432A (zh) * 2020-08-12 2020-11-13 盛素杰 一种新型财务咨询用记录装置
CN112040119B (zh) * 2020-08-12 2022-08-26 广东电力信息科技有限公司 会议发言人追踪方法、装置、计算机设备和存储介质
CN112788278A (zh) * 2020-12-30 2021-05-11 北京百度网讯科技有限公司 视频流的生成方法、装置、设备及存储介质
CN113140223A (zh) * 2021-03-02 2021-07-20 广州朗国电子科技有限公司 一种会议语音数据处理方法、设备及存储介质
CN115529435A (zh) * 2022-11-29 2022-12-27 长沙朗源电子科技有限公司 一种高清会议画面无线传输方法、系统、设备及存储介质
CN116506673A (zh) * 2023-06-30 2023-07-28 安格利(成都)仪器设备有限公司 一种音像记录与检测设备数据同步联动及声控检索方法
CN116506673B (zh) * 2023-06-30 2023-09-12 安格利(成都)仪器设备有限公司 一种音像记录与检测设备数据同步联动及声控检索方法

Similar Documents

Publication Publication Date Title
CN108712624A (zh) 基于文字记录的录像存档装置及方法
CN208424595U (zh) 基于文字记录的录像存档装置及系统
JP6759406B2 (ja) カメラ撮影制御方法、装置、インテリジェント装置およびコンピュータ記憶媒体
US7848493B2 (en) System and method for capturing media
WO2018107605A1 (zh) 一种将音视频数据转化成文字记录的系统和方法
JP5145937B2 (ja) 再生開始位置制御付きコンテンツ再生方法および装置
EP3611897B1 (en) Method, apparatus, and system for presenting communication information in video communication
WO2019000721A1 (zh) 视频文件录制方法、音频文件录制方法及移动终端
JPH10214270A (ja) 情報蓄積装置および情報蓄積再生装置
CN110400566B (zh) 识别方法和电子设备
Frohlich et al. Audiophotography: practice and prospects
TWM594323U (zh) 智能會議記錄系統
CN101298141A (zh) 机器人系统及机器人系统的控制方法
CN107509021B (zh) 一种拍摄方法、装置及存储介质
CN106412645A (zh) 向多媒体服务器上传视频文件的方法和装置
CN105959614A (zh) 一种视频会议的处理方法及系统
CN104883503A (zh) 基于语音的个性化拍照技术
WO2021120190A1 (zh) 数据处理方法、装置、电子设备和存储介质
CN117897930A (zh) 用于混合在线会议的流式数据处理
CN101141271A (zh) 众教直播录播网络教学系统
JP2006279111A (ja) 情報処理装置、情報処理方法およびプログラム
CN109150556A (zh) 基于语音识别的多人远程会议记录系统
CN201995076U (zh) 数字化审讯系统
WO2023087287A1 (zh) 一种会议内容显示的方法、会议系统及会议设备
CN211788155U (zh) 智能会议记录系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination