CN108259801A - 音视频数据显示方法、装置、设备及存储介质 - Google Patents
音视频数据显示方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN108259801A CN108259801A CN201810054746.9A CN201810054746A CN108259801A CN 108259801 A CN108259801 A CN 108259801A CN 201810054746 A CN201810054746 A CN 201810054746A CN 108259801 A CN108259801 A CN 108259801A
- Authority
- CN
- China
- Prior art keywords
- data
- display
- audio
- video data
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/431—Generation of visual interfaces for content selection or interaction; Content or additional data rendering
- H04N21/4312—Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/433—Content storage operation, e.g. storage operation in response to a pause request, caching operations
- H04N21/4334—Recording operations
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种音视频数据显示方法、装置、设备及存储介质。该音视频数据显示方法,通过在显示屏上实时显示视频录入装置获取的视频数据;将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。通过对视频数据和实时音频数据的采集获得会议场景中的所有初始信息,再对初始信息进行深入挖掘和对应于初始信息的同步显示,将会议场景中产生的内容进行多维度的全面显示,提高了会议信息的利用率,也便于会议后对会议内容进行回溯查看。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种音视频数据显示方法、装置、设备及存储介质。
背景技术
随着电子技术的不断发展,针对会议场景的解决方案,从远程视频的所需的底层技术的数据同步与数据传输,到会议情境下的表层功能需求有了越来越全面的实现方案。这些方案极大地降低了会议成本,提高了会议效率。
发明人在实现当前的会议系统方案的过程中,结合具体的会议需求,发现这些会议系统方案主要针对会议的实时属性或者会议记录输出设计,对会议过程中产生的所有信息的全面采集和输出仍嫌不足。
发明内容
有鉴于此,本发明实施例提供一种音视频数据显示方法、装置、设备及存储介质,以实现对会议过程中产生的所有信息的全面输出。
第一方面,本发明实施例提供了一种音视频数据显示方法,包括;
在显示屏上实时显示视频录入装置获取的视频数据;
将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
其中,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上之前,还包括:
确定所述音频录入装置在录入所述实时音频数据时的声源方向;
根据所述声源方向对视频录入装置获取的视频数据中相应用户面部图像进行识别,以确定声源用户。
其中,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上之前,还包括:
识别实时音频数据的音频属性;
将所述音频属性与预设声源库中存储的预设音频属性进行匹配,以根据匹配结果确定声源用户。
其中,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上,包括:
确定实时音频数据对应的声源用户的文本显示规则;
按照所述文本显示规则在所述显示屏上同步显示基于实时音频数据生成的文本数据。
其中,所述视频录入装置包括第一摄像头和第二摄像头;
所述在显示屏上实时显示视频录入装置获取的视频数据,包括:
指示第一摄像头实时采集所述声源用户的面部视频数据;
指示第二摄像头实时采集全景视频数据;
将所述面部视频数据和所述全景视频数据按照视频显示规则显示在显示屏上。
其中,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上,包括:
对所述实时音频数据进行语音识别得到文本数据;
按照设定语种实时翻译所述文本数据,以得到翻译数据;
在所述显示屏上同步显示所述文本数据和所述翻译数据。
其中,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上之后,还包括:
记录所述文本数据的生成时间,按照所述生成时间的先后顺序将所述文本数据和所述生成时间添加至文本记录文件。
其中,所述文本记录文件为可编辑文件。
其中,还包括:
实时录制所述显示屏中的显示数据和实时音频数据,生成视频文件,所述显示数据包括视频数据和同步显示的文本数据。
其中,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上,包括:
将所述基于实时音频数据生成的文本数据以弹幕的形式同步显示在所述显示屏中。
第二方面,本发明实施例还提供了一种音视频数据显示装置,包括;
视频数据显示单元,用于在显示屏上实时显示视频录入装置获取的视频数据;
音频数据显示单元,用于将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前文所述的音视频数据显示方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如前文所述的音视频数据显示方法。
本发明实施例提供的音视频数据显示方法、装置、设备及存储介质,通过在显示屏上实时显示视频录入装置获取的视频数据;将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到,通过对视频数据和实时音频数据的采集获得会议场景中的所有初始信息,再对初始信息进行深入挖掘和对应于初始信息的同步显示,将会议场景中产生的内容进行多维度的全面显示,提高了会议信息的利用率,也便于会议后对会议内容进行回溯查看。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1A为本发明实施例一提供的一种音视频数据显示方法的方法流程图;
图1B为本发明实施例一提供的一种在显示屏下部分同步显示文本数据的示意图;
图1C为本发明实施例一提供的一种在显示屏中部通过弹幕形式显示文本数据的示意图;
图1D为本发明实施例一提供的一种在显示屏中说话用户旁边通过气泡形式展示文本数据的示意图;
图2A为本发明实施例二提供的一种音视频数据显示方法的方法流程图;
图2B为本发明实施例二提供的一种确定声源用户的方式的示意图;
图2C为本发明实施例二提供的一种包括全景图像和局部图像的显示方式的示意图;
图3A为本发明实施例三提供的一种音视频数据显示方法的方法流程图;
图3B为本发明实施例三提供的提前采集公司每位员工声音,在显示屏中部通过字幕框形式显示文本数据的示意图;
图3C为本发明实施例三提供的现场采集参会人员声音,在显示屏中部通过字幕框形式显示文本数据的示意图;
图4A为本发明实施例四提供的一种音视频数据显示方法的方法流程图;
图4B为本发明实施例四提供的一种将中文翻译为英文的显示屏显示画面的示意图;
图5为本发明实施例五提供的一种音视频数据显示装置的结构方框图;
图6为本发明实施例六提供的一种音视频数据显示设备的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
图1A为本发明实施例一提供的一种音视频数据显示方法的方法流程图。该方法适用于会议场景下对会议过程中产生的所有信息进行全面采集和显示,该方法可以由音视频数据显示装置执行,该装置可以由硬件和/或软件实现,并一般集成在具备语音识别功能的计算机设备中。
如图1A所示,本发明实施例一提供的一种音视频数据显示方法,包括:
S110:在显示屏上实时显示视频录入装置获取的视频数据。
其中,视频录入装置可以是会议室独立设置的监控摄像头,也可以是会议室的会议平板自带的摄像头。对应的,如果是独立的监控摄像头,则将监控摄像头接入会议室,使得监控摄像头获得的图像在会议室设置的显示屏上实时显示;如果是会议平板自带的摄像头则默认该摄像头接入会议平板,对音视频的数据处理可以集中在会议平板进行,然后直接在会议平板进行显示;也可以将音视频对应采集的数据通过会议平板发送到计算能力更强的服务器,在服务器进行相关的数据处理之后再发送到会议平板进行显示。
具体的,在显示屏上实时显示视频录入装置获取到的数据。另外需要说明的是,会议室不限于狭义上开会的房间,还可以是教室、机房等用于多人间信息传输和交互并进行现场音视频采集的场景。
S120:将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
其中,音频录入装置可以是上述视频录入装置中自带的麦克风,如果会议室安装有独立的麦克风设备,则将独立的麦克风设备音频录入装置。为提高声源定位的精度,可以采用阵列麦克风进行声音采集并进行声源定位。文本数据是指通过识别实时音频数据生成的文本信息。声源用户是指发出被采集声音的会议参与者。
具体的,通过麦克风等音频录入装置对参会用户的声音进行实时采集,将采集到的音频数据转换为文本数据,并将文本数据同步显示在所述显示屏上。
下面是本实施例的示例性说明,如图1B所示,显示屏10实时显示视频录入装置获取的视频数据(图1B中视频数据设置为全屏显示),可识别到八位用户11参与此次会议并被视频录入装置采集到。用户111说:“一二三四五六七八。”此时,用户111则为声源用户,通过音频录入装置实时获取该“一二三四五六七八”的音频数据,同时将基于实时音频数据“一二三四五六七八”生成的文本数据“一二三四五六七八”同步显示在所述显示屏上的文本显示区域12。需要说明的是,文本显示区域12的位置与显示屏10没有确定的相对位置关系,文本显示区域12只与视频数据的显示范围有确定的相对位置关系,即文本显示区域12的位置会随着视频数据的显示尺寸和显示位置的变化而进行对应的变化。后续实施例中显示屏10中显示的均为视频数据全屏显示时的效果。
可选的,将基于实时音频数据生成的文本数据同步显示在所述显示屏上,包括:将所述基于实时音频数据生成的文本数据以弹幕的形式同步显示在所述显示屏中。
其中,弹幕形式包括从右往左滑动的弹幕,也可以包括以气泡形式出现在发言人身边的弹幕。
具体的,图1C展示了右往左滑动的弹幕的示意图。八位用户11进行会议时,其中用户1发言:一二三四五;用户2发言:一二三四五;用户1再次发言:六七八九十;用户3发言:一二三四五;用户4发言:一二三四五。则在显示屏10中展示字幕13,字幕13从右往左进行弹幕滚动。弹幕展示方式、停留时间、弹幕间隔和每条弹幕前是否展示对应用户的头像等信息均可进行设置。
具体的,图1D展示了以气泡形式出现在发言人身边的弹幕的示意图。八位用户11正在进行会议,此时,用户111进行发言,发言内容为:“一二三四五六七”。则在显示屏10中声源用户位置展示气泡14。在气泡14中展示文本数据。气泡14的形状和停留时间像等信息均可进行设置。
综上所述,通过在显示屏上实时显示视频录入装置获取的视频数据;将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到,通过对视频数据和实时音频数据的采集获得会议场景中的所有初始信息,再对初始信息进行深入挖掘和对应于初始信息的同步显示,将会议场景中产生的内容进行多维度的全面显示,提高了会议信息的利用率,也便于会议后对会议内容进行回溯查看。
实施例二
图2A为本发明实施例二提供的一种音视频数据显示方法的方法流程图。如图所示,该方法包括:
S210:在显示屏上实时显示视频录入装置获取的视频数据。
S220:确定所述音频录入装置在录入所述实时音频数据时的声源方向。
其中,若音频录入装置为视频录入装置中自带的麦克风,则通过对麦克风接收到音频方向等数据分析得出实时获取音频数据时的声源方向;若会议室每个座位均安装有独立的麦克风设备,则通过判断是哪个麦克风设备传来的音频数据判定出声源方向。
具体的,通过音频录入装置在录入实时音频数据时获得的各种数据分析出声源方向。
S230:根据所述声源方向对视频录入装置获取的视频数据中相应用户面部图像进行识别,以确定声源用户。
其中,面部识别是指通过识别判定出该范围内的多个用户,具体哪一位是声源用户。
具体的,通过音频录入装置在录入实时音频数据时获得的各种数据分析出声源方向后,对视频录入装置获取的视频数据中相应用户面部图像进行识别,判定出具体哪一位是声源用户。
S240:将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
优选的,有两个以上的视频录入装置。如图2B所示,以视频录入装置包括第一摄像头和第二摄像头为例进行示例性描述:所述在显示屏上实时显示视频录入装置获取的视频数据,包括:指示第一摄像头实时采集所述声源用户的面部视频数据;指示第二摄像头实时采集全景视频数据;将所述面部视频数据和所述全景视频数据按照视频显示规则显示在显示屏上。
具体的,显示屏10显示第二摄像头实时采集全景视频数据,展示八位参会用户11,其中,用户111说话:“一二三四五六七八。”此时音频录入装置在录入所述实时音频数据时确定111用户所在方向为声源方向,并指示第一摄像头对声源方向进行图像采集。此时,声源方向有用户111与用户112,指示第一摄像头实时采集声源方向有用户111与用户112的面部视频数据,确定用户111为声源用户。此时显示屏10显示画面如图2C所示,左上角为声源用户111的头像放大展示图16。同时将基于实时音频数据“一二三四五六七八”生成的文本数据“一二三四五六七八”同步显示在所述显示屏10的文本显示区域12中。
综上所述,通过在显示屏上实时显示视频录入装置获取的视频数据;将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到,通过对视频数据和实时音频数据的采集获得会议场景中的所有初始信息,再对初始信息进行深入挖掘和对应于初始信息的同步显示,将会议场景中产生的内容进行多维度的全面显示,提高了会议信息的利用率,也便于会议后对会议内容进行回溯查看。同时,对声源用户的跟踪有利于重现会议现场,便于用户根据场景重现找回已经遗忘的在会议过程中产生的灵感或思路。
实施例三
图3A为本发明实施例三提供的一种音视频数据显示方法的方法流程图。如图所示,该方法包括:
S310:在显示屏上实时显示视频录入装置获取的视频数据。
S320:识别实时音频数据的音频属性。
其中,音频属性可以包括音色、音调和语速等一系列可以区分音频的内容。
具体的,由于录制的每个人的音频属性都有区别,因此可以通过音频属性区分说话的用户。
S330:将所述音频属性与预设声源库中存储的预设音频属性进行匹配,以根据匹配结果确定声源用户。
其中,预设声源库中存储的预设音频属性进行匹配可至少有以下两种方式可供参考:第一,可提前将公司每一位员工的声音进行采集,那么通过识别实时音频数据的音频属性可以判断出会议中声源用户的具体身份;第二,可以在会议开始时进行参会人员声音采集。采用这种方式可以在音视频数据的处理过程中实时区分来自于同一声源用户的声音数据。
具体的,将音频属性与预设声源库中存储的预设音频属性进行匹配,以根据匹配结果确定声源用户,并在展示文本内容前增加声源用户的个人信息。
S340:将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
以采用提前将公司每一位员工的声音进行采集的方式进行示例性描述,则如图3B所示:
预先采集公司每一位员工的声音,其中张三、李四、王五和其他员工一共8人参加了一次会议。张三首先发言内容为“一二三四五”,则在显示屏10中显示记录有“张三:一二三四五”的字幕13。然后李四发言,内容为:“一二三四五”,则显示记录有“李四:一二三四五”的字幕13。然后张三再次发言,内容为:“六七八九十”,则显示记录有“张三:六七八九十”的字幕13。最后王五发言,内容为:“一二三四五”,则显示记录有“王五:一二三四五”的字幕13,以此类推。
以采用在会议开始时进行参会人员声音采集进行示例性描述,则如图3C所示:
员工一共8人参加了一次会议。张三首先发言内容为“一二三四五”,则在显示屏10中显示记录有“用户1:一二三四五”的字幕13。然后李四发言,内容为:“一二三四五”,则显示记录有“用户2:一二三四五”的字幕13。然后张三再次发言,内容为:“六七八九十”,此时判定张三已经发过言,音频属性与用户1匹配,则显示记录有“用户1:六七八九十”的字幕13。最后王五发言,内容为:“一二三四五”,则显示记录有“用户3:一二三四五”的字幕13,以此类推。
另外,对应于不同用户发言得到的字幕13,可以通过不同的字幕属性进行显示,例如颜色的不同、字体大小的不同和/或字体风格的不同。
还需要说明的是,图3B和图3C所示的8人并不代表真实会议场景下的与会人员布局。在真实会议场景下,与会人员通常围着桌子开会,所以视频中间没有人像存在,可以通过控制字幕13的出现位置避免出现字幕13显示在人像上的情况。
综上所述,通过在显示屏上实时显示视频录入装置获取的视频数据;将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到,通过对视频数据和实时音频数据的采集获得会议场景中的所有初始信息,再对初始信息进行深入挖掘和对应于初始信息的同步显示,将会议场景中产生的内容进行多维度的全面显示,提高了会议信息的利用率,也便于会议后对会议内容进行回溯查看。同时,对应不同用户采用不同的显示属性的字幕,有助于与会人员快速确认发言人,尤其在后续回溯查看时快速进行声源用户的确认与筛选,重点关注某个人或某些人的发言。
实施例四
图4A为本发明实施例四提供的一种音视频数据显示方法的方法流程图。本实施是在上述实施例的基础上进行的详细说明,如图所示,该方法包括:
S410:确定实时音频数据对应的声源用户的文本显示规则。
其中,文本显示规则是指以怎样的方式进行文本显示。如前面实施例提到的,可以通过在屏幕下部显示字幕、在屏幕正中通过字幕框逐一显示字幕、通过字幕框显示从右到左移动的弹幕和通过气泡框显示字幕等方式进行文本显示。
具体的,确定显示屏上文本显示的具体方式。
S420:按照所述文本显示规则在所述显示屏上同步显示基于实时音频数据生成的文本数据。
S430:按照设定语种实时翻译所述文本数据,以得到翻译数据。
其中,翻译数据的形式需要预先设定,如将中文翻译为英文、日文或德文等外语。当然,根据实际场景的使用情况,可同时转化为一种或多种语种。
S440:在所述显示屏上同步显示所述文本数据和所述翻译数据。
具体的,图4B为将中文翻译为英文的显示屏显示画面的示例图。八位用户11举行会议,会议前将文本显示规则设置为在屏幕下部显示字幕,并且将中文翻译为英文。此时语音来源用户111发言,内容为:“一二三四五六七八。”则在显示屏10下部分的文本显示区域12显示中文字幕,并在文本显示区域12的下方设置翻译显示区域15,在翻译显示区域15显示对应中文字幕的英文翻译。
S450:记录所述文本数据的生成时间,按照所述生成时间的先后顺序将所述文本数据和所述生成时间添加至文本记录文件。
其中,文本数据的生成时间可以是与北京时间统一的时间,也可以是没有具体时间,仅有时间先后顺序的相对时间。文本记录文件为可编辑文件。即可将文本记录文件在常用文字编辑软件(如txt文档或word文档等)中打开并直进行编辑。实时录制所述显示屏中的显示数据和实时音频数据,生成视频文件,所述显示数据包括视频数据和同步显示的文本数据。
具体的,如会议北京时间14:00:00开始,在会议进行三分十五秒时,用户A发言,发言内容为:“一二三”;在会议进行五分十秒时,用户B发言,发言内容为:“四五六”;在会议进行十分五十秒时,用户C发言,发言内容为:“七八九”。若采用北京时间计时,则本记录文件记录内容如表一:
时间 | 用户 | 内容 |
14:03:15 | A | 一二三 |
14:05:10 | B | 四五六 |
14:10:50 | C | 七八九 |
表一
若采用相对时间计时,则本记录文件记录内容如表二:
时间 | 用户 | 内容 |
00:03:15 | A | 一二三 |
00:05:10 | B | 四五六 |
00:10:50 | C | 七八九 |
表二
上述文本记录文件作为可编辑的文件存在,可以直接编辑其中机器文字识别或机器翻译的错误内容,最终实现准确的字幕输出。更重要的是,可以基于文本记录文件对与会人员的发言情况进行全面统计,例如A用户在会议过程中表现活跃,B用户在会议过程中很少发言,再进一步结合会议的主题和会议的具体组织形式,可以进一步判断用户在会议过程中的参与度和思维活跃程度,尤其对研发相关的头脑风暴会议或技术讨论会,可以以此作为对员工评价的一个参考。
综上所述,通过在显示屏上实时显示视频录入装置获取的视频数据;将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到,通过对视频数据和实时音频数据的采集获得会议场景中的所有初始信息,再对初始信息进行深入挖掘和对应于初始信息的同步显示,将会议场景中产生的内容进行多维度的全面显示,提高了会议信息的利用率,也便于会议后对会议内容进行回溯查看。同时,文本记录文件为可编辑文件便于会议记录的整理。
实施例五
图5为本发明实施例五提供的一种音视频数据显示装置的结构方框图,该装置适用于会议场景下对会议过程中产生的所有信息进行全面采集和显示,该装置可以由硬件和/或软件实现,并一般集成在具备语音识别功能的计算机设备中。如图5所示,该装置包括:
视频数据显示单元51,用于在显示屏上实时显示视频录入装置获取的视频数据;
音频数据显示单元52,用于将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
其中,所述装置,还包括:
声源定位单元,用于确定所述音频录入装置在录入所述实时音频数据时的声源方向;
声源视频采集单元,用于根据所述声源方向对视频录入装置获取的视频数据中相应用户面部图像进行识别,以确定声源用户。
其中,所述装置,还包括:
属性识别单元,用于识别实时音频数据的音频属性;
属性匹配单元,用于将所述音频属性与预设声源库中存储的预设音频属性进行匹配,以根据匹配结果确定声源用户。
其中,所述视频数据显示单元51,包括:
显示规则确认模块,用于确定实时音频数据对应的声源用户的文本显示规则;
文本显示模块,用于按照所述文本显示规则在所述显示屏上同步显示基于实时音频数据生成的文本数据。
其中,所述视频录入装置包括第一摄像头和第二摄像头;
所述视频数据显示单元51,包括:
第一数据采集模块,用于指示第一摄像头实时采集所述声源用户的面部视频数据;
第二数据采集模块,用于指示第二摄像头实时采集全景视频数据;
数据显示模块,用于将所述面部视频数据和所述全景视频数据按照视频显示规则显示在显示屏上。
其中,所述音频数据显示单元52,包括:
语音识别模块,用于对所述实时音频数据进行语音识别得到文本数据;
文本翻译模块,用于按照设定语种实时翻译所述文本数据,以得到翻译数据;
同步显示模块,用于在所述显示屏上同步显示所述文本数据和所述翻译数据。
其中,所述装置,还包括:
文件生成单元,用于记录所述文本数据的生成时间,按照所述生成时间的先后顺序将所述文本数据和所述生成时间添加至文本记录文件。
其中,所述文本记录文件为可编辑文件。
其中,所述装置,还包括:
录制生成单元,用于实时录制所述显示屏中的显示数据和实时音频数据,生成视频文件,所述显示数据包括视频数据和同步显示的文本数据。
其中,所述音频数据显示单元52,包括:
弹幕显示模块,用于将所述基于实时音频数据生成的文本数据以弹幕的形式同步显示在所述显示屏中。
综上所述,上述组件的协同运转,通过在显示屏上实时显示视频录入装置获取的视频数据;将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到,通过对视频数据和实时音频数据的采集获得会议场景中的所有初始信息,再对初始信息进行深入挖掘和对应于初始信息的同步显示,将会议场景中产生的内容进行多维度的全面显示,提高了会议信息的利用率,也便于会议后对会议内容进行回溯查看。同时,明确具体发言用户,便于统计每次会议中员工活跃程度,以及每位员工的会议参与程度。文本记录文件设置为可编辑文件便于会议记录的整理。
实施例六
图6为本发明实施例六提供的一种音视频数据显示设备的结构图。如图6所示,该设备包括处理器60、存储器61、通信模块62、输入装置63和输出装置64;设备中处理器60的数量可以是一个或多个,图6中以一个处理器60为例;设备中的处理器60、存储器61、通信模块62、输入装置63和输出装置64可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本实施例中的一种音视频数据显示方法对应的模块(例如,一种音视频数据显示装置中的视频数据显示单元51和音频数据显示单元52)。处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的一种音视频数据显示方法。
存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器61可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
通信模块62,用于与显示屏建立连接,并实现与显示屏的数据交互。输入装置63可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入,如上述实施例中的麦克风等。输出装置64还可包括音箱等设备,也可包括其他可用于输出的装置。
本实施例提供的一种设备,可执行本发明任一实施例提供的音视频数据显示方法,具体相应的功能和有益效果。
实施例七
本发明实施例七还提供一种包含计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时用于实现如一种音视频数据显示方法,该音视频数据显示方法包括:
在显示屏上实时显示视频录入装置获取的视频数据;
将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
当然,本发明实施例所提供的一种包含计算机可读存储介质,其计算机可读存储介质实现不限于如上所述的音视频数据显示方法操作,还可以执行本发明任意实施例所提供的音视频数据显示方法中的相关操作,且具备相应的功能和有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的音视频数据显示方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (13)
1.一种音视频数据显示方法,其特征在于,包括;
在显示屏上实时显示视频录入装置获取的视频数据;
将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
2.根据权利要求1所述的音视频数据显示方法,其特征在于,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上之前,还包括:
确定所述音频录入装置在录入所述实时音频数据时的声源方向;
根据所述声源方向对视频录入装置获取的视频数据中相应用户面部图像进行识别,以确定声源用户。
3.根据权利要求1所述的音视频数据显示方法,其特征在于,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上之前,还包括:
识别实时音频数据的音频属性;
将所述音频属性与预设声源库中存储的预设音频属性进行匹配,以根据匹配结果确定声源用户。
4.据权利要求1所述的音视频数据显示方法,其特征在于,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上,包括:
确定实时音频数据对应的声源用户的文本显示规则;
按照所述文本显示规则在所述显示屏上同步显示基于实时音频数据生成的文本数据。
5.根据权利要求1所述的音视频数据显示方法,其特征在于,所述视频录入装置包括第一摄像头和第二摄像头;
所述在显示屏上实时显示视频录入装置获取的视频数据,包括:
指示第一摄像头实时采集所述声源用户的面部视频数据;
指示第二摄像头实时采集全景视频数据;
将所述面部视频数据和所述全景视频数据按照视频显示规则显示在显示屏上。
6.根据权利要求1所述的音视频数据显示方法,其特征在于,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上,包括:
对所述实时音频数据进行语音识别得到文本数据;
按照设定语种实时翻译所述文本数据,以得到翻译数据;
在所述显示屏上同步显示所述文本数据和所述翻译数据。
7.根据权利要求1所述的音视频数据显示方法,其特征在于,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上之后,还包括:
记录所述文本数据的生成时间,按照所述生成时间的先后顺序将所述文本数据和所述生成时间添加至文本记录文件。
8.根据权利要求7所述的音视频数据显示方法,其特征在于,所述文本记录文件为可编辑文件。
9.根据权利要求1所述的音视频数据显示方法,其特征在于,还包括:
实时录制所述显示屏中的显示数据和实时音频数据,生成视频文件,所述显示数据包括视频数据和同步显示的文本数据。
10.根据权利要求1所述的音视频数据显示方法,其特征在于,所述将基于实时音频数据生成的文本数据同步显示在所述显示屏上,包括:
将所述基于实时音频数据生成的文本数据以弹幕的形式同步显示在所述显示屏中。
11.一种音视频数据显示装置,其特征在于,包括;
视频数据显示单元,用于在显示屏上实时显示视频录入装置获取的视频数据;
音频数据显示单元,用于将基于实时音频数据生成的文本数据同步显示在所述显示屏上,所述实时音频数据通过音频录入装置对声源用户进行录音得到。
12.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一所述的音视频数据显示方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-10中任一所述的音视频数据显示方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810054746.9A CN108259801A (zh) | 2018-01-19 | 2018-01-19 | 音视频数据显示方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810054746.9A CN108259801A (zh) | 2018-01-19 | 2018-01-19 | 音视频数据显示方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108259801A true CN108259801A (zh) | 2018-07-06 |
Family
ID=62741615
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810054746.9A Pending CN108259801A (zh) | 2018-01-19 | 2018-01-19 | 音视频数据显示方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108259801A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108712624A (zh) * | 2018-08-08 | 2018-10-26 | 上海启诺信息科技有限公司 | 基于文字记录的录像存档装置及方法 |
CN109068089A (zh) * | 2018-09-30 | 2018-12-21 | 视联动力信息技术股份有限公司 | 一种会议数据生成方法和装置 |
CN109474797A (zh) * | 2019-01-04 | 2019-03-15 | 北京快鱼电子股份公司 | 基于全景摄像头和麦克风阵列的会议转录系统 |
CN109660744A (zh) * | 2018-10-19 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 基于大数据的智能双录方法、设备、存储介质及装置 |
CN110544491A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种实时关联说话人及其语音识别结果的方法及装置 |
CN111125055A (zh) * | 2019-11-22 | 2020-05-08 | 北京理工大学 | 一种可回溯的听力障碍者辅助对话系统 |
CN111243594A (zh) * | 2018-11-28 | 2020-06-05 | 海能达通信股份有限公司 | 一种音频转换文字的方法及装置 |
CN111953852A (zh) * | 2020-07-30 | 2020-11-17 | 北京声智科技有限公司 | 通话记录生成方法、装置、终端及存储介质 |
CN111988555A (zh) * | 2019-05-21 | 2020-11-24 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置、设备和机器可读介质 |
CN112532912A (zh) * | 2020-11-20 | 2021-03-19 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和电子设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102006453A (zh) * | 2010-11-30 | 2011-04-06 | 华为终端有限公司 | 视频信号的辅助信息叠加方法及装置 |
CN102572372A (zh) * | 2011-12-28 | 2012-07-11 | 中兴通讯股份有限公司 | 会议纪要的提取方法和装置 |
US9268398B2 (en) * | 2009-03-31 | 2016-02-23 | Voispot, Llc | Virtual meeting place system and method |
US20160197862A1 (en) * | 2009-01-15 | 2016-07-07 | Social Communications Company | Context based virtual area creation |
CN205692568U (zh) * | 2016-05-13 | 2016-11-16 | 中国共产党普洱市纪律检查委员会 | 创新工作室应用系统 |
CN106469553A (zh) * | 2015-08-13 | 2017-03-01 | 中兴通讯股份有限公司 | 语音识别方法及装置 |
-
2018
- 2018-01-19 CN CN201810054746.9A patent/CN108259801A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160197862A1 (en) * | 2009-01-15 | 2016-07-07 | Social Communications Company | Context based virtual area creation |
US9268398B2 (en) * | 2009-03-31 | 2016-02-23 | Voispot, Llc | Virtual meeting place system and method |
CN102006453A (zh) * | 2010-11-30 | 2011-04-06 | 华为终端有限公司 | 视频信号的辅助信息叠加方法及装置 |
CN102572372A (zh) * | 2011-12-28 | 2012-07-11 | 中兴通讯股份有限公司 | 会议纪要的提取方法和装置 |
CN106469553A (zh) * | 2015-08-13 | 2017-03-01 | 中兴通讯股份有限公司 | 语音识别方法及装置 |
CN205692568U (zh) * | 2016-05-13 | 2016-11-16 | 中国共产党普洱市纪律检查委员会 | 创新工作室应用系统 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108712624A (zh) * | 2018-08-08 | 2018-10-26 | 上海启诺信息科技有限公司 | 基于文字记录的录像存档装置及方法 |
CN109068089A (zh) * | 2018-09-30 | 2018-12-21 | 视联动力信息技术股份有限公司 | 一种会议数据生成方法和装置 |
CN109660744A (zh) * | 2018-10-19 | 2019-04-19 | 深圳壹账通智能科技有限公司 | 基于大数据的智能双录方法、设备、存储介质及装置 |
CN111243594A (zh) * | 2018-11-28 | 2020-06-05 | 海能达通信股份有限公司 | 一种音频转换文字的方法及装置 |
CN109474797A (zh) * | 2019-01-04 | 2019-03-15 | 北京快鱼电子股份公司 | 基于全景摄像头和麦克风阵列的会议转录系统 |
CN109474797B (zh) * | 2019-01-04 | 2023-12-08 | 北京快鱼电子股份公司 | 基于全景摄像头和麦克风阵列的会议转录系统 |
CN111988555A (zh) * | 2019-05-21 | 2020-11-24 | 阿里巴巴集团控股有限公司 | 一种数据处理方法、装置、设备和机器可读介质 |
CN111988555B (zh) * | 2019-05-21 | 2022-05-24 | 斑马智行网络(香港)有限公司 | 一种数据处理方法、装置、设备和机器可读介质 |
CN110544491A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种实时关联说话人及其语音识别结果的方法及装置 |
CN111125055A (zh) * | 2019-11-22 | 2020-05-08 | 北京理工大学 | 一种可回溯的听力障碍者辅助对话系统 |
CN111953852A (zh) * | 2020-07-30 | 2020-11-17 | 北京声智科技有限公司 | 通话记录生成方法、装置、终端及存储介质 |
CN112532912A (zh) * | 2020-11-20 | 2021-03-19 | 北京搜狗科技发展有限公司 | 一种视频处理方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108259801A (zh) | 音视频数据显示方法、装置、设备及存储介质 | |
US10735690B2 (en) | System and methods for physical whiteboard collaboration in a video conference | |
CN106782545B (zh) | 一种将音视频数据转化成文字记录的系统和方法 | |
CN107911646B (zh) | 一种会议分享、生成会议记录的方法及装置 | |
US8411130B2 (en) | Apparatus and method of video conference to distinguish speaker from participants | |
CN205647778U (zh) | 一种智能会议系统 | |
US7299405B1 (en) | Method and system for information management to facilitate the exchange of ideas during a collaborative effort | |
JP5003125B2 (ja) | 議事録作成装置及びプログラム | |
Mostefa et al. | The CHIL audiovisual corpus for lecture and meeting analysis inside smart rooms | |
US20100085415A1 (en) | Displaying dynamic caller identity during point-to-point and multipoint audio/videoconference | |
JP2005341015A (ja) | 議事録作成支援機能を有するテレビ会議システム | |
JP2006085440A (ja) | 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム | |
CN108141526A (zh) | 通信系统和方法 | |
WO1997001932A1 (en) | Method and apparatus for recording and indexing an audio and multimedia conference | |
JP2009510877A (ja) | 顔検出を利用したストリーミングビデオにおける顔アノテーション | |
US20130028574A1 (en) | Systems and methods for enriching audio/video recordings | |
WO2005027092A1 (ja) | 文書作成閲覧方法、文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム | |
Wu et al. | MoVieUp: Automatic mobile video mashup | |
US20240064271A1 (en) | System and method for augmented views in an online meeting | |
KR102575038B1 (ko) | 화상 회의 서비스 제공 장치 및 방법 | |
Truong et al. | A Tool for Navigating and Editing 360 Video of Social Conversations into Shareable Highlights. | |
JP2019139572A (ja) | 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム | |
KR101994044B1 (ko) | 스마트 회의 통합 시스템 | |
JP2015109612A (ja) | 画像音声再生システム及び画像音声再生方法とプログラム | |
KR20170074015A (ko) | 화상 회의 영상 편집 방법 및 이를 수행하기 위한 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180706 |
|
RJ01 | Rejection of invention patent application after publication |