CN105376515A - 用于视频通讯的通讯信息的呈现方法、装置及系统 - Google Patents

用于视频通讯的通讯信息的呈现方法、装置及系统 Download PDF

Info

Publication number
CN105376515A
CN105376515A CN201410445414.5A CN201410445414A CN105376515A CN 105376515 A CN105376515 A CN 105376515A CN 201410445414 A CN201410445414 A CN 201410445414A CN 105376515 A CN105376515 A CN 105376515A
Authority
CN
China
Prior art keywords
information
video
audio
spokesman
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410445414.5A
Other languages
English (en)
Other versions
CN105376515B (zh
Inventor
陈子冲
赵寅
吕培
周炯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201410445414.5A priority Critical patent/CN105376515B/zh
Priority to US14/830,057 priority patent/US9641801B2/en
Priority to EP15182248.3A priority patent/EP2993860B1/en
Priority to EP19178639.1A priority patent/EP3611897B1/en
Publication of CN105376515A publication Critical patent/CN105376515A/zh
Application granted granted Critical
Publication of CN105376515B publication Critical patent/CN105376515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1096Supplementary features, e.g. call forwarding or call holding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/40Visual indication of stereophonic sound image

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Television Signal Processing For Recording (AREA)
  • Closed-Circuit Television Systems (AREA)

Abstract

本发明实施例提供一种视频通讯中用于呈现通讯信息的方法,其特征在于,包括:控制采集视频通讯现场的音频信息与视频信息;根据音频信息判断视频通讯现场中的发言人的位置,发言人为视频通讯现场参加者中发言的人;根据发言人的位置从视频信息中获取发言视频信息,其中,发言视频信息为发言人在发言时段的视频信息;控制发言视频信息呈现。

Description

用于视频通讯的通讯信息的呈现方法、装置及系统
技术领域
本发明涉及通迅领域,尤其涉及用于视频通讯的音视频信息的呈现方法、装置及系统。
背景技术
现有用于视频会议的通讯技术中,一方会场的显示设备通常会显示另一方会场的所有参会人员,如另一方会场中的参会人员过多,会导致显示设备显示过多人员而不能重点突出正在发言的人。
因此,需要研究开发出一种通讯方法及系统克服上述缺陷。
发明内容
第一方面,本发明实施例提供了一种视频通讯中用于呈现通讯信息的方法,包括:控制采集所述视频通讯现场的音频信息与视频信息;根据所述音频信息判断所述视频通讯现场中的发言人的位置,所述发言人为为所述视频通讯现场参加者中发言的人,所述多个参加者为多个参加所述视频通讯的人;根据所述发言人的位置从所述视频信息中获取发言视频信息,其中,所述发言视频信息为所述发言人在所述发言时段的视频信息;控制所述发言视频信息呈现。
在第一方面的第一种可能的实现方式中,所述控制采集所述视频通讯现场的音频信息与视频信息包括:控制数个采集设备采集所述音频信息与所述视频信息,所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块,所述视频采集模块相对于所述音频采集模块的位置为预设的,所述音频采集模块采集所述多个参加者中一个或数个参加者的音频信息,所述视频采集模块采集所述一个或数个参加者的视频信息,所述音频采集模块采集的所述多个参加者中一个或数个参加者的音频信息构成所述音频信息中的一路音频信息,所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息;所述根据所述音频信息判断所述视频通讯现场中的发言人的位置包括:将所述音频信息中音量最大,音量超过音量阈值,且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息;及根据所述发言人的声音信息,判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置;所述根据所述发言人的位置从所述视频信息中获取发言视频信息包括:根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置,判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置;识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像,并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置;根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置,确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像;及从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中,提取所述发言时段中所述发言人的影像。
在第一方面的第二种可能的实现方式中,所述控制采集所述视频通讯现场的音频信息与视频信息包括:控制一个采集设备采集设备采集所述音频信息与所述视频信息,所述采集设备包括一个音频采集模块及一个视频采集模块,所述音频采集模块相对于所述视频采集模块的位置为预设的,所述音频采集模块采集所述音频信息,所述音频信息为所述多个参加者的音频信息,所述视频采集模块采集所述视频信息,所述视频信息为所述多个参加者的视频信息;所述根据所述音频信息判断所述视频通讯现场中的发言人的位置包括:根据所述音频信息,判断所述发言人相对于所述音频采集模块的位置;所述根据所述发言人的位置从所述视频信息中获取发言视频信息包括:根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置,判断所述发言人相对于所述视频采集模块的位置;识别出所述视频信息中的所述多个参加者的影像,并记录所述多个参加者的影像相对于所述视频采集模块的位置;根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置,确定所述视频信息中所述发言人的影像;及从所述视频信息中,提取所述发言时段中所述发言人的影像。
结合第一方面第一种可能的实现方式以及第二种可能的实现方式中的任意一种可能的实现方式,在第三种可能的实现方式中,其中,所述音频采集模块为麦克风阵列,其中,所述麦克风阵列包括至少两个麦克风。
结合第一方面,或者第一方面第一至第二种任意一种可能的实现方式,在第四种可能的实现方式中,所述控制所述发言视频信息呈现包括:控制所述发言视频信息实时呈现。
结合第一方面,或者第一方面第一至第二种任意一种可能的实现方式,在第五种可能的实现方式中,所述控制所述发言视频信息呈现包括:控制记录所述发言视频信息;及控制记录的所述发言视频信息在所述发言时段结束后呈现。
结合第一方面第五种可能的实现方式,在第六种可能的实现方式中,还包括:若所述发言人的音量低于音量最低阈值,且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值,则判断所述发言时段结束;或若收到发言结束信号,则判断所述发言时段结束。
结合第一方面第五种可能的实现方式以及第六种可能的实现方式中的任意一种可能的实现方式,在第七种可能的实现方式中,所述控制所述发言视频信息呈现还包括生成与所述发言视频信息对应的记录图标,所述控制记录的所述发言视频信息在所述发言时段结束后呈现包括根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放所述发言视频信息。
结合第一方面第七种可能的实现方式,在第八种可能的实现方式中,所述方法还包括根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放下列信息中的至少一种信息:发言音频信息及与所述发言音频信息对应的文本信息,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
结合第一方面第五种可能的实现方式、第一方面第六种可能的实现方式及第一方面第七种可能的实现方式中任意一种可能的实现方式,在第九种可能的实现方式中,还包括:在所述发言时段中,禁止发言音频信息及所述发言视频信息实时呈现,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
结合第一方面、第一方面第一种可能的实现方式、第一方面第二种可能的实现方式、第一方面第三种可能的实现方式及第一方面第四种可能的实现方式中任意一种可能的实现方式,在第十种可能的实现方式中,所述控制所述发言视频信息呈现包括:控制记录所述发言视频信息;接收指示信息,所述指示信息用于指示待播放的发言视频信息的时间范围;及控制呈现所述时间范围内的所述发言视频信息。
第二方面,本发明实施例提供了一种视频通讯中用于呈现通讯信息的装置,包括:控制采集模块,用于控制一个或多个采集设备采集所述视频通讯现场的音频信息与视频信息;判断模块,用于根据所述音频信息判断所述视频通讯现场中的发言人的位置,所述发言人为多个参加者中在发言时段发言的参加者,所述多个参加者为多个参加所述视频通讯的人;获取模块,用于根据所述发言人的位置从所述视频信息中获取发言视频信息,其中,所述发言视频信息为所述发言人在所述发言时段的视频信息;及控制呈现模块,用于控制所述发言视频信息呈现。
在第二方面的第一种可能的实现方式中,所述采集设备为数个,所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块,所述视频采集模块相对于所述音频采集模块的位置为预设的,所述音频采集模块采集所述多个参加者中一个或数个参加者的音频信息,所述视频采集模块采集所述一个或数个参加者的视频信息,所述音频采集模块采集的所述一个或数个参加者的音频信息构成所述音频信息中的一路音频信息,所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息;所述判断模块包括:选择模块,用于将所述音频信息中音量最大,音量超过音量阈值,且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息;及音频判位模块,用于根据所述发言人的声音信息,判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置;所述获取模块包括:视频判位模块,用于根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置,判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置;影像识别模块,用于识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像,并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置;影像确定模块,用于根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置,确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像;及影像提取模块,用于从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中,提取所述发言时段中所述发言人的影像。
在第二方面的第二种可能的实现方式中,所述一个采集设备包括一个音频采集模块及一个视频采集模块,所述音频采集模块相对于所述视频采集模块的位置为预设的,所述音频采集模块采集所述音频信息,所述音频信息包括所述多个参加者的音频信息,所述视频采集模块采集所述视频信息,所述视频信息包括所述多个参加者的视频信息;所述判断模块用于根据所述音频信息,判断所述发言人相对于所述音频采集模块的位置;所述获取模块包括:视频判位模块,用于根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置,判断所述发言人相对于所述视频采集模块的位置;影像识别模块,用于识别出所述视频信息中的所述多个参加者的影像,并记录所述多个参加者的影像相对于所述视频采集模块的位置;影像确定模块,用于根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置,确定所述视频信息中所述发言人的影像;及影像提取模块,用于从所述视频信息中,提取所述发言时段中所述发言人的影像。
在第二方面的第二种可能的实现方式,所述一个采集设备包括一个音频采集模块及一个视频采集模块,所述音频采集模块相对于所述视频采集模块的位置为预设的,所述音频采集模块采集所述音频信息,所述音频信息包括所述多个参加者的音频信息,所述视频采集模块采集所述视频信息,所述视频信息包括所述多个参加者的视频信息;所述判断模块用于根据所述音频信息,判断所述发言人相对于所述音频采集模块的位置;所述获取模块包括:视频判位模块,用于根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置,判断所述发言人相对于所述视频采集模块的位置;影像识别模块,用于识别出所述视频信息中的所述多个参加者的影像,并记录所述多个参加者的影像相对于所述视频采集模块的位置;影像确定模块,用于根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置,确定所述视频信息中所述发言人的影像;及影像提取模块,用于从所述视频信息中,提取所述发言时段中所述发言人的影像。
结合第二方面第一种可能的实现方式以及第二种可能的实现方式,在第三种可能的实现方式中,所述音频采集模块为麦克风阵列,其中,所述麦克风阵列包括至少两个麦克风。
结合第二方面,或者第二方面第一至第三种任意一种可能的实现方式,在第四种可能的实现方式中,所述控制呈现模块用于控制所述发言视频信息实时呈现。
结合第二方面,或者第二方面第一至第三种任意一种可能的实现方式,在第五种可能的实现方式中,所述控制呈现模块包括:记录模块,用于记录所述发言视频信息;及控制记录呈现模块,用于控制记录的所述发言视频信息在所述发言时段结束后呈现。
结合第二方面第五种可能的实现方式,在第六种可能的实现方式中,所述控制呈现模块还包括:发言结束判断模块,用于在所述发言人的音量低于音量最低阈值,且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值的情况下,判断所述发言时段结束;或用于在收到发言结束信号的情况下,判断所述发言时段结束。
结合第二方面第五到第六种中任意一种可能的实现方式,在第七种可能的实现方式中,所述记录模块还用于生成与所述发言视频信息对应的记录图标,所述控制记录呈现模块用于根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放所述发言视频信息。
结合第二方面第七种可能的实现方式中,在第八种可能的实现方式中,所述控制记录呈现模块还用于根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放下列信息中的至少一种信息:发言音频信息及与所述发言音频信息对应的文本信息,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
结合第二方面第五到第七种中任意一种可能的实现方式,在第九种可能的实现方式中,所述控制呈现模块还包括禁止实时呈现模块,用于禁止所述发言音频信息及所述发言视频信息实时呈现,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
结合第二方面第五种可能的实现方式,在第十种可能的实现方式中,所述控制记录呈现模块包括:时间接收模块,用于指示信息,所述指示信息用于指示;及信息呈现控制模块,用于控制呈现所述时间范围内的下列信息中的至少一种:所述发言视频信息、所述发言音频信息及与所述发言音频信息对应的文本信息,其中,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
第三方面,本发明实施例提供了一种视频通讯中用于呈现通讯信息的系统,包括:如第二方面、结合第二方面的第一种到第十种可能的实现方式中任一中的装置;采集设备,用于在所述装置的控制下采集所述音频信息与所述视频信息;及所述终端设备,用于在所述装置的控制下呈现所述发言视频信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例的视频通讯应用场景示意图;
图2是本发明第二实施例的视频通讯中用于呈现通讯信息的方法流程示意图;
图3是本发明第三实施例的视频通讯中用于呈现通讯信息的方法流程示意图;
图4是本发明第三实施例的视频通讯中用于呈现通讯信息的另一方法流程示意图;
图5是本发明第四实施例的视频通讯中用于呈现通讯信息的方法流程示意图;
图6是本发明第五实施例的视频通讯中用于呈现通讯信息的装置的结构示意图;
图7是本发明第五实施例中的控制呈现模块的结构示意图;
图8是本发明第五实施例中的控制呈现模块中的控制记录呈现模块的结构示意图;
图9是本发明第六实施例的视频通讯中用于呈现通讯信息的装置的结构示意图;
图10是本发明第六实施例中的判断模块的结构示意图;
图11是本发明第六实施例中的获取模块的结构示意图;
图12是本发明第七实施例的视频通讯中用于呈现通讯信息的装置的结构示意图;
图13是本发明第七实施例中的获取模块的结构示意图;
图14是本发明第八实施例的视频通讯中用于呈现通讯信息的系统的结构示意图;及
图15是本发明第九实施例的视频通讯中用于呈现通讯信息的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1是本发明第一实施例的视频通讯应用场景示意图。
该视频通讯应用场景为视频会议。该视频会议召开于主会场104、分会场106及分会场108间。视频会议系统包括控制中心102。控制中心102控制主会场104、分会场106及分会场108间的音频信息、视频信息以及会议材料等信息的传递与共享。主会场104中有主讲人E与参会人A-D,并包括终端设备(如屏幕、喇叭与键盘)110(喇叭与键盘未在图中示出)以及采集设备112、114、及120。分会场106中有参会人E-F,并包括终端设备(如笔记本电脑)140及采集设备142。分会场108中有参会人G,并包括终端/采集设备(如移动电话)160。在一个实施例中,主讲人与参会人都是参加者。在另一个实施例中,主讲人是与会者,参会人是参加者。采集设备112、114、120、142及160采集主讲人与各参会人的视频信息与音频信息。每一个采集设备均包括视频采集模块与音频采集模块,如摄像头与麦克风阵列。视频采集模块用于采集视频信息。音频采集模块用于采集音频信息。终端设备110、140及160呈现视频信息与音频信息,并接收主讲人或各参会人输入的信号。
控制中心102控制主会场104中的采集设备120采集主会场104中主讲人E的视频信息与音频信息。控制中心102控制主会场104中的采集设备112采集主会场104中参会人A及B的视频信息与音频信息,控制主会场104中的采集设备114采集主会场104中参会人C及D的视频信息与音频信息,控制分会场106中的采集设备142采集分会场106中参会人F及H的视频信息与音频信息,并控制分会场108中的采集设备160采集分会场108中参会人G的视频信息与音频信息。控控制中心102控制各采集设备将其采集到的视频信息与音频信息上传到控制中心102。
控制中心102可根据上述采集到的视频信息与音频信息,识别出发言人,并从上述视频信息中提取出仅包含发言人的视频信息,将其在主会场或各分会场的终端呈现。例如,若主会场104中的参会人C发言,则控制中心102控制仅包含发言的参会人C的视频信息分别在主会场104的终端设备110、分会场106的终端设备140及分会场108的终端设备160上呈现。若分会场106中的参会人F发言,则控制中心102控制仅包含发言的参会人F的视频信息分别在主会场104的终端设备110、分会场106的终端设备140及分会场108的终端设备160上呈现。若分会场108中的参会人G发言,控制中心102以类似方式呈现相应的视频信息。
由于仅呈现参会人中的发言人的视频信息,而非呈现所有参会人的视频信息,观看视频信息的参会人较容易将注意力集中在发言人而非其他参会人上。
控制中心102也控制主会场104的采集设备120将其采集到的主讲人的视频信息上传到控制中心102。在一个实施例中,无论主会场104中的主讲人是否发言,控制中心102还控制采集到的主讲人的视频信息分别在终端设备110、终端设备140及终端设备160上呈现。在另一个实施例中,只有当主会场104中的主讲人发言时,控制中心102才会控制采集到的主讲人的视频信息分别在终端设备110、终端设备140及终端设备160上呈现。
控制中心102对主会场104中的采集设备112、114及120、分会场106中的采集设备142以及分会场108中的采集设备160采集到的音频信息呈现于终端设备110、140及/或160。在一个实施例中,控制中心102先对各会场的各采集设备采集到的音频信息作混音处理,再将经过混音处理的音频信息呈现于终端设备110、140及/或160。
实施例二
图2是本发明第二实施例的视频通讯中用于呈现通讯信息的方法流程示意图。该方法包括:
在步骤S202中,控制中心102控制采集视频通讯现场(如主会场104、分会场106及/或108)中的音频信息与视频信息。
在步骤S204中,控制中心102根据采集到的音频信息判断视频通讯现场中的发言人的位置。发言人为为所述视频通讯现场参加者中发言的人。
在步骤S206中,控制中心102根据发言人的位置从采集到的视频信息中获取发言视频信息,其中,发言视频信息为发言人在发言时段的视频信息;
在步骤S208中,控制中心102控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
在一个实施例中,控制中心102控制发言视频信息在终端设备110、140及/或160上实时呈现。例如,主会场104中参会人C为发言人时,控制中心102控制包含参会人C的影像部分的发言视频信息在终端设备110、140及/或160上实时呈现。
在另一个实施例中,控制中心102控制记录发言视频信息,并控制记录的发言视频信息在发言时段结束后在终端设备110、140及/或160上呈现。具体而言,控制中心102记录发言视频信息,并生成与发言视频信息对应的记录图标,发言时段结束后,根据接收到的指示记录图标是否得到触碰的信号,控制开启播放或停止播放与记录图标对应的发言视频信息。更进一步地,在一个实施例中,控制中心102还根据接收到的指示记录图标是否得到触碰的信号,控制开启播放或停止播放下列信息中的至少一种信息:与记录图标对应的发言视频信息、发言音频信息及与发言音频信息对应的文本信息。发言音频信息是采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。文本信息例如是对发言音频信息的文字记录。由此,参会人可回溯视频通讯的内容。
在一个实施例中,判断发言时段结束的方式为:若发言人的音量低于音量最低阈值,且发言人的音量低于音量最低阈值的持续时间长于最长时间阈值,则判断发言时段结束;或若收到发言结束信号,例如是来自终端设备110、140或160的发言结束信号,则判断发言时段结束。
在一个实施例中,在另一参会人发言的过程当中,发言人可通过在终端设备110、140或160上进行操作启动静默发言模式。在静默发言模式中,在发言人发言的上述发言时段中,控制中心102禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现。发言音频信息为采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。具体地,在一个实施例中,发言人在终端设备上进行操作启动静默发言模式并开始发言。接受发言人的启动静默发言模式的操作后,该终端设备向控制中心102发送静默发言模式启动信号。控制中心102根据接收到的该静默发言模式启动信号,禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现,并同时控制采集该发言人的声音信息的采集设备记录该发言人的发言。发言人结束发言后,在终端设备110、140或160上进行操作以关闭静默发言模式。接受发言人的关闭静默发言模式的操作后,该终端设备向控制中心102发送静默发言模式关闭信号。控制中心102根据接收到的静默发言模式关闭信号,生成记录图标,使参会人可通过对该记录图标的触碰,控制播放该发言人在该静默发言模式中的发言的记录。
在一个实施例中,在采集设备112、114、120、142及160之中的各个采集设备与控制中心102之间的信息传输通道上,设置开关,使得开关导通时,该信息传输通道导通,在控制中心102的控制下,采集设备采集的视频信息与音频信息可上传到控制中心102,开关断开时,该信息传输通道断开,采集设备采集的视频信息与音频信息不能上传到控制中心102。该开关受静默发言模式信号控制。静默发言模式开启时,在静默发言模式信号控制下,在发言人发言的发言时段中,该开关断开,采集设备采集的视频信息与音频信息无法上传到控制中心102,本地采集设备记录下采集到的视频信息与音频信息。静默发言模式关闭后,该开关导通时,将记录下的视频信息与音频信息上传到控制中心102,且采集设备采集的视频信息与音频信息可上传到控制中心102。由此,发言人可在不打断另一在发言的参会人的发言的情况下,记录自己的发言,且在自己的发言结束后,各参会人可通过对相应记录图标的操作回溯自己的发言。
在一个实施例中,参会人可通过终端设备110、140或160输入一段时间范围,并输入相应的命令从而获得该段时间范围内的视频通讯中的信息。具体地,控制中心102记录发言视频信息,接收发自终端设备110、140或160的时间范围,并控制呈现接收的时间范围内的下列信息中的至少一种:发言视频信息、发言音频信息及与发言音频信息对应的文本信息。
在一个实施例中,参会人可通过终端设备110、140或160输入指定信号从而获得指定信号所指示的参会人在视频通讯中的信息。具体地,上述发言时段结束后,控制中心102接收发自终端设备110、140或160的指定信号。指定信号指示一个或数个参会人。控制中心102根据接收的指定信号,控制呈现指定信号所指示的一个或数个参会人作为发言人时的下列信息中的至少一种:发言视频信息、发言音频信息及与发言音频信息对应的文本信息。
在一个实施例中,参会人可通过终端设备110、140或160输入关键字,从而得到包含该关键字的与发言音频信息对应的文本信息。具体地,控制中心102接收发自终端设备110、140或160的关键字,并控制呈现包含该关键字的与各段发言音频信息对应的文本信息。
在一个实施例中,控制中心102通过建立如下数据库存储相关信息以实现如上三个实施例中的功能:
记录标志 开始时刻 结束时刻 发言人标志 文本信息
1 5:12 6:21 2 #行云流水#
2 11:22 11:58 1 ######
3 12:36 13:25 2 ##行云流水
实施例三
图3是本发明第三实施例的视频通讯中用于呈现通讯信息的方法流程示意图。该方法可用于第一实施例的主会场104中。该方法包括:
在步骤S302中,控制采集设备112及114采集音频信息与视频信息,采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A及B的音频信息。采集设备112中的音频采集模块所采集的参会人A及B的音频信息构成音频信息中的一路音频信息。采集设备114中的音频采集模块采集参会人C及D的音频信息。采集设备114中的音频采集模块所采集的参会人C及D的音频信息构成音频信息中的另一路音频信息。采集设备112中的视频采集模块采集参会人A及B的视频信息。采集设备112中的视频采集模块所采集的参会人A及B的视频信息构成视频信息中的一路视频信息。采集设备114中的视频采集模块采集参会人C及D的视频信息,采集设备114中的视频采集模块所采集的参会人C及D的视频信息构成视频信息中的另一路视频信息。在一个实施例中,每个音频采集模块为一个麦克风阵列。每个麦克风阵列至少包含两个麦克风。
步骤S302相当于实施例二中的步骤S202。
在步骤S304中,将音频信息中音量最大,音量超过音量阈值,且音量超过音量阈值的持续时间超过时间阈值的一路音频信息作为发言人的声音信息。
在步骤S306中,根据发言人的声音信息,判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中,利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中,麦克风阵列定位算法可参考R.O.Schmit,“Multipleemitterlocationandsignalparameterestimation,”IEEETransactionsonAntennasPropag.,vol.34no.3,pp.276-280,Mar.1986。
步骤S304及步骤S306相当于实施例二中的步骤S204。
在步骤S308中,根据发言人相对于采集发言人的声音信息的音频采集模块的位置及采集发言人的视频信息的视频采集模块相对于采集发言人的声音信息的音频采集模块的位置,判断发言人相对于采集发言人的视频信息的视频采集模块的位置。
在步骤S310中,识别出采集发言人的视频信息的视频采集模块采集的一路视频信息中的参会人的影像,并记录参会人的影像相对于采集发言人的视频信息的视频采集模块的位置。
在步骤S312中,根据发言人相对于采集发言人的视频信息的视频采集模块的位置及参会人的影像相对于采集发言人的视频信息的视频采集模块的位置,确定采集发言人的视频信息的视频采集模块采集的一路视频信息中发言人的影像。
在步骤S314中,从采集发言人的视频信息的视频采集模块采集的一路视频信息中,提取所述发言时段中所述发言人的影像。在一个实施例中,控制中心102可调用Bai,Xue,etal."Videosnapcut:robustvideoobjectcutoutusinglocalizedclassifiers."ACMTransactionsonGraphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像,抠除在发言时段中除发言人的影像以外的部分。
步骤S308、S310、S312及S314相当于实施例二中的步骤S206。
在步骤316中,控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
步骤S316相当于实施例二中的步骤S208。
如图4所示,在一个实施例中,每个采集设备中的音频采集模块及视频采集模块只采集一个参会人的音频信息及视频信息,如仅有参会人A及C参加视频通讯,没有参会人B及D参加视频通讯,则采集设备112仅采集参会人A的音频信息与视频信息,采集设备114仅采集参会人C的音频信息与视频信息。在此实施例中,每个音频采集模块可为一个麦克风。相应的呈现视频通讯中通讯信息的方法为:
在步骤S302’中,控制采集设备112及114采集音频信息与所述视频信息,采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A的音频信息。采集设备114中的音频采集模块采集参会人C的音频信息。采集设备112中的视频采集模块采集参会人A的视频信息。采集设备114中的视频采集模块采集参会人C的视频信息。
步骤S302’相当于实施例二中的步骤S202。
在步骤S304’中,将采集设备112及114采集到的音频信息中音量最大,音量超过音量阈值,且音量超过音量阈值的持续时间超过时间阈值的音频信息作为发言人的声音信息。
在步骤S306’中,判断发言人的声音信息来自采集设备112或114。
步骤S304’及步骤S306’相当于实施例二中的步骤S204。
在步骤S308’中,若发言人的声音信息来自采集设备112,则将采集设备112采集的视频信息作为发言视频信息。相似地,若发言人的声音信息来自采集设备114,则将采集设备114采集的视频信息作为发言视频信息。
步骤S308’相当于实施例二中的步骤S206。
在步骤310’中,控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
步骤S310’相当于实施例二中的步骤S208。
实施例四
图5是本发明第四实施例的视频通讯中用于呈现通讯信息的方法流程示意图。该方法可用于第一实施例的分会场106中。该方法包括:
在步骤S402中,控制一个采集设备142采集音频信息与视频信息。采集设备142包括一个音频采集模块及一个视频采集模块。音频采集模块相对于视频采集模块的位置为预设的。音频采集模块采集音频信息,音频信息包括参会人F及H的音频信息。在一个实施例中,音频采集模块为麦克风阵列。视频采集模块采集视频信息。视频信息包括参会人F及H的视频信息。
步骤S402相当于实施例二中的步骤S202。
在步骤S404中,根据音频信息,判断发言人相对于音频采集模块的位置。
步骤S404相当于实施例二中的步骤S204。
在步骤S406中,根据发言人相对于音频采集模块的位置及视频采集模块相对于音频采集模块的位置,判断发言人相对于视频采集模块的位置。在一个实施例中,利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中,麦克风阵列定位算法可参考R.O.Schmit,“Multipleemitterlocationandsignalparameterestimation,”IEEETransactionsonAntennasPropag.,vol.34no.3,pp.276-280,Mar.1986。
在步骤S408中,识别出视频信息中的参会人F及H的影像,并记录参会人F及H的影像相对于视频采集模块的位置;
在步骤S410中,根据发言人相对于视频采集模块的位置及多个参加者的影像相对于视频采集模块的位置,确定视频信息中发言人的影像。
在步骤S412中,从视频信息中,提取所述发言时段中所述发言人的影像。在一个实施例中,控制中心102可调用Bai,Xue,etal."Videosnapcut:robustvideoobjectcutoutusinglocalizedclassifiers."ACMTransactionsonGraphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像,抠除在发言时段中除发言人的影像以外的部分。
步骤S406、S408、S410及S412相当于实施例二中步骤S206。
在步骤S414中,控制中心102控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
步骤S414相当于实施例二中的步骤S208。
实施例五
图6是本发明第五实施例的视频通讯中用于呈现通讯信息的装置的结构示意图500。
该装置包括控制采集模块502、判断模块504、获取模块506及控制呈现模块508。控制采集模块502用于控制一个或多个采集设备采集视频通讯现场的音频信息与视频信息。判断模块504用于根据音频信息判断视频通讯现场中的发言人的位置。发言人为所述视频通讯现场中参加者中发言的人。获取模块506用于根据发言人的位置从视频信息中获取发言视频信息。其中,发言视频信息为发言人在发言时段的视频信息。控制呈现模块508用于控制发言视频信息呈现。
在一个实施例中,控制呈现模块508控制发言视频信息实时呈现。
在另一个实施例中,如图7所示,控制呈现模块508包括记录模块508A及控制记录呈现模块508B。记录模块508A记录发言视频信息。控制记录呈现模块508B控制记录的发言视频信息在发言时段结束后呈现。在一个实施例中,控制呈现模块508还包括发言结束判断模块508C。发言结束判断模块508C在发言人的音量低于音量最低阈值,且发言人的音量低于音量最低阈值的持续时间长于最长时间阈值的情况下,判断发言时段结束;或在收到发言结束信号的情况下,判断发言时段结束。
在一个实施例中,记录模块508A还生成与发言视频信息对应的记录图标,控制记录呈现模块508B还根据接收到的指示记录图标是否得到触碰的信号,控制开启播放或停止播放发言视频信息。在一个实施例中,控制记录呈现模块508B还根据接收到的指示记录图标是否得到触碰的信号,控制开启播放或停止播放下列信息中的至少一种信息:发言音频信息及与发言音频信息对应的文本信息。发言音频信息为音频信息中在发言时段中的音频信息。在另一个实施例中,如图8所示,控制记录呈现模块508B包括:时间接收模块508BA及信息呈现控制模块508BB。时间接收模块508BA接收指示信息。指示信息用于指示时间范围。信息呈现控制模块508BB控制呈现接收的时间范围内的下列信息中的至少一种:发言视频信息、发言音频信息及与发言音频信息对应的文本信息。发言音频信息为音频信息中在发言时段中的音频信息。
在一个实施例中,控制呈现模块508还包括禁止实时呈现模块508D。禁止实时呈现模块508D禁止发言音频信息及发言视频信息实时呈现。发言音频信息为音频信息中在发言时段中的音频信息。
实施例六
图9是本发明第六实施例的视频通讯中用于呈现通讯信息的装置的结构示意图600。
该装置包括控制采集模块602、判断模块604、获取模块606及控制呈现模块608。控制采集模块602用于控制采集视频通讯现场的音频信息与视频信息。具体地,控制采集模块602用于控制采集模块用于控制数个采集设备采集音频信息与视频信息。数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块。在一个实施例中,音频采集模块为麦克风阵列。麦克风阵列包括至少两个麦克风。视频采集模块相对于所述音频采集模块的位置为预设的。音频采集模块采集多个参加者中一个或数个参加者的音频信息。视频采集模块采集一个或数个参加者的视频信息。音频采集模块采集的一个或数个参加者的音频信息构成音频信息中的一路音频信息。视频采集模块采集的一个或数个参加者的视频信息构成所述视频信息中的一路视频信息。
判断模块604用于根据音频信息判断视频通讯现场中的发言人的位置。具体地,如图10所示,判断模块604包括选择模块604A及音频判位模块604B。选择模块604A用于将音频信息中音量最大,音量超过音量阈值,且音量超过音量阈值的持续时间超过时间阈值的一路音频信息作为发言人的声音信息。音频判位模块604B用于根据发言人的声音信息,判断发言人相对于采集发言人的声音信息的音频采集模块的位置。
获取模块606用于根据发言人的位置从视频信息中获取发言视频信息。具体地,如图11所示,获取模块606包括视频判位模块606A、影像识别模块606B、影像确定模块606C及影像提取模块606D。视频判位模块606A用于根据发言人相对于采集发言人的声音信息的音频采集模块的位置及采集发言人的视频信息的视频采集模块相对于采集发言人的声音信息的音频采集模块的位置,判断发言人相对于采集发言人的视频信息的视频采集模块的位置。影像识别模块606B用于识别出采集发言人的视频信息的视频采集模块采集的一路视频信息中的一个或数个参加者的影像,并记录一个或数个参加者的影像相对于采集发言人的视频信息的视频采集模块的位置。影像确定模块606C用于根据发言人相对于采集发言人的视频信息的视频采集模块的位置及一个或数个参加者的影像相对于采集发言人的视频信息的视频采集模块的位置,确定采集发言人的视频信息的视频采集模块采集的一路视频信息中发言人的影像。影像提取模块606D用于从采集发言人的视频信息的视频采集模块采集的一路视频信息中,提取所述发言时段中所述发言人的影像。
控制呈现模块608用于控制发言视频信息呈现。
实施例七
图12是本发明第七实施例的视频通讯中用于呈现通讯信息的装置的结构示意图700。
该装置包括控制采集模块702、判断模块704、获取模块706及控制呈现模块708。具体地,控制采集模块702控制一个采集设备采集音频信息与视频信息。一个采集设备包括一个用于采集视频通讯现场的音频信息的音频采集模块及一个用于采集视频通讯现场参加者的影像的视频采集模块。音频采集模块相对于所述视频采集模块的位置为预设的。在一个实施例中,音频采集模块为麦克风阵列。麦克风阵列包括至少两个麦克风。
判断模块704根据音频信息,判断发言人相对于音频采集模块的位置。
如图13所示,获取模块706包括:视频判位模块706A、影像识别模块706B、影像确定模块706C及影像提取模块706D。视频判位模块706A根据发言人相对于音频采集模块的位置及视频采集模块相对于音频采集模块的位置,判断发言人相对于视频采集模块的位置。影像识别模块706B识别出视频信息中的参加者的影像,并记录参加者的影像相对于视频采集模块的位置。影像确定模块706C根据发言人相对于视频采集模块的位置及多个参加者的影像相对于视频采集模块的位置,确定视频信息中所述发言人的影像。影像提取模块706D从视频信息中,提取所述发言时段中所述发言人的影像。
实施例八
图14是本发明第八实施例的视频通讯中用于呈现通讯信息的系统的结构示意图800。该系统包括第五至第八实施例中任一实施例中的装置802、采集设备804及终端设备806。其中,采集设备804在装置802的控制下采集音频信息与视频信息。终端设备806在装置802的控制下呈现发言视频信息。
实施例九
图15是本发明第九实施例的视频通讯中用于呈现通讯信息的装置的结构示意图900。本实施例将结合实施例一至八进行描述。
在本实施例中,装置包括CPU(CentralProcessUnit,中央处理单元)902、存储器904及收发器906。存储器904用于存储指令。收发器906用于接收输入的信号。CPU902用于控制采集视频通讯现场(如主会场104、分会场106及/或108)中的音频信息与视频信息,并根据采集到的音频信息判断视频通讯现场中的发言人的位置,发言人为为所述视频通讯现场参加者中发言的人,再根据发言人的位置从采集到的视频信息中获取发言视频信息,其中,发言视频信息为发言人在发言时段的视频信息;最后控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
在一个实施例中,CPU902控制发言视频信息在终端设备110、140及/或160上实时呈现。例如,主会场104中参会人C为发言人时,控制中心102控制包含参会人C的影像部分的发言视频信息在终端设备110、140及/或160上实时呈现。
在另一个实施例中,CPU902控制记录发言视频信息,并控制记录的发言视频信息在发言时段结束后在终端设备110、140及/或160上呈现。具体而言,CPU902记录发言视频信息,并生成与发言视频信息对应的记录图标,发言时段结束后,根据收发器906接收到的指示记录图标是否得到触碰的信号,控制开启播放或停止播放与记录图标对应的发言视频信息。更进一步地,在一个实施例中,CPU902还根据收发器906接收到的指示记录图标是否得到触碰的信号,控制开启播放或停止播放下列信息中的至少一种信息:与记录图标对应的发言视频信息、发言音频信息及与发言音频信息对应的文本信息。发言音频信息是采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。文本信息例如是对发言音频信息的文字记录。由此,参会人可回溯视频通讯的内容。
在一个实施例中,判断发言时段结束的方式为:若发言人的音量低于音量最低阈值,且发言人的音量低于音量最低阈值的持续时间长于最长时间阈值,则判断发言时段结束;或若收到发言结束信号,例如是来自收发器906的发言结束信号,则判断发言时段结束。
在一个实施例中,在另一参会人发言的过程当中,发言人可通过在终端设备110、140或160上进行操作启动静默发言模式。在静默发言模式中,在发言人发言的上述发言时段中,收发器906禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现。发言音频信息为采集到的视频通讯现场的音频信息中在上述发言时段中的音频信息。具体地,在一个实施例中,发言人在终端设备上进行操作启动静默发言模式并开始发言。接受发言人的启动静默发言模式的操作后,该终端设备向收发器906发送静默发言模式启动信号。CPU902根据收发器906接收到的该静默发言模式启动信号,禁止发言人的发言音频信息及发言视频信息在各终端设备上实时呈现,并同时控制采集该发言人的声音信息的采集设备记录该发言人的发言。发言人结束发言后,在终端设备110、140或160上进行操作以关闭静默发言模式。接受发言人的关闭静默发言模式的操作后,该终端设备向收发器906发送静默发言模式关闭信号。CPU902根据收发器906接收到的静默发言模式关闭信号,生成记录图标,使参会人可通过对该记录图标的触碰,控制播放该发言人在该静默发言模式中的发言的记录。
在一个实施例中,在采集设备112、114、120、142及160之中的各个采集设备与装置之间的信息传输通道上,设置开关,使得开关导通时,该信息传输通道导通,在CPU902的控制下,采集设备采集的视频信息与音频信息可上传到收发器906,开关断开时,该信息传输通道断开,采集设备采集的视频信息与音频信息不能上传到收发器906。该开关受静默发言模式信号控制。静默发言模式开启时,在静默发言模式信号控制下,在发言人发言的发言时段中,该开关断开,采集设备采集的视频信息与音频信息无法上传到收发器906,本地采集设备记录下采集到的视频信息与音频信息。静默发言模式关闭后,该开关导通时,将记录下的视频信息与音频信息上传到收发器906,且采集设备采集的视频信息与音频信息可上传到收发器906。由此,发言人可在不打断另一在发言的参会人的发言的情况下,记录自己的发言,且在自己的发言结束后,各参会人可通过对相应记录图标的操作回溯自己的发言。
在一个实施例中,参会人可通过终端设备110、140或160输入一段时间范围,并输入相应的命令从而获得该段时间范围内的视频通讯中的信息。具体地,CPU902记录发言视频信息。收发器906接收发自终端设备110、140或160的时间范围。CPU902控制呈现接收的时间范围内的下列信息中的至少一种:发言视频信息、发言音频信息及与发言音频信息对应的文本信息。
在一个实施例中,参会人可通过终端设备110、140或160输入指定信号从而获得指定信号所指示的参会人在视频通讯中的信息。具体地,上述发言时段结束后,收发器906接收发自终端设备110、140或160的指定信号。指定信号指示一个或数个参会人。CPU902根据收发器906接收的指定信号,控制呈现指定信号所指示的一个或数个参会人作为发言人时的下列信息中的至少一种:发言视频信息、发言音频信息及与发言音频信息对应的文本信息。
在一个实施例中,参会人可通过终端设备110、140或160输入关键字,从而得到包含该关键字的与发言音频信息对应的文本信息。具体地,收发器906接收发自终端设备110、140或160的关键字,CPU902控制呈现包含该关键字的与各段发言音频信息对应的文本信息。
在一个实施例中,CPU902通过在存储器904中建立如下数据库存储相关信息以实现如上三个实施例中的功能:
记录标志 开始时刻 结束时刻 发言人标志 文本信息
1 5:12 6:21 2 #行云流水#
2 11:22 11:58 1 ######
3 12:36 13:25 2 ##行云流水
在一个实施例中,CPU902控制采集设备112及114采集音频信息与视频信息,采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A及B的音频信息。采集设备112中的音频采集模块所采集的参会人A及B的音频信息构成音频信息中的一路音频信息。采集设备114中的音频采集模块采集参会人C及D的音频信息。采集设备114中的音频采集模块所采集的参会人C及D的音频信息构成音频信息中的另一路音频信息。采集设备112中的视频采集模块采集参会人A及B的视频信息。采集设备112中的视频采集模块所采集的参会人A及B的视频信息构成视频信息中的一路视频信息。采集设备114中的视频采集模块采集参会人C及D的视频信息,采集设备114中的视频采集模块所采集的参会人C及D的视频信息构成视频信息中的另一路视频信息。在一个实施例中,每个音频采集模块为一个麦克风阵列。每个麦克风阵列至少包含两个麦克风。
CPU902音频信息中音量最大,音量超过音量阈值,且音量超过音量阈值的持续时间超过时间阈值的一路音频信息作为发言人的声音信息。
CPU902根据发言人的声音信息,判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中,利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中,麦克风阵列定位算法可参考R.O.Schmit,“Multipleemitterlocationandsignalparameterestimation,”IEEETransactionsonAntennasPropag.,vol.34no.3,pp.276-280,Mar.1986。
CPU902根据发言人相对于采集发言人的声音信息的音频采集模块的位置及采集发言人的视频信息的视频采集模块相对于采集发言人的声音信息的音频采集模块的位置,判断发言人相对于采集发言人的视频信息的视频采集模块的位置。
CPU902识别出采集发言人的视频信息的视频采集模块采集的一路视频信息中的参会人的影像,并记录参会人的影像相对于采集发言人的视频信息的视频采集模块的位置。
CPU902根据发言人相对于采集发言人的视频信息的视频采集模块的位置及参会人的影像相对于采集发言人的视频信息的视频采集模块的位置,确定采集发言人的视频信息的视频采集模块采集的一路视频信息中发言人的影像。
CPU902从采集发言人的视频信息的视频采集模块采集的一路视频信息中,提取所述发言时段中所述发言人的影像。在一个实施例中,控制中心102可调用Bai,Xue,etal."Videosnapcut:robustvideoobjectcutoutusinglocalizedclassifiers."ACMTransactionsonGraphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像,抠除在发言时段中除发言人的影像以外的部分。
CPU902控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
在另一个实施例中,每个采集设备中的音频采集模块及视频采集模块只采集一个参会人的音频信息及视频信息,如仅有参会人A及C参加视频通讯,没有参会人B及D参加视频通讯,则采集设备112仅采集参会人A的音频信息与视频信息,采集设备114仅采集参会人C的音频信息与视频信息。在此实施例中,每个音频采集模块可为一个麦克风。
CPU902控制采集设备112及114采集音频信息与所述视频信息,采集设备112及114中的每个采集设备包括一个音频采集模块及一个视频采集模块。视频采集模块相对于音频采集模块的位置为预设的。采集设备112中的音频采集模块采集参会人A的音频信息。采集设备114中的音频采集模块采集参会人C的音频信息。采集设备112中的视频采集模块采集参会人A的视频信息。采集设备114中的视频采集模块采集参会人C的视频信息。
CPU902将采集设备112及114采集到的音频信息中音量最大,音量超过音量阈值,且音量超过音量阈值的持续时间超过时间阈值的音频信息作为发言人的声音信息。
CPU902判断发言人的声音信息来自采集设备112或114。
CPU902若发言人的声音信息来自采集设备112,则将采集设备112采集的视频信息作为发言视频信息。相似地,若发言人的声音信息来自采集设备114,则将采集设备114采集的视频信息作为发言视频信息。
CPU902控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
在一个实施例中,CPU902控制一个采集设备142采集音频信息与视频信息。采集设备142包括一个音频采集模块及一个视频采集模块。音频采集模块相对于视频采集模块的位置为预设的。音频采集模块采集音频信息,音频信息包括参会人F及H的音频信息。在一个实施例中,音频采集模块为麦克风阵列。视频采集模块采集视频信息。视频信息包括参会人F及H的视频信息。
CPU902根据音频信息,判断发言人相对于音频采集模块的位置。
CPU902根据发言人相对于音频采集模块的位置及视频采集模块相对于音频采集模块的位置,判断发言人相对于视频采集模块的位置。在一个实施例中,利用麦克风阵列定位算法判断发言人相对于采集发言人的声音信息的音频采集模块的位置。在一个实施例中,麦克风阵列定位算法可参考R.O.Schmit,“Multipleemitterlocationandsignalparameterestimation,”IEEETransactionsonAntennasPropag.,vol.34no.3,pp.276-280,Mar.1986。
CPU902识别出视频信息中的参会人F及H的影像,并记录参会人F及H的影像相对于视频采集模块的位置;
CPU902根据发言人相对于视频采集模块的位置及多个参加者的影像相对于视频采集模块的位置,确定视频信息中发言人的影像。
CPU902从视频信息中,提取所述发言时段中所述发言人的影像。在一个实施例中,控制中心102可调用Bai,Xue,etal."Videosnapcut:robustvideoobjectcutoutusinglocalizedclassifiers."ACMTransactionsonGraphics(TOG).Vol.28.No.3.ACM,2009中所公开的视频抠图算法保留在发言时段中发言人的影像,抠除在发言时段中除发言人的影像以外的部分。
CPU902控制发言视频信息在终端设备(如主会场104的终端设备110、分会场106的终端设备140及/或分会场108的终端设备160)上呈现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (23)

1.一种视频通讯中用于呈现通讯信息的方法,其特征在于,包括:
控制采集所述视频通讯现场的音频信息与视频信息;
根据所述音频信息判断所述视频通讯现场中的发言人的位置,所述发言人为所述视频通讯现场参加者中发言的人;
根据所述发言人的位置从所述视频信息中获取发言视频信息,其中,所述发言视频信息为所述发言人在发言时段的视频信息;
控制所述发言视频信息呈现。
2.如权利要求1所述的方法,其特征在于,所述控制采集所述视频通讯现场的音频信息与视频信息包括:
控制数个采集设备采集所述音频信息与所述视频信息,所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块,所述视频采集模块相对于所述音频采集模块的位置为预设的,所述音频采集模块采集所述多个参加者中一个或数个参加者的音频信息,所述视频采集模块采集所述一个或数个参加者的视频信息,所述音频采集模块采集的所述多个参加者中一个或数个参加者的音频信息构成所述音频信息中的一路音频信息,所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息;
所述根据所述音频信息判断所述视频通讯现场中的发言人的位置包括:
将所述音频信息中音量最大,音量超过音量阈值,且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息;及
根据所述发言人的声音信息,判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置;
所述根据所述发言人的位置从所述视频信息中获取发言视频信息包括:
根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置,判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置;
识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像,并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置;
根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置,确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像;及
从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中,提取所述发言时段中所述发言人的影像。
3.如权利要求1所述的方法,其特征在于,所述控制采集所述视频通讯现场的音频信息与视频信息包括:
控制一个采集设备采集设备采集所述音频信息与所述视频信息,所述采集设备包括一个音频采集模块及一个视频采集模块,所述音频采集模块相对于所述视频采集模块的位置为预设的,所述音频采集模块采集所述音频信息,所述音频信息为所述多个参加者的音频信息,所述视频采集模块采集所述视频信息,所述视频信息为所述多个参加者的视频信息;
所述根据所述音频信息判断所述视频通讯现场中的发言人的位置包括:
根据所述音频信息,判断所述发言人相对于所述音频采集模块的位置;
所述根据所述发言人的位置从所述视频信息中获取发言视频信息包括:
根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置,判断所述发言人相对于所述视频采集模块的位置;
识别出所述视频信息中的所述多个参加者的影像,并记录所述多个参加者的影像相对于所述视频采集模块的位置;
根据所述发言人相对于所述视频采集模块的位置及所述多个参加者的影像相对于所述视频采集模块的位置,确定所述视频信息中所述发言人的影像;及
从所述视频信息中,提取所述发言时段中所述发言人的影像。
4.如权利要求2或3所述的方法,其特征在于,其中,所述音频采集模块为麦克风阵列,其中,所述麦克风阵列包括至少两个麦克风。
5.如权利要求1-3中任一所述的方法,其特征在于,所述控制所述发言视频信息呈现包括:控制所述发言视频信息实时呈现。
6.如权利要求1-3中任一所述的方法,其特征在于,所述控制所述发言视频信息呈现包括:
控制记录所述发言视频信息;及
控制记录的所述发言视频信息在所述发言时段结束后呈现。
7.如权利要求6所述的方法,其特征在于,还包括:
若所述发言人的音量低于音量最低阈值,且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值,则判断所述发言时段结束;或
若收到发言结束信号,则判断所述发言时段结束。
8.如权利要求6或7所述的方法,其特征在于,所述控制所述发言视频信息呈现还包括:生成与所述发言视频信息对应的记录图标,所述控制记录的所述发言视频信息在所述发言时段结束后呈现包括:根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放所述发言视频信息。
9.如权利要求8所述的方法,其特征在于,所述方法还包括:根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放下列信息中的至少一种信息:发言音频信息及与所述发言音频信息对应的文本信息,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
10.如权利要求6-8中任一所述的方法,其特征在于,还包括:在所述发言时段中,禁止发言音频信息及所述发言视频信息实时呈现,所述发言音频信息为所述音频信息中在所述发言时段中的信息。
11.如权利要求1-5中任一所述的方法,其特征在于,所述控制所述发言视频信息呈现包括:
控制记录所述发言视频信息;
接收指示信息,所述指示信息用于指示待播放的发言视频信息的时间范围;及
控制呈现所述时间范围内的所述发言视频信息。
12.一种视频通讯中用于呈现通讯信息的装置,其特征在于,包括:
控制采集模块,用于控制一个或多个采集设备采集所述视频通讯现场的音频信息与视频信息;
判断模块,用于根据所述音频信息或利用所述采集设备根据所述音频信息判断所述视频通讯现场中的发言人的位置,所述发言人为所述视频通讯现场中参加者中发言的人;
获取模块,用于根据所述发言人的位置从所述视频信息中获取发言视频信息,其中,所述发言视频信息为所述发言人在发言时段的视频信息;及
控制呈现模块,用于控制所述发言视频信息呈现。
13.如权利要求12所述的装置,其特征在于,所述采集设备为数个,所述数个采集设备中的每个采集设备包括一个音频采集模块及一个视频采集模块,所述视频采集模块相对于所述音频采集模块的位置为预设的,所述音频采集模块采集所述多个参加者中一个或数个参加者的音频信息,所述视频采集模块采集所述一个或数个参加者的视频信息,所述音频采集模块采集的所述一个或数个参加者的音频信息构成所述音频信息中的一路音频信息,所述视频采集模块采集的所述一个或数个参加者的视频信息构成所述视频信息中的一路视频信息;
所述判断模块包括:
选择模块,用于将所述音频信息中音量最大,音量超过音量阈值,且所述音量超过所述音量阈值的持续时间超过时间阈值的一路音频信息作为所述发言人的声音信息;及
音频判位模块,用于根据所述发言人的声音信息,判断所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置;
所述获取模块包括:
视频判位模块,用于根据所述发言人相对于采集所述发言人的声音信息的音频采集模块的位置及采集所述发言人的视频信息的视频采集模块相对于采集所述发言人的声音信息的音频采集模块的位置,判断所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置;
影像识别模块,用于识别出采集所述发言人的视频信息的视频采集模块采集的一路视频信息中的所述一个或数个参加者的影像,并记录所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置;
影像确定模块,用于根据所述发言人相对于采集所述发言人的视频信息的视频采集模块的位置及所述一个或数个参加者的影像相对于采集所述发言人的视频信息的视频采集模块的位置,确定采集所述发言人的视频信息的视频采集模块采集的一路视频信息中所述发言人的影像;及
影像提取模块,用于从采集所述发言人的视频信息的视频采集模块采集的一路视频信息中,提取所述发言时段中所述发言人的影像。
14.如权利要求12所述的装置,其特征在于,所述一个采集设备包括一个用于采集视频通讯现场的音频信息的音频采集模块及一个用于采集视频通讯现场参加者的影像的视频采集模块,所述音频采集模块相对于所述视频采集模块的位置为预设的;
所述判断模块用于根据所述音频信息,判断所述发言人相对于所述音频采集模块的位置;
所述获取模块包括:
视频判位模块,用于根据所述发言人相对于所述音频采集模块的位置及所述视频采集模块相对于所述音频采集模块的位置,判断所述发言人相对于所述视频采集模块的位置;
影像识别模块,用于识别出所述视频信息中的参加者的影像,并记录所述参加者的影像相对于所述视频采集模块的位置;
影像确定模块,用于根据所述发言人相对于所述视频采集模块的位置及所述参加者的影像相对于所述视频采集模块的位置,确定所述视频信息中所述发言人的影像;及
影像提取模块,用于从所述视频信息中,提取所述发言人在所述发言时段的影像。
15.如权利要求13或14所述的装置,其特征在于,所述音频采集模块为麦克风阵列,其中,所述麦克风阵列包括至少两个麦克风。
16.如权利要求12-15中任一所述的方法,其特征在于,所述控制呈现模块用于控制所述发言视频信息实时呈现。
17.如权利要求12-15中任一所述的装置,其特征在于,所述控制呈现模块包括:
记录模块,用于记录所述发言视频信息;及
控制记录呈现模块,用于控制记录的所述发言视频信息在所述发言时段结束后呈现。
18.如权利要求17所述的装置,其特征在于,所述控制呈现模块还包括:
发言结束判断模块,用于在所述发言人的音量低于音量最低阈值,且所述发言人的音量低于音量最低阈值的持续时间长于最长时间阈值的情况下,判断所述发言时段结束;或用于在收到发言结束信号的情况下,判断所述发言时段结束。
19.如权利要求17-18中任一所述的装置,其特征在于,所述记录模块还用于生成与所述发言视频信息对应的记录图标,所述控制记录呈现模块用于根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放所述发言视频信息。
20.如权利要求19所述的装置,其特征在于,所述控制记录呈现模块还用于根据接收到的指示所述记录图标是否得到触碰的信号,控制开启播放或停止播放下列信息中的至少一种信息:发言音频信息及与所述发言音频信息对应的文本信息,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
21.如权利要求17-19中任一所述的装置,其特征在于,所述控制呈现模块还包括禁止实时呈现模块,用于禁止所述发言音频信息及所述发言视频信息实时呈现,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
22.如权利要求17所述的装置,其特征在于,所述控制记录呈现模块包括:
时间接收模块,用于接收指示信息,所述指示信息用于指示时间范围;及
信息呈现控制模块,用于控制呈现所述时间范围内的下列信息中的至少一种:所述发言视频信息、所述发言音频信息及与所述发言音频信息对应的文本信息,其中,所述发言音频信息为所述音频信息中在所述发言时段中的音频信息。
23.一种视频通讯中用于呈现通讯信息的系统,其特征在于,包括:
如权利要求12-22中任一所述的装置;
采集设备,用于在所述装置的控制下采集所述音频信息与所述视频信息;及
所述终端设备,用于在所述装置的控制下呈现所述发言视频信息。
CN201410445414.5A 2014-09-02 2014-09-02 用于视频通讯的通讯信息的呈现方法、装置及系统 Active CN105376515B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201410445414.5A CN105376515B (zh) 2014-09-02 2014-09-02 用于视频通讯的通讯信息的呈现方法、装置及系统
US14/830,057 US9641801B2 (en) 2014-09-02 2015-08-19 Method, apparatus, and system for presenting communication information in video communication
EP15182248.3A EP2993860B1 (en) 2014-09-02 2015-08-25 Method, apparatus, and system for presenting communication information in video communication
EP19178639.1A EP3611897B1 (en) 2014-09-02 2015-08-25 Method, apparatus, and system for presenting communication information in video communication

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410445414.5A CN105376515B (zh) 2014-09-02 2014-09-02 用于视频通讯的通讯信息的呈现方法、装置及系统

Publications (2)

Publication Number Publication Date
CN105376515A true CN105376515A (zh) 2016-03-02
CN105376515B CN105376515B (zh) 2019-03-19

Family

ID=54011594

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410445414.5A Active CN105376515B (zh) 2014-09-02 2014-09-02 用于视频通讯的通讯信息的呈现方法、装置及系统

Country Status (3)

Country Link
US (1) US9641801B2 (zh)
EP (2) EP3611897B1 (zh)
CN (1) CN105376515B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920127A (zh) * 2018-06-26 2018-11-30 广州视源电子科技股份有限公司 目标音量阈值确定方法、装置、设备和存储介质
WO2019011246A1 (zh) * 2017-07-11 2019-01-17 中兴通讯股份有限公司 多媒体会议终端的控制方法及多媒体会议服务器
WO2019033968A1 (zh) * 2017-08-16 2019-02-21 华为技术有限公司 摄像跟踪方法、装置及设备
CN109474881A (zh) * 2018-01-22 2019-03-15 国网浙江桐乡市供电有限公司 一种三维实景配现场音的方法及系统
CN109547732A (zh) * 2018-12-19 2019-03-29 深圳银澎云计算有限公司 一种音视频处理方法、装置、服务器及视频会议系统
CN109714603A (zh) * 2017-10-25 2019-05-03 北京展视互动科技有限公司 多路音视频直播的方法及装置
CN109845246A (zh) * 2016-10-20 2019-06-04 索尼公司 信息处理装置、信息处理方法、程序和通信系统
CN112312039A (zh) * 2019-07-15 2021-02-02 北京小米移动软件有限公司 音视频信息获取方法、装置、设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106303365A (zh) * 2016-08-10 2017-01-04 张北江 音频目标查找方法在安防视频会议应用方法及系统
WO2018027697A1 (zh) * 2016-08-10 2018-02-15 张北江 音频目标查找方法在安防视频会议应用方法及系统
US11153442B1 (en) * 2021-01-28 2021-10-19 Bande Fitness Llc Systems and methods for facilitating side-channel communications during shared communication session

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1783998A (zh) * 2004-10-30 2006-06-07 微软公司 用于记录的会议时间线的自动脸部提取
EP1705911A1 (en) * 2005-03-24 2006-09-27 Alcatel Video conference system
US20070070177A1 (en) * 2005-07-01 2007-03-29 Christensen Dennis G Visual and aural perspective management for enhanced interactive video telepresence
CN101442654A (zh) * 2008-12-26 2009-05-27 深圳华为通信技术有限公司 视频通信中视频对象切换的方法、装置及系统
CN101669324A (zh) * 2007-04-27 2010-03-10 思科技术公司 多点视频会议中对带宽进行优化
CN101715102A (zh) * 2008-10-02 2010-05-26 宝利通公司 在点对点和多点音频/视频会议期间显示动态呼叫者身份
US20110093273A1 (en) * 2009-10-16 2011-04-21 Bowon Lee System And Method For Determining The Active Talkers In A Video Conference

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744460B1 (en) * 1999-10-04 2004-06-01 Polycom, Inc. Video display mode automatic switching system and method
FR2799914B1 (fr) * 1999-10-14 2001-12-28 France Telecom Identification d'intervenant dans une telereunion
US7136630B2 (en) 2000-12-22 2006-11-14 Broadcom Corporation Methods of recording voice signals in a mobile set
US6611281B2 (en) * 2001-11-13 2003-08-26 Koninklijke Philips Electronics N.V. System and method for providing an awareness of remote people in the room during a videoconference
US7298930B1 (en) 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
US20040254982A1 (en) * 2003-06-12 2004-12-16 Hoffman Robert G. Receiving system for video conferencing system
US8081205B2 (en) * 2003-10-08 2011-12-20 Cisco Technology, Inc. Dynamically switched and static multiple video streams for a multimedia conference
US20050099492A1 (en) * 2003-10-30 2005-05-12 Ati Technologies Inc. Activity controlled multimedia conferencing
US7492386B2 (en) * 2004-11-05 2009-02-17 Sony Ericsson Mobile Communications Ab Display management during a multi-party conversation
US7768543B2 (en) * 2006-03-09 2010-08-03 Citrix Online, Llc System and method for dynamically altering videoconference bit rates and layout based on participant activity
CN101039409A (zh) 2007-04-04 2007-09-19 中兴通讯股份有限公司 多媒体会议音视频录制/回放系统及方法
US8385233B2 (en) * 2007-06-12 2013-02-26 Microsoft Corporation Active speaker identification
US8319819B2 (en) 2008-03-26 2012-11-27 Cisco Technology, Inc. Virtual round-table videoconference
US8406608B2 (en) * 2010-03-08 2013-03-26 Vumanity Media, Inc. Generation of composited video programming
US8842161B2 (en) * 2010-05-18 2014-09-23 Polycom, Inc. Videoconferencing system having adjunct camera for auto-framing and tracking
US8558868B2 (en) * 2010-07-01 2013-10-15 Cisco Technology, Inc. Conference participant visualization
US8630854B2 (en) 2010-08-31 2014-01-14 Fujitsu Limited System and method for generating videoconference transcriptions
GB201017382D0 (en) * 2010-10-14 2010-11-24 Skype Ltd Auto focus
US8379077B2 (en) * 2010-11-24 2013-02-19 Cisco Technology, Inc. Automatic layout and speaker selection in a continuous presence video conference
KR101786944B1 (ko) * 2011-05-12 2017-10-18 삼성전자 주식회사 화자 표시 방법 및 이를 구현하는 영상 통화 단말기
GB2494745B (en) * 2011-07-08 2015-11-11 Avaya Inc Negotiate multi-stream continuous presence
US20130162752A1 (en) * 2011-12-22 2013-06-27 Advanced Micro Devices, Inc. Audio and Video Teleconferencing Using Voiceprints and Face Prints
US9148625B2 (en) * 2012-09-21 2015-09-29 Cisco Technology, Inc. Transition control in a videoconference

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1783998A (zh) * 2004-10-30 2006-06-07 微软公司 用于记录的会议时间线的自动脸部提取
EP1705911A1 (en) * 2005-03-24 2006-09-27 Alcatel Video conference system
US20070070177A1 (en) * 2005-07-01 2007-03-29 Christensen Dennis G Visual and aural perspective management for enhanced interactive video telepresence
CN101669324A (zh) * 2007-04-27 2010-03-10 思科技术公司 多点视频会议中对带宽进行优化
CN101715102A (zh) * 2008-10-02 2010-05-26 宝利通公司 在点对点和多点音频/视频会议期间显示动态呼叫者身份
CN101442654A (zh) * 2008-12-26 2009-05-27 深圳华为通信技术有限公司 视频通信中视频对象切换的方法、装置及系统
US20110093273A1 (en) * 2009-10-16 2011-04-21 Bowon Lee System And Method For Determining The Active Talkers In A Video Conference

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109845246A (zh) * 2016-10-20 2019-06-04 索尼公司 信息处理装置、信息处理方法、程序和通信系统
CN109845246B (zh) * 2016-10-20 2021-12-14 索尼公司 信息处理装置、信息处理方法、程序和通信系统
WO2019011246A1 (zh) * 2017-07-11 2019-01-17 中兴通讯股份有限公司 多媒体会议终端的控制方法及多媒体会议服务器
CN109246383A (zh) * 2017-07-11 2019-01-18 中兴通讯股份有限公司 一种多媒体会议终端的控制方法及多媒体会议服务器
US11349886B2 (en) 2017-07-11 2022-05-31 Zte Corporation Control method of multimedia conference terminal and multimedia conference server
CN109246383B (zh) * 2017-07-11 2022-03-29 中兴通讯股份有限公司 一种多媒体会议终端的控制方法及多媒体会议服务器
US10873666B2 (en) 2017-08-16 2020-12-22 Huawei Technologies Co., Ltd. Camera tracking method and director device
WO2019033968A1 (zh) * 2017-08-16 2019-02-21 华为技术有限公司 摄像跟踪方法、装置及设备
CN109714603A (zh) * 2017-10-25 2019-05-03 北京展视互动科技有限公司 多路音视频直播的方法及装置
CN109474881B (zh) * 2018-01-22 2020-10-16 国网浙江桐乡市供电有限公司 一种三维实景配现场音的方法及系统
CN109474881A (zh) * 2018-01-22 2019-03-15 国网浙江桐乡市供电有限公司 一种三维实景配现场音的方法及系统
CN108920127A (zh) * 2018-06-26 2018-11-30 广州视源电子科技股份有限公司 目标音量阈值确定方法、装置、设备和存储介质
CN109547732A (zh) * 2018-12-19 2019-03-29 深圳银澎云计算有限公司 一种音视频处理方法、装置、服务器及视频会议系统
CN112312039A (zh) * 2019-07-15 2021-02-02 北京小米移动软件有限公司 音视频信息获取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
EP3611897A1 (en) 2020-02-19
EP2993860B1 (en) 2019-09-25
US9641801B2 (en) 2017-05-02
CN105376515B (zh) 2019-03-19
EP2993860A1 (en) 2016-03-09
EP3611897B1 (en) 2020-12-30
US20160065895A1 (en) 2016-03-03

Similar Documents

Publication Publication Date Title
CN105376515A (zh) 用于视频通讯的通讯信息的呈现方法、装置及系统
CN103207728B (zh) 提供增强现实的方法和支持该方法的终端
CN102843543B (zh) 视频会议提醒方法、装置和视频会议系统
CN102541259A (zh) 电子设备及其根据脸部表情提供心情服务的方法
CN101715102A (zh) 在点对点和多点音频/视频会议期间显示动态呼叫者身份
CN104038354A (zh) 一种基于智能手机的会议交互方法
CN111508531B (zh) 音频处理方法及装置
CN102081501A (zh) 提供用户快捷操作应用程序的方法、装置及移动终端
CN105117102A (zh) 音频界面显示方法和装置
CN104144108A (zh) 一种消息响应方法、装置及系统
CN104202469A (zh) 管理通话连接的方法、装置和终端
CN104092809A (zh) 通话录音方法、通话录音播放方法及其相应装置
CN204539315U (zh) 一种声源定位的视频会议机
CN104091596A (zh) 一种乐曲识别方法、系统和装置
CN103442119A (zh) 在通话过程中自动提取信息的系统及方法
CN106664433A (zh) 多媒体信息播放方法及系统、标准化服务器、直播终端
CN101211615A (zh) 一种对特定人的语音进行自动录制的方法、系统及设备
CN103871438A (zh) 留言录制及播放系统及方法
CN104835516A (zh) 音乐播放方法和装置、智能终端
CN103702222A (zh) 移动终端的互动信息生成方法及其视频文件播放方法
CN105389318A (zh) 一种信息处理方法及电子设备
CN111353439A (zh) 一种教学行为的分析方法、装置、系统及设备
CN111131616A (zh) 基于智能终端的音频共享方法及相关装置
CN113709291A (zh) 音频处理方法、装置、电子设备及可读存储介质
CN104571820A (zh) 发言框显示方法、设备及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant