CN109873973B - 会议终端和会议系统 - Google Patents
会议终端和会议系统 Download PDFInfo
- Publication number
- CN109873973B CN109873973B CN201910260503.5A CN201910260503A CN109873973B CN 109873973 B CN109873973 B CN 109873973B CN 201910260503 A CN201910260503 A CN 201910260503A CN 109873973 B CN109873973 B CN 109873973B
- Authority
- CN
- China
- Prior art keywords
- conference
- module
- image
- images
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 8
- 210000001503 joint Anatomy 0.000 claims description 3
- 238000000034 method Methods 0.000 abstract description 15
- 230000008569 process Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000003028 elevating effect Effects 0.000 description 4
- 238000003032 molecular docking Methods 0.000 description 4
- 230000003321 amplification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 208000032625 disorder of ear Diseases 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/698—Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/02—Casings; Cabinets ; Supports therefor; Mountings therein
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R27/00—Public address systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Otolaryngology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明公开了一种会议终端和会议系统,涉及视频会议技术领域,主要目的在进行会议的过程中,全景展示会议场景,不丢失任何参加会议人员的影像。本发明的主要技术方案为:会议终端,包括:固定架;多个图像采集装置,多个所述图像采集装置沿周向设置在所述固定架的外表面,每个所述图像采集装置用于采集部分会议图像,多个所述部分会议图像共同组成全部会议图像,每个所述图像采集装置还用于输出所述部分会议图像;图像处理装置,所述图像处理装置与多个所述图像采集装置分别连接,所述图像处理装置用于接收多个所述部分会议图像,将多个所述部分会议图像转化为一个全部会议图像,所述图像处理装置还用于输出所述全部会议图像。
Description
技术领域
本发明涉及视频会议技术领域,尤其涉及一种会议终端和会议系统。
背景技术
目前视频会议作为一种新型的通信和交流工具,突破了地域的限制,从而可以提供更为便捷灵活全面的音视频信号的传递和服务,因此得到了广泛的应用。
但是在现有的视频会议应用中,视频会议的图像和语音采集终端多很简单,只使用单一摄像头采集图像,不能采集到全部的参加会议人员影像,这种方式会造成会议场景采集不全,甚至不能采集到全部参加会议的人员的影像。
因此,如何全景展示会议场景,不丢失任何参加会议人员的影像成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种会议终端,主要目的是在进行会议的过程中,全景展示会议场景,不丢失任何参加会议人员的影像。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种会议终端,包括:
固定架;
多个图像采集装置,多个所述图像采集装置沿周向设置在所述固定架的外表面,每个所述图像采集装置用于采集部分会议图像,多个所述部分会议图像共同组成全部会议图像,每个所述图像采集装置还用于输出所述部分会议图像;
图像处理装置,所述图像处理装置与多个所述图像采集装置分别连接,所述图像处理装置用于接收多个所述部分会议图像,将多个所述部分会议图像转化为一个全部会议图像,所述图像处理装置还用于输出所述全部会议图像。
可选地,所述图像处理装置包括多个图像接收模块、校正模块、图像拼接模块及图像输出模块;
每个所述图像接收模块与一个所述图像采集装置连接,用于接收所述部分会议图像,每个所述图像接收模块还用于传输所述部分会议图像;
所述校正模块分别与多个所述图像接收模块连接,所述校正模块用于接收所述多个所述图像接收模块输出的多个所述部分会议图像,并将多个所述部分会议图像校正为多个平面图像,所述校正模块还用于传输多个所述平面图像;
所述图像拼接模块与所述校正模块连接,所述图像拼接模块用于接收所述校正模块输出的多个所述平面图像,所述图像拼接模块用于将多个所述平面图像进行平滑对接形成一个所述全部会议图像,所述图像拼接模块还用于传输所述全部会议图像;
所述图像输出模块与所述图像拼接模块连接,所述图像拼接模块接收所述图像拼接模块传输的所述全部会议图像,所述图像输出模块还用于输出所述全部会议图像。
可选地,所述图像处理装置还包括人物识别模块、人脸识别模块及人物标记模块;
所述人物识别模块与所述图像拼接模块连接,用于接收所述图像拼接模块输出的所述全部会议图像,并识别所述全部会议图像中的人物及人物的位置,得到所述全部会议图像中的人物信息及人物的位置信息,所述人物识别模块还用于传输所述全部会议图像中的人物信息及人物的位置信息;
所述人脸识别模块与所述图像拼接模块连接,用于接收所述图像拼接模块输出的所述全部会议图像,并识别所述全部会议图像中人物的名称及确定人物名称的标注位置,得到所述全部会议图像中人物的名称信息及人物名称的标注位置信息,所述人脸识别模块还用于传输所述全部会议图像中人物的名称信息及人物名称的标注位置信息;
所述人物标记模块分别与所述人物识别模块和人脸识别模块连接,用于接收所述全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息,并根据所述全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息在所述全部会议图像中对人物和人物名称进行标记,形成具有全部人物标记和人物名称标记的全部会议图像,所述人物标记模块与所述图像输出模块连接,用于将所述具有全部人物标记和人物名称标记的全部会议图像传输至所述图像输出模块。
可选地,还包括:
多个语音采集装置,多个所述语音采集装置沿周向设置在所述固定架的外表面,每个所述语音采集装置用于采集部分会议语音,多个所述部分会议语音共同组成全部会议语音,每个所述语音采集装置还用于输出所述部分会议语音;
语音处理装置,所述语音处理装置与多个所述语音采集装置分别连接,所述语音处理装置用于接收及处理多个所述部分会议语音,将多个所述部分会议语音转化为发言语音,所述语音处理装置还用于输出所述发言语音。
可选地,所述语音处理装置包括多个语音接收模块、去噪模块及语音输出模块;
每个所述语音接收模块与一个所述语音采集装置连接,用于接收所述部分会议语音,并将所述部分会议语音进行放大以及模数转换形成部分语音数据,所述语音接收模块还用于输出所述部分语音数据;
所述去噪模块与多个所述语音接收模块连接,用于接收多个所述部分语音数据,并对多个所述部分语音数据进行去噪处理得到发言数据,所述去噪模块还用于传输所述发言数据;所述语音输出模块与所述去噪模块连接,用于接收所述发言数据,并将所述发言数据进行数模转换形成发言语音,所述语音输出模块还用于输出所述发言语音。
可选地,所述语音处理装置还包括声音源方位判定模块及语音识别模块;
所述声音源方位判定模块与所述去噪模块连接,用于接收所述发言数据,根据所述发言数据判定发言人物的位置信息,所述声音源方位判定模块还用于输出所述发言人物的位置信息;所述语音识别模块与所述去噪模块连接,用于接收所述发言数据,将所述发言数据转化为文字信息,所述语音识别模块还用于输出所述文字信息;
所述图像处理装置还包括去标记模块及字幕添加模块;
所述去标记模块分别与所述声音源方位判定模块和所述人物标记模连接,用于接收所述发言人物的位置信息和所述具有全部人物标记和人物名称标记的全部会议图像,并根据所述发言人物的位置信息使所述具有全部人物标记和人物名称标记的全部会议图像中的仅发言人具有人物标记,形成仅发言人具有人物标记和全部人物名称标记的全部会议图像,所述去标记模块还用于传输所述仅发言人具有人物标记和全部人物名称标记的全部会议图像;
所述字幕添加模块分别与所述去标记模块和所述语音识别模块连接,用于接收所述仅发言人具有人物标记和全部人物名称标记的全部会议图像和文字信息,将所述文字信息添加在所述仅发言人具有人物标记和全部人物名称标记的全部会议图像中,形成具有字幕和标记的全部会议图像,所述字幕添加模块还用于将所述具有字幕和标记的全部会议图像传输至图像输出模块。
可选地,所述图像采集装置为广角摄像头,所述广角摄像头用于采集所述部分会议图像。
可选地,还包括:
升降支架,所述升降支架与所述固定架连接,所述升降支架的用于带动所述固定架的升降。
可选地,所述语音采集装置为麦克风;
所述固定架为环形固定架,所述环形固定架外表面的顶部沿周向均匀设置四个所述广角摄像头,所述环形固定架外表面的中间位置沿周向均匀设置八个所述麦克风。
另一方面,本发明实施例提供了一种会议系统,包括:如前所述的会议终端;
显示装置,所述显示装置与图像输出模块连接,用于接收并显示全部会议图像;及
音响装置,所述音响装置与所述语音输出模块连接,用于接收并播放所述发言语音。
可选地,所述会议终端为多个,每个会议室内设置有一个所述会议终端,所述显示装置和所述音响装置均为多个,多个所述显示装置和所述音响装置分别位于不同的会议室内;
每个所述会议终端的所述图像输出模块和每个所述语音输出模块均与通信网络连接,所述通信网络用于接收多个所述会议终端的具有字幕和标记的全部会议图像和所述发言语音,所述通信网络与多个所述显示装置连接,用于将所述具有字幕和标记的全部会议图像发送至多个所述显示装置,所述通信网络与所述音响装置连接,用于将所述发言语音发送至所述音响装置。
本发明实施例提出的一种会议终端,包括固定架、多个图像采集装置和图像处理装置,多个图像采集装置沿周向设置在固定架上,每个图像采集装置用于采集多个部分会议图像,多个图像采集装置采集的多个部分会议图像共同组成全部会议图像,从而实现对整个会议场景的全部采集,而多个图像采集装置与图像处理装置连接,图像处理装置用于将接收到的多个部分会议图像进行处理,使多个单独的部分会议图像转化为一个完整地全部会议图像,而后图像处理装置再将完整的全部会议图像输出至显示装置。本发明提供的会议终端,能够完整地采集到全部会议图像并转化为一个全部会议图像,从而能够实现会议图像无死角的全景观看,不会丢失任何会议场景和参加会议人员的影像,保证了会议图像的完整性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例提供的一种会议终端的结构示意图;
图2为本发明实施例提供的一种多个视频采集装置的排布图;
图3为本发明实施例提供的一种多个语音采集装置的排布图;
图4为本发明实施例提供的一种视频采集装置的组成框图;
图5为本发明实施例提供的另一种视频采集装置的组成框图;
图6为本发明实施例提供的一种语音采集装置的组成框图;
图7为本发明实施例提供的另一种视频采集装置和语音采集装置的组成框图;
图8为本发明实施例提供的一种会议图像的示意图;
图9为本发明实施例提供的一种会议系统的示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的会议终端和会议系统其具体实施方式、结构、特征及其功效,详细说明如后。
如图1至图3所示,本发明实施例提供了一种会议终端1,包括:
固定架12;
多个图像采集装置14,多个图像采集装置14沿周向设置在固定架12的外表面,每个图像采集装置14用于采集部分会议图像,多个部分会议图像共同组成全部会议图像,每个图像采集装置14还用于输出部分会议图像;
图像处理装置15,图像处理装置15与多个图像采集装置14分别连接,图像处理装置15用于接收多个部分会议图像,将多个部分会议图像转化为一个全部会议图像,图像处理装置15还用于输出全部会议图像。
本发明实施例提出的一种会议终端1,包括固定架12、多个图像采集装置14和图像处理装置15,多个图像采集装置14沿周向间隔设置在固定架12上,每个图像采集装置14实时采集部分会议图像,多个图像采集装置14采集的多个部分会议图像共同组成全部会议图像,从而实现对整个会议场景的全部采集,而多个图像采集装置14与图像处理装置15连接,图像处理装置15用于实时将接收到的多个部分会议图像进行处理,使多个单独的部分会议图像转化为一个完整的全部会议图像,而后图像处理装置15再将完整的全部会议图像输出至显示装置。
可选地,图像采集装置14为摄像头,图像采集装置14还可以为其它可以用于采集图像的装置,图像处理装置15为CPU(中央处理器Central Processing Unit)或DSP(数字信号处理Digital Signal Processor))等。图像处理装置15设置有接收端口和输出端口,接收端口和输出端口为LVDS(低电压差分信号Low-Voltage Differential Signaling)接口、MIPI(移动产业处理器Mobile Industry Processor Interface)、DVI(数字视频DigitalVisual Interface)接口、HDMI(高清晰度多媒体High Definition MultimediaInterface)接口或DP(高清数字显示DisplayPort)接口等协议接口。
如图1至图3及图9所示,参加会议的人员26围绕在会议桌28周围,会议终端1设置在会议桌28的中央,本发明提供的会议终端1,通过与显示装置的连接,能够完整地显示会议图像,使得会议图像能够无死角全景观看,不会丢失任何会议场景和参加会议人员的影像,使得参加会议的人员26不仅能够看到发言人物,还能够看到其他参加会议的人员26的姿态、表情等信息,保证了会议图像的完整性,另外,当与会人员较多,反复切换发言人时,全景展示的会议图像的图像清晰,会议效果好,且避免了参加会议的人员因图像采集装置14的反复改变方向而造成的影像的旋转感和跳跃感而引起的不适。
下面结合附图和实施例对本发明进一步的详细说明。
如图4所示,本发明的实施例中,图像处理装置15包括多个图像接收模块151、校正模块152、图像拼接模块153及图像输出模块159;
每个图像接收模块151与一个图像采集装置14连接,用于接收部分会议图像,每个图像接收模块151还用于传输部分会议图像;校正模块152分别与多个图像接收模块151连接,校正模块152用于接收多个图像接收模块151输出的多个部分会议图像,并将多个部分会议校正为多个平面图像,校正模块152还用于传输多个平面图像;图像拼接模块153与校正模块152连接,图像拼接模块153用于接收校正模块152输出的多个平面图像,图像拼接模块153用于将多个平面图像进行平滑无缝对接形成一个全部会议图像,图像拼接模块153还用于传输全部会议图像;图像输出模块159与图像拼接模块153连接,图像拼接模块153接收图像拼接模块153传输的全部会议图像,图像输出模块159还用于输出全部会议图像。
在该实施例中,每个图像接收模块151与一个图像采集装置14连接,接收部分会议图像,并将部分会议图像传输至校正模块152,校正模块152接收多个图像接收模块151传输的多个部分会议图像,同时对多个部分会议图像进行校正,使多个部分会议图像同时校正为多个平面图像,其中,图像采集装置为广角的鱼眼摄像头,采集的部分会议图像为鱼眼图像,鱼眼图像为扭曲的球形图像,需要将扭曲的球形图像转换为平面图像,本发明通过校正模块将鱼眼图像校正为平面图像,并将校正后的多个平面图像传输至图像拼接模块153进行平滑对接,优选地,校正后的多个平面图像传输至图像拼接模块153进行平滑无缝对接,形成一个完整的全部会议图像,并将该完整的全部会议图像传输至图像输出模块159进行输出,进而在显示装置上进行显示,从而实现了会议图像的完整显示,使得会议图像能够无死角全景观看,不会丢失任何会议场景和参加会议人员的影像,保证了会议图像的完整性。
如图5所示,本发明的实施例中,图像处理装置15还包括人物识别模块154、人脸识别模块155及人物标记模块156;人物识别模块154与图像拼接模块153连接,用于接收图像拼接模块153输出的全部会议图像,并识别全部会议图像中的人物及人物的位置,得到全部会议图像中的人物信息及人物的位置信息,人物识别模块154还用于传输全部会议图像中的人物信息及人物的位置信息;人脸识别模块155与图像拼接模块153连接,用于接收图像拼接模块153输出的全部会议图像,并识别全部会议图像中人物的名称及确定人物名称的标注位置,得到全部会议图像中人物的名称信息及人物名称的标注位置信息,人脸识别模块155还用于传输全部会议图像中人物的名称信息及人物名称的标注位置信息;人物标记模块156分别与人物识别模块154和人脸识别模块155连接,用于接收全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息,并根据全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息在全部会议图像中对人物和人物名称进行标记,形成具有全部人物标记和人物名称标记的全部会议图像,人物标记模块156与图像输出模块159连接,用于将具有全部人物标记和人物名称标记的全部会议图像传输至图像输出模块159。
如图5所示,在该实施例中,图像处理装置15包括多个图像接收模块151、校正模块152、图像拼接模块153、人物识别模块154、人脸识别模块155、人物标记模块156及图像输出模块159,每个图像接收模块151与校正模块152分别连接,校正模块152与图像拼接模块153连接,图像拼接模块153与人物识别模块154和人脸识别模块155分别连接,人物识别模块154和人脸识别模块155分别连接有人物标记模块156,人物标记模块156与图像输出模块159连接。每个图像接收模块151与一个图像采集装置14连接,接收部分会议图像,并将部分会议图像传输至校正模块152,校正模块152接收多个图像接收模块151传输的多个部分会议图像,同时对多个部分会议图像进行校正,使多个部分会议图像同时校正为多个平面图像,并将校正后的多个平面图像传输至图像拼接模块153进行平滑无缝对接,形成一个完整的全部会议图像,拼接过程中使用图像拼接算法,图像拼接算法是将一组相互间重叠部分的图像序列进行空间匹配对准,经重采样合成后形成一幅包含各图像序列信息的宽视角场景的、完整的、高清晰的新图像的算法。图像拼接的过程由图像获取、图像配准、图像合成三步骤组成,从而去除交叠的图像边缘,然后在图像边缘使用平滑滤波的方式实现多个部分会议图像的平滑无缝对接。人物识别模块154和人脸识别模块155分别接受该全部会议图像,人物识别模块154用于识别全部会议图像中的人物及人物的位置,识别人物是指识别全部会议图像中的人,使全部会议图像中的人区别于其他如桌、椅或电器等东西,得到全部会议图像中的人物信息及人物的位置信息,得到人物信息及人物的位置信息的方法为进行人物和人物位置识别的算法,该算法可以是但不限于深度学习算法,深度学习算法是指多层神经网络上运用各种机器学习算法解决图像、文本等各种问题的算法集合。人脸识别模块155用于识别全部会议图像中人物的名称及确定人物名称的标注位置,使用人脸识别算法来识别出人物是谁,并从系统存储的库中找出此人物对应的名称,此识别算法可以是但不限于深度学习的算法,从而得到全部会议图像中人物的名称信息及人物名称的标注位置信息,人物识别模块154和人脸识别模块155分别将全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息传输至人物标记模块156,人物标记模块156根据全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息在全部会议图像中对人物和人物名称进行标记,形成具有全部人物标记和人物名称标记的全部会议图像,例如使用有色矩形框将人物标记出来,或将人物出现的区域使用高亮显示,也可以使用其他方式对人物进行标记,对人物名称标记的方式可以为将名称使用文字标注在指定的标注区域上,一般是人物头顶的上部。标注的过程是动态实时的,所以标记位置会随着人物位置的改变而改变,即实时跟随人物动态变化。人物标记模块156还用于将具有全部人物标记和人物名称标记的全部会议图像传输至图像输出模块159,而后图像输出模块159将具有全部人物标记和人物名称标记的全部会议图像传输至显示装置进行显示,从而会议图像上具有全部人员标记和全部人物名称标记,即将每个参加会议的人员26都进行标记,且每个参加会议的人员26的名字都会被对应标注,从而方便识别会议图像中的所有人员,及全部人员的名字,以方便陌生人之间的互相称呼。
如图1至图3所示,本发明实施例中,还包括:多个语音采集装置16,多个语音采集装置16沿周向设置在固定架12的外表面,每个语音采集装置16用于采集部分会议语音,多个部分会议语音共同组成全部会议语音,每个语音采集装置16还用于输出会议语音;语音处理装置17,语音处理装置17与多个语音采集装置16分别连接,语音处理装置17用于接收及处理多个部分会议语音,将多个部分会议语音转化为发言语音,语音处理装置17还用于输出发言语音。
在该实施例中,还包括多个语音采集装置16和语音处理装置17,如图1所示,多个语音采集装置16距参加会议人员的距离比多个图像采集装置14距参加会议人员的距离较近,多个语音采集装置围绕固定架一周设置,多个图像采集装置也围绕固定架一周设置,当会议终端设置在会议桌的中央时,多个图像采集装置位于多个语音采集装置的上方,从而语音采集装置能够距参加会议人员更近,而图像采集装置距参加会议人员较远,从而能够采集更大范围的会议图像。其中,多个语音采集装置沿周向间隔设置在固定架12上,每个语音采集装置用于实时采集部分会议语音,每个语音采集装置采集的部分会议语音为该语音采集装置能够采集到的所有语音,而多个语音采集装置能够采集到全部参加会议人员所进行的发言,从而多个语音采集装置采集到的多个部分会议语音共同组成全部会议语音,一般而言,参加会议的人员26不会同时作为发言人发言,因此多个部分会议语音不会全部同步进行采集,全部会议语音是指全部会议时间所进行的全部会议发言。而多个语音采集装置与语音处理装置连接,语音处理装置实时接收多个部分会议语音,并将多个部分会议语音进行转化得到发言语音,发言语音是指全部发言人所进行的发言,语音处理装置还用于将发言语音输出至音响装置。
语音采集装置16为麦克风,语音采集装置16还可以为其它可以用于采集语音的装置,语音处理装置17为CPU(中央处理器Central Processing Unit)或DSP(数字信号处理Digital Signal Processor))等。语音处理装置17设置有接收端口和输出端口,接收端口和输出端口为LVDS(低电压差分信号Low-Voltage Differential Signaling)接口、MIPI(移动产业处理器Mobile Industry Processor Interface)、DVI(数字视频DigitalVisual Interface)接口、HDMI(高清晰度多媒体High Definition MultimediaInterface)接口或DP(高清数字显示DisplayPort)接口等协议接口。从而本发明提供的会议终端1能够对会议语音进行采集,并将转换得到的发言语音进行播放,使参会人员均能够听到全部发言人的发言。
其中,多个图像采集装置14和多个语音采集装置16同步进行采集,并同步将采集到的图像和语音分别传输至图像处理装置15和语音处理装置17,图像处理装置15和语音处理装置17同步对接收到的图像和语音进行处理,且同步将处理后的图像和语音传输至显示装置和音响装置进行显示和播放,从而实现图像和声音的同步播放。
如图6所示,本发明的实施例中,语音处理装置17包括多个语音接收模块171、去噪模块172及语音输出模块175;每个语音接收模块171与一个语音采集装置16连接,用于接收部分会议语音,并将部分会议语音进行放大以及模数转换形成部分语音数据,语音接收模块171还用于输出部分语音数据;去噪模块172与多个语音接收模块171连接,用于接收多个部分语音数据,并对多个部分语音数据进行去噪处理得到发言数据,去噪模块172还用于传输发言数据;语音输出模块175与去噪模块172连接,用于接收发言数据,并将发言数据进行数模转换形成发言语音,语音输出模块175还用于输出发言语音。
在该实施例中,每个语音接收模块171与一个语音采集装置16连接,接收部分会议语音,并将部分会议语音进行语音放大、模数转换等处理,形成语音数据,并将语音数据进行传输至去噪模块172,去噪模块172将接收到的多个语音数据同时进行去噪处理,从而保留具有人声的语音数据,去除保留的语音数据中的噪音,得到发言数据,发言数据可以为一个,也可以为多个,当多个语音采集装置16均采集到发言人的发言时,发言数据即为多个,但每个语音采集装置16距发言人的距离不同,从而多个发言数据的响度不同,去噪模块172还用于判断多个发言数据的响度,将响度最高和噪音最小的语音数据传输至语音输出模块175,语音输出模块175将该发言数据进行模数转化后传输至音响装置,在音响设别上进行播放。从而其他参加会议的人员26也能够听到发言人的语音。
如图7所示,本发明的实施例中,语音处理装置17还包括声音源方位判定模块173及语音识别模块174;声音源方位判定模块173与去噪模块172连接,用于接收发言数据,根据发言数据判定发言人物的位置信息,声音源方位判定模块173还用于输出发言人物的位置信息,根据发言数据判定发言人物的位置信息的方法为,根据接收到的发言数据基于波束形成的方法、基于高分辨率频谱估计的方法或基于声达时延差的方法来判定发言人物的位置信息;语音识别模块174与去噪模块172连接,用于接收发言数据,将发言数据转化为文字信息,语音识别模块174还用于输出文字信息;图像处理装置15还包括去标记模块157及字幕添加模块158;去标记模块157分别与声音源方位判定模块173和人物标记模连接,用于接收发言人物的位置信息和具有全部人物标记和人物名称标记的全部会议图像,并根据发言人物的位置信息在具有全部人物标记和人物名称标记的全部会议图像中去除其中除发言人人物标记外的其余人物标记,形成仅发言人具有人物标记和全部人物名称标记的全部会议图像,去标记模块157还用于传输仅发言人具有人物标记和全部人物名称标记的全部会议图像;字幕添加模块158分别与去标记模块157和语音识别模块174连接,用于接收仅发言人具有人物标记和全部人物名称标记的全部会议图像和文字信息,将文字信息添加在仅发言人具有人物标记和全部人物名称标记的全部会议图像中,形成具有字幕和标记的全部会议图像,一般在全部会议图像的底部添加字幕,且字幕根据语音识别的结果在会议图像的底部实时的显示,字幕添加模块158还用于将具有字幕和标记的全部会议图像传输至图像输出模块159。
在该实施例中,语音处理装置17包括多个语音接收模块171、去噪模块172、声音源方位判定模块173、语音识别模块174及语音输出模块175。图像处理装置15包括多个图像接收模块151、校正模块152、图像拼接模块153、人物识别模块154、人脸识别模块155及人物标记模块156、去标记模块157、字幕添加模块158及图像输出模块159。其中,多个语音接收模块171与去噪模块172连接,去噪模块172与声音源方位判定模块173、语音识别模块174及语音输出模块175分别连接,每个图像接收模块151与校正模块152分别连接,校正模块152与图像拼接模块153连接,图像拼接模块153与人物识别模块154和人脸识别模块155分别连接,人物识别模块154和人脸识别模块155还分别与有人物标记模块156连接,人物标记模块156和声音源方位判定模块173分别与去标记模块157连接,去标记模块157和语音识别模块174分别与字母添加模块连接,字幕添加模块158与图像输出模块159连接。
每个语音接收模块171与一个语音采集装置16连接,接收部分会议语音,并将部分会议语音进行语音放大、模数转换等处理,形成语音数据,并将语音数据进行传输至去噪模块172,去噪模块172将接收到的多个语音数据同时进行去噪处理,从而保留具有人声的语音数据,去除保留的语音数据中的噪音,得到发言数据,得到发言数据的算法可以是但不限于深度学习算法,发言数据可以为一个,也可以为多个,当多个语音采集装置16均采集到发言人的发言时,发言数据即为多个,但每个语音采集装置16距发言人的距离不同,从而多个发言数据的响度不同,去噪模块172中有语音响度判定机制,用于判断多个发言数据的响度,将响度最高和噪音最小的语音数据传输至语音识别模块174和语音输出模块175,语音识别模块174将发言数据转化为文字信息,并将文字信息进行至字幕添加模块158;去噪模块172还用于将发言数据传输至声音源方位判定模块173,声音源方位判定模块173根据一个或多个发言数据判定发言人物的位置信息,并将发言人物的位置信息传输至去标记模块157。
每个图像接收模块151与一个图像采集装置14连接,接收部分会议图像,并将部分会议图像传输至校正模块152,校正模块152接收多个图像接收模块151传输的多个部分会议图像,同时对多个部分会议图像进行校正,使多个部分会议图像同时校正为多个平面图像,并将校正后的多个平面图像传输至图像拼接模块153进行平滑无缝对接,形成一个完整的全部会议图像,人物识别模块154和人脸识别模块155分别接受该全部会议图像,人物识别模块154用于识别全部会议图像中的人物及人物的位置,得到全部会议图像中的人物信息及人物的位置信息,人脸识别模块155用于识别全部会议图像中人物的名称及确定人物名称的标注位置,得到全部会议图像中人物的名称信息及人物名称的标注位置信息,人物识别模块154和人脸识别模块155分别将全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息传输至人物标记模块156,人物标记模块156根据全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息在全部会议图像中对人物和人物名称进行标记,形成具有全部人物标记和人物名称标记的全部会议图像,人物识别模块154还用于将具有全部人物标记和人物名称标记的全部会议图像传输至去标记模块157,去标记模块157根据人物识别模块154发送的具有全部人物标记和人物名称标记的全部会议图像和声音源方位判定模块173发送的发言人物的位置信息将具有全部人物标记和人物名称标记的全部会议图像中除发言人物标记的其余全部人物标记去除,从而得到仅发言人具有人物标记和全部人物名称标记的全部会议图像,并将该仅发言人具有人物标记和全部人物名称标记的全部会议图像传输至字幕添加模块158,字幕添加模块158接收去标记模块157发送的仅发言人具有人物标记和全部人物名称标记的全部会议图像和语音识别模块174发送的文字信息,并将文字信息添加在仅发言人具有人物标记和全部人物名称标记的全部会议图像中,形成具有字幕和标记的全部会议图像,字幕添加模块158将具有字幕和标记的全部会议图像传输至图像输出模块159,图像输出模块159将具有字幕和标记的全部会议图像传输至显示装置,在显示装置上进行显示,与此同时,语音输出模块175将发言语音传输至音响装置,在音响设别上进行播放。
如图8所示,本发明提供的会议终端1,实现了会议中无死角的全景观看,并且在会议图像中对发言人物进行突出显示,使得即使在多人对话或反复切换发言人时,也可以将多个发言的人标记出来,或快速切换发言人物的标记,使参加会议的人员能够清晰的识别到谁在发言或对话,使得参与会议的人员能够快速辨别出发言人物,提高会议效果和效率,并且在实现突出发言人的前提下,没有造成其他参加会议的人员26或场景的丢失;会议图像中还对每个参加会议的人员26进行了名称标记,避免了当有很多互不相识的人员参加会议时,参会人员很难记住陌生人的名字,造成尴尬。另外,会议图像中还具有字幕,因此能够使得患有耳疾的人也能够正常参与会议。
本发明的实施例中,图像采集装置14为广角摄像头,广角摄像头用于采集部分会议图像。
在该实施例中,图像采集装置14为广角摄像头,优选地,图像采集装置14为鱼眼摄像头,从而每个图像采集装置14能够拍摄的范围更大,进而沿周向设置在固定架12上的图像采集装置14的数量可以较少,从而降低成本。
如图1所示,本发明的实施例中,还包括:升降支架,升降支架与固定架12连接,升降支架的用于带动固定架12的升降。
在该实施例中,还包括升降装置18,升降装置18包括电机,升降装置18通过电机的驱动完成升降,并带动与升降装置18连接的固定架12进行升降,使得会议终端1能够根据不同的会议来调整固定架12上的多个图像采集装置14和多个语音采集装置16的高度,从而使得会议终端1能够更好地对会议图像和会议语音进行采集。
本发明的实施例中,所述语音采集装置为麦克风;
固定架为环形固定架,环形固定架外表面的顶部沿周向均匀设置四个广角摄像头,环形固定架外表面的中间部分沿周向均匀设置八个麦克风。
如图1至图3所示,在该实施例中,固定架为环固定架,可选地,固定架12为圆柱形固定架12,会议桌28为圆形会议桌28,固定架12设置在圆形会议桌28的中央,参加会议的人员围绕该圆形会议桌28的一圈或半圈,如图2所示,固定架12外表面的顶部沿周向均匀设置有四个广角摄像头,每个广角摄像头的拍摄视角为90°,从而四个均匀设置的视角为90°的广角摄像头能够将围绕固定架12的全部会议图像采集完整。如图3所示,固定架12外表面的中间位置沿周向均匀设置有8个麦克风,8个麦克风能够完成对所有发言人发言的采集,从而实现对会议语音的采集。
本发明实施例还提供一种会议系统2,包括如前的会议终端1;显示装置,显示装置与图像输出模块159连接,用于接收并显示全部会议图像;及音响装置,音响装置与语音输出模块175连接,用于接收并播放发言语音。
在该实施例中,本发明提供的会议系统2,包括会议终端1、显示装置和音响装置,会议终端1中的图像输出模块159与显示装置连接,显示装置用于显示全部会议图像,音响装置与会议终端1的语音输出模块175连接,音响装置用于播放发言语音,其中显示装置和音响装置集成在播放设备22上进行同步播放,本发明提供的会议系统2的会议图像显示完整,不丢失任何会议场景和参加会议人员的影像,使得参加会议的人员26能够看到除发言人物外其他参加会议的人员26的姿态、表情等信息,且能够在显示会议图像的同时播放会议语音,使得参加会议的人员能够得到会议的全部信息。
可选地,显示装置为360度环形显示装置,360度环形显示装置集成在固定架外表面,以实现显示功能。
如图9所示,本发明的实施例中,会议终端1为多个,每个会议室内设置有一个会议终端1,显示装置和音响装置均为多个,多个显示装置和音响装置分别位于不同的会议室内;
每个会议终端1的图像输出模块159和每个语音输出模块175均与通信网络24连接,通信网络24用于接收多个会议终端1的具有字幕和标记的全部会议图像和发言语音,通信网络24与多个显示装置连接,用于将全部会议图像发送至多个显示装置,通信网络24与音响装置连接,用于将发言语音发送至音响装置。
在该实施例中,在大型的视频会议中,一般都有很多处于不同会议室的人员参加会议,因此在每个的会议室内设置一个会议终端1,每个会议终端1均通过通信网络24与多个处于不同会议室内的显示装置和音响装置连接,从而将全部会议图像和发言语音分别传输至多个显示装置和音响装置中,使得每个会议室内的人员都能够看到和听到其它任意会议室中的图像和声音,保证了当具有多个会议室进行会议时,参加会议的人员能够完整地看到和听到所有会议室中的情况。
可选地,本会议室中可设置有显示本会议室全部会议图像和发言语音的显示装置和音响装置,本会议室中也可不设置有显示本会议室全部会议图像的显示装置,以及本会议室中也可不设置有播放本会议室语音的音响装置。
本发明提供了一种会议终端1和会议系统2,会议终端1实现了会议中无死角的全景观看,并且在会议图像中对发言人物进行突出显示,使得即使在多人对话或反复切换发言人时,也可以将多个发言的人标记出来,或快速切换发言人物的标记,使参加会议的人员能够清晰的识别到谁在发言或对话,使得参与会议的人员能够快速辨别出发言人物,提高会议效果和效率,并且在实现突出发言人的前提下,没有造成其他参加会议的人员26或场景的丢失;会议图像中还对每个参加会议的人员26进行了名称标记,避免了当有很多互不相识的人员参加会议时,参会人员很难记住陌生人的名字,造成尴尬。另外,会议图像中还具有字幕,因此能够使得患有耳疾的人也能够正常参与会议。会议终端1能够使得每个会议室内的人员都能够看到和听到其它任意会议室中的图像和声音,保证了当具有多个会议室进行会议时,参加会议的人员能够完整地看到和听到所有会议室中的情况。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (7)
1.一种会议终端,其特征在于,包括:
固定架;
多个图像采集装置,多个所述图像采集装置沿周向设置在所述固定架的外表面,每个所述图像采集装置用于采集部分会议图像,多个所述部分会议图像共同组成全部会议图像,每个所述图像采集装置还用于输出所述部分会议图像;
图像处理装置,所述图像处理装置与多个所述图像采集装置分别连接,所述图像处理装置用于接收多个所述部分会议图像,将多个所述部分会议图像转化为一个全部会议图像,所述图像处理装置还用于输出所述全部会议图像;
多个语音采集装置,多个所述语音采集装置沿周向设置在所述固定架的外表面,每个所述语音采集装置用于采集部分会议语音,多个所述部分会议语音共同组成全部会议语音,每个所述语音采集装置还用于输出所述部分会议语音;
语音处理装置,所述语音处理装置与多个所述语音采集装置分别连接,所述语音处理装置用于接收及处理多个所述部分会议语音,将多个所述部分会议语音转化为发言语音,所述语音处理装置还用于输出所述发言语音;
所述图像处理装置包括多个图像接收模块、校正模块、图像拼接模块及图像输出模块;
每个所述图像接收模块与一个所述图像采集装置连接,用于接收所述部分会议图像,每个所述图像接收模块还用于传输所述部分会议图像;
所述校正模块分别与多个所述图像接收模块连接,所述校正模块用于接收所述多个所述图像接收模块输出的多个所述部分会议图像,并将多个所述部分会议图像校正为多个平面图像,所述校正模块还用于传输多个所述平面图像;
所述图像拼接模块与所述校正模块连接,所述图像拼接模块用于接收所述校正模块输出的多个所述平面图像,所述图像拼接模块用于将多个所述平面图像进行平滑对接形成一个所述全部会议图像,所述图像拼接模块还用于传输所述全部会议图像;
所述图像输出模块与所述图像拼接模块连接,所述图像拼接模块接收所述图像拼接模块传输的所述全部会议图像,所述图像输出模块还用于输出所述全部会议图像;
所述图像处理装置还包括人物识别模块、人脸识别模块及人物标记模块;
所述人物识别模块与所述图像拼接模块连接,用于接收所述图像拼接模块输出的所述全部会议图像,并识别所述全部会议图像中的人物及人物的位置,得到所述全部会议图像中的人物信息及人物的位置信息,所述人物识别模块还用于传输所述全部会议图像中的人物信息及人物的位置信息;
所述人脸识别模块与所述图像拼接模块连接,用于接收所述图像拼接模块输出的所述全部会议图像,并识别所述全部会议图像中人物的名称及确定人物名称的标注位置,得到所述全部会议图像中人物的名称信息及人物名称的标注位置信息,所述人脸识别模块还用于传输所述全部会议图像中人物的名称信息及人物名称的标注位置信息;
所述人物标记模块分别与所述人物识别模块和人脸识别模块连接,用于接收所述全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息,并根据所述全部会议图像中的人物信息、人物的位置信息、人物的名称信息及人物名称的标注位置信息在所述全部会议图像中对人物和人物名称进行标记,形成具有全部人物标记和人物名称标记的全部会议图像,所述人物标记模块与所述图像输出模块连接,用于将所述具有全部人物标记和人物名称标记的全部会议图像传输至所述图像输出模块;
所述语音处理装置包括多个语音接收模块、去噪模块及语音输出模块;
每个所述语音接收模块与一个所述语音采集装置连接,用于接收所述部分会议语音,并将所述部分会议语音进行放大以及模数转换形成部分语音数据,所述语音接收模块还用于输出所述部分语音数据;
所述去噪模块与多个所述语音接收模块连接,用于接收多个所述部分语音数据,并对多个所述部分语音数据进行去噪处理得到发言数据,所述去噪模块还用于传输所述发言数据;
所述语音处理装置还包括声音源方位判定模块及语音识别模块;
所述声音源方位判定模块与所述去噪模块连接,用于接收所述发言数据,根据所述发言数据判定发言人物的位置信息,所述声音源方位判定模块还用于输出所述发言人物的位置信息;所述语音识别模块与所述去噪模块连接,用于接收所述发言数据,将所述发言数据转化为文字信息,所述语音识别模块还用于输出所述文字信息;
所述图像处理装置还包括去标记模块及字幕添加模块;
所述去标记模块分别与所述声音源方位判定模块和所述人物标记模连接,用于接收所述发言人物的位置信息和所述具有全部人物标记和人物名称标记的全部会议图像,并根据所述发言人物的位置信息使所述具有全部人物标记和人物名称标记的全部会议图像中的仅发言人具有人物标记,形成仅发言人具有人物标记和全部人物名称标记的全部会议图像,所述去标记模块还用于传输所述仅发言人具有人物标记和全部人物名称标记的全部会议图像;
所述字幕添加模块分别与所述去标记模块和所述语音识别模块连接,用于接收所述仅发言人具有人物标记和全部人物名称标记的全部会议图像和文字信息,将所述文字信息添加在所述仅发言人具有人物标记和全部人物名称标记的全部会议图像中,形成具有字幕和标记的全部会议图像,所述字幕添加模块还用于将所述具有字幕和标记的全部会议图像传输至图像输出模块。
2.根据权利要求1所述的会议终端,其特征在于,
所述语音输出模块与所述去噪模块连接,用于接收所述发言数据,并将所述发言数据进行数模转换形成发言语音,所述语音输出模块还用于输出所述发言语音。
3.根据权利要求2所述的会议终端,其特征在于,
所述图像采集装置为广角摄像头,所述广角摄像头用于采集所述部分会议图像。
4.根据权利要求3所述的会议终端,其特征在于,还包括:
升降支架,所述升降支架与所述固定架连接,所述升降支架用于带动所述固定架的升降。
5.根据权利要求4所述的会议终端,其特征在于,
所述语音采集装置为麦克风;
所述固定架为环形固定架,所述环形固定架外表面的顶部沿周向均匀设置四个所述广角摄像头,所述环形固定架外表面的中部沿周向均匀设置八个所述麦克风。
6.一种会议系统,其特征在于,包括权利要求1至5中任一项所述的会议终端;
显示装置,所述显示装置与图像输出模块连接,用于接收并显示全部会议图像;及
音响装置,所述音响装置与语音输出模块连接,用于接收并播放所述发言语音。
7.根据权利要求6所述的会议系统,其特征在于,
所述会议终端为多个,每个会议室内设置有一个所述会议终端,所述显示装置和所述音响装置均为多个,多个所述显示装置和所述音响装置分别位于不同的会议室内;
每个所述会议终端的所述图像输出模块和每个所述语音输出模块均与通信网络连接,所述通信网络用于接收多个所述会议终端的具有字幕和标记的全部会议图像和所述发言语音,所述通信网络与多个所述显示装置连接,用于将所述具有字幕和标记的全部会议图像发送至多个所述显示装置,所述通信网络与所述音响装置连接,用于将所述发言语音发送至所述音响装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910260503.5A CN109873973B (zh) | 2019-04-02 | 2019-04-02 | 会议终端和会议系统 |
US16/561,976 US10771694B1 (en) | 2019-04-02 | 2019-09-05 | Conference terminal and conference system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910260503.5A CN109873973B (zh) | 2019-04-02 | 2019-04-02 | 会议终端和会议系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109873973A CN109873973A (zh) | 2019-06-11 |
CN109873973B true CN109873973B (zh) | 2021-08-27 |
Family
ID=66921878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910260503.5A Active CN109873973B (zh) | 2019-04-02 | 2019-04-02 | 会议终端和会议系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10771694B1 (zh) |
CN (1) | CN109873973B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112185387B (zh) * | 2019-07-05 | 2024-04-05 | 深圳市华创技术有限公司 | 一种智能化语音识别装置 |
CN110544491A (zh) * | 2019-08-30 | 2019-12-06 | 上海依图信息技术有限公司 | 一种实时关联说话人及其语音识别结果的方法及装置 |
CN112954563B (zh) * | 2019-11-26 | 2022-10-25 | 音科有限公司 | 信号处理方法、电子设备、装置及存储介质 |
CN113766167A (zh) * | 2020-06-04 | 2021-12-07 | 中国移动通信有限公司研究院 | 全景视频会议增强方法、系统和网络设备 |
CN113973170A (zh) * | 2020-07-22 | 2022-01-25 | 中兴通讯股份有限公司 | 桌面摄像机、摄像机控制方法、装置及存储介质 |
CN112312042A (zh) * | 2020-10-30 | 2021-02-02 | 维沃移动通信有限公司 | 显示控制方法、装置、电子设备及存储介质 |
CN112887654B (zh) * | 2021-01-25 | 2022-05-31 | 联想(北京)有限公司 | 一种会议设备、会议系统及数据处理方法 |
CN113507586A (zh) * | 2021-07-02 | 2021-10-15 | 北京乐驾科技有限公司 | 智能会议系统、用于智能会议的信息处理方法 |
CN113794824B (zh) * | 2021-09-15 | 2023-10-20 | 深圳市智像科技有限公司 | 室内可视化文档智能交互式采集方法、装置、系统及介质 |
CN114630070A (zh) * | 2022-02-26 | 2022-06-14 | 安徽华迈信息科技有限公司 | 一种视频会议系统 |
CN114531564B (zh) * | 2022-03-01 | 2024-04-23 | 联想(北京)有限公司 | 处理方法及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102006453A (zh) * | 2010-11-30 | 2011-04-06 | 华为终端有限公司 | 视频信号的辅助信息叠加方法及装置 |
CN106487757A (zh) * | 2015-08-28 | 2017-03-08 | 华为技术有限公司 | 进行语音会议的方法、会议客户端和系统 |
CN107370981A (zh) * | 2016-05-13 | 2017-11-21 | 中兴通讯股份有限公司 | 一种视频会议中参会人员的信息提示方法和装置 |
CN207443029U (zh) * | 2017-11-02 | 2018-06-01 | 深圳市裂石影音科技有限公司 | 一种基于语音跟踪的全景视频录制设备 |
CN109035138A (zh) * | 2018-08-17 | 2018-12-18 | 北京智能管家科技有限公司 | 会议记录方法、装置、设备和存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5978014A (en) * | 1997-09-19 | 1999-11-02 | 8×8, Inc. | Video TTY device and method for videoconferencing |
US6771302B1 (en) * | 2001-08-14 | 2004-08-03 | Polycom, Inc. | Videoconference closed caption system and method |
US7852369B2 (en) * | 2002-06-27 | 2010-12-14 | Microsoft Corp. | Integrated design for omni-directional camera and microphone array |
TWI303782B (en) * | 2006-03-10 | 2008-12-01 | Sony Taiwan Ltd | An optimized video stitching mehtod for asic implementation |
US20080295040A1 (en) * | 2007-05-24 | 2008-11-27 | Microsoft Corporation | Closed captions for real time communication |
CN101080000A (zh) | 2007-07-17 | 2007-11-28 | 华为技术有限公司 | 视频会议中显示发言人的方法、系统、服务器和终端 |
US20100118112A1 (en) * | 2008-11-13 | 2010-05-13 | Polycom, Inc. | Group table top videoconferencing device |
US8502857B2 (en) * | 2008-11-21 | 2013-08-06 | Polycom, Inc. | System and method for combining a plurality of video stream generated in a videoconference |
US20110246172A1 (en) * | 2010-03-30 | 2011-10-06 | Polycom, Inc. | Method and System for Adding Translation in a Videoconference |
US8395653B2 (en) | 2010-05-18 | 2013-03-12 | Polycom, Inc. | Videoconferencing endpoint having multiple voice-tracking cameras |
US20130300821A1 (en) * | 2012-05-10 | 2013-11-14 | Qualcomm Incorporated | Selectively combining a plurality of video feeds for a group communication session |
US8874429B1 (en) * | 2012-05-18 | 2014-10-28 | Amazon Technologies, Inc. | Delay in video for language translation |
US9172909B2 (en) * | 2013-10-29 | 2015-10-27 | Cisco Technology, Inc. | Panoramic video conference |
CN104238576B (zh) | 2014-09-17 | 2017-02-15 | 厦门亿联网络技术股份有限公司 | 一种基于多麦的视频会议摄像头定位方法 |
US9686510B1 (en) * | 2016-03-15 | 2017-06-20 | Microsoft Technology Licensing, Llc | Selectable interaction elements in a 360-degree video stream |
CN108111799B (zh) | 2017-12-14 | 2020-12-18 | 苏州科达科技股份有限公司 | 视频会议中发言人的标识方法及装置 |
-
2019
- 2019-04-02 CN CN201910260503.5A patent/CN109873973B/zh active Active
- 2019-09-05 US US16/561,976 patent/US10771694B1/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102006453A (zh) * | 2010-11-30 | 2011-04-06 | 华为终端有限公司 | 视频信号的辅助信息叠加方法及装置 |
CN106487757A (zh) * | 2015-08-28 | 2017-03-08 | 华为技术有限公司 | 进行语音会议的方法、会议客户端和系统 |
CN107370981A (zh) * | 2016-05-13 | 2017-11-21 | 中兴通讯股份有限公司 | 一种视频会议中参会人员的信息提示方法和装置 |
CN207443029U (zh) * | 2017-11-02 | 2018-06-01 | 深圳市裂石影音科技有限公司 | 一种基于语音跟踪的全景视频录制设备 |
CN109035138A (zh) * | 2018-08-17 | 2018-12-18 | 北京智能管家科技有限公司 | 会议记录方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109873973A (zh) | 2019-06-11 |
US10771694B1 (en) | 2020-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109873973B (zh) | 会议终端和会议系统 | |
CN102006453B (zh) | 视频信号的辅助信息叠加方法及装置 | |
CN109474797B (zh) | 基于全景摄像头和麦克风阵列的会议转录系统 | |
US8451315B2 (en) | System and method for distributed meeting capture | |
US9641585B2 (en) | Automated video editing based on activity in video conference | |
CN101309390B (zh) | 视讯通信系统、装置及其字幕显示方法 | |
US8208002B2 (en) | Distance learning via instructor immersion into remote classroom | |
CN100358358C (zh) | 视频电话手语翻译辅助装置及应用其的手语翻译系统 | |
CN101442654A (zh) | 视频通信中视频对象切换的方法、装置及系统 | |
CN103581608A (zh) | 发言人检测系统、发言人检测方法和音频/视频会议系统 | |
KR20110073758A (ko) | 발언자를 구별하는 영상 회의 장치 및 방법 | |
CN210469530U (zh) | 发言人员音频及影像追踪系统 | |
CN114666454A (zh) | 一种智能会议系统 | |
WO2015198964A1 (ja) | 音声入出力機能付き撮像装置およびテレビ会議システム | |
TWI826768B (zh) | 視訊會議系統與方法 | |
JP5120020B2 (ja) | 画像付音声通信システム、画像付音声通信方法およびプログラム | |
CN213213667U (zh) | 一种基于视觉与声音融合的可交互的会议装置 | |
CN114257778A (zh) | 一种远程会议系统及多麦克风语音识别播放方法 | |
JP7361460B2 (ja) | コミュニケーション装置、コミュニケーションプログラム、及びコミュニケーション方法 | |
JPS62209985A (ja) | テレビ会議装置 | |
JP3031320B2 (ja) | ビデオ会議装置 | |
CN115118913A (zh) | 一种投影视频会议系统及投影视频方法 | |
JP2017163466A (ja) | 情報処理装置および会議システム | |
JPH0267889A (ja) | 表示者同定通信会議システム | |
JPH0837655A (ja) | 話者識別表示機能を有するテレビ会議システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |