CN112866617A - 视频会议设备以及视频会议方法 - Google Patents
视频会议设备以及视频会议方法 Download PDFInfo
- Publication number
- CN112866617A CN112866617A CN201911188023.9A CN201911188023A CN112866617A CN 112866617 A CN112866617 A CN 112866617A CN 201911188023 A CN201911188023 A CN 201911188023A CN 112866617 A CN112866617 A CN 112866617A
- Authority
- CN
- China
- Prior art keywords
- conference
- image
- sub
- processor
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 238000001514 detection method Methods 0.000 claims abstract description 53
- 238000003062 neural network model Methods 0.000 claims description 10
- 230000004807 localization Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/40—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
- H04R1/406—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/166—Detection; Localisation; Normalisation using acquisition arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/567—Multimedia conference systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/142—Constructional details of the terminal equipment, e.g. arrangements of the camera and the display
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/141—Systems for two-way working between two video terminals, e.g. videophone
- H04N7/147—Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
- H04R1/32—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
- H04R1/326—Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R29/00—Monitoring arrangements; Testing arrangements
- H04R29/004—Monitoring arrangements; Testing arrangements for microphones
- H04R29/005—Microphone arrays
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/50—Telephonic communication in combination with video communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/50—Aspects of automatic or semi-automatic exchanges related to audio conference
- H04M2203/509—Microphone arrays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Acoustics & Sound (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种视频会议设备以及视频会议方法。视频会议设备包括图像检测装置、音源检测装置以及处理器。所述图像检测装置取得会议空间的会议图像。所述音源检测装置检测所述会议空间的声音来源,并且输出对应于所述声音来源的定位信号。所述处理器接收所述会议图像以及所述定位信号,以依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像。所述处理器检测距离所述第一子会议图像的中心轴最近的人脸图像,并且以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像,并且输出所述第二子会议图像。本发明的视频会议设备以及视频会议方法,可自动地产生适当的特写会议图像,以提供良好视频会议体验。
Description
技术领域
本发明涉及一种会议设备,特别是有关于一种视频会议设备以及视频会议方法。
背景技术
随着视频会议的需求增加,如何设计一种视频会议设备可适用于各种会议情境皆可提供良好的视频效果是目前视频会议设备重要的研发方向之一。举例而言,当视频空间中具有一个或多个会议成员时,如何自动地追踪一个或多个声音来源来提供相对应的会议画面是目前主要须克服的重要技术课题之一。并且,一般而言,传统的视频会议设备在取得会议图像后,会花费大量的处理器资源的运算量来对于撷取的整个会议图像进行图像分析,以决定特写人脸(说话者)的位置。有鉴于此,如何使视频会议设备可以以较低的图像处理的数据运算量来达成可自动追踪声音来源以及显示适当的会议画面效果,以下将提出几个实施例的解决方案。
本“背景技术”段落只是用来说明了解本发明内容,因此在“背景技术”段落所公开的内容可能包含一些没有构成所属技术领域中的技术人员所知道的已知技术。在“背景技术”段落所公开的内容,不代表所述内容或者本发明一个或多个实施例所要解决的问题,在本发明申请前已被所属技术领域中的技术人员所知晓或认知。
发明内容
本发明是针对一种视频会议设备以及视频会议方法,可自动地产生适当的特写会议图像,以提供良好视频会议体验。
为达上述之一或部分或全部目的或是其他目的,本发明的视频会议设备包括图像检测装置、音源检测装置以及处理器。所述图像检测装置用以取得会议空间的会议图像。所述音源检测装置用以检测所述会议空间的声音来源,并且输出对应于所述声音来源的定位信号。所述处理器耦接所述图像检测装置以及所述音源检测装置,并且用以接收所述会议图像以及所述定位信号,以依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像。所述处理器对所述第一子会议图像进行人脸检测,以检测距离所述第一子会议图像的中心轴最近的人脸图像,其中所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像,并且输出所述第二子会议图像。
为达上述之一或部分或全部目的或是其他目的,本发明的视频会议方法包括以下步骤:通过图像检测装置取得会议空间的会议图像;通过音源检测装置检测所述会议空间的声音来源,并且输出对应于所述声音来源的定位信号;通过处理器依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像;通过所述处理器对所述第一子会议图像进行人脸检测,以检测距离所述第一子会议图像的中心轴最近的人脸图像;以及通过所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像,并且输出所述第二子会议图像。
基于上述,本发明的视频会议设备以及视频会议方法可通过图像检测装置取得会议空间的会议图像,并且依据音源检测装置的定位信号来选择会议图像中对应于声音来源的部分会议图像,以输出所述部分会议图像至外部的显示设备来显示之。
为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合附图作详细说明如下。
附图说明
包含附图以便进一步理解本发明,且附图并入本说明书中并构成本说明书的一部分。附图说明本发明的实施例,并与描述一起用于解释本发明的原理。
图1是依照本发明的一实施例的视频会议设备的装置方框图;
图2是依照本发明的一实施例的视频会议情境的示意图;
图3A是依照本发明的一实施例的第一子会议图像的示意图;
图3B是依照本发明的一实施例的第二子会议图像的示意图;
图4是依照本发明的一实施例的视频会议方法的步骤流程图;
图5是依照本发明的另一实施例的会议图像的示意图;
图6是依照本发明的又一实施例的会议图像的示意图。
具体实施方式
有关本发明的前述及其他技术内容、特点与功效,在以下配合参考附图之一较佳实施例的详细说明中,将可清楚的呈现。以下实施例中所提到的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本发明。
为了使本发明的内容可以被更容易明了,以下特举实施例作为本发明确实能够据以实施的范例。另外,凡可能之处,在附图及实施方式中使用相同标号的组件/构件/步骤代表相同或类似部件。
图1是依照本发明的一实施例的视频会议设备的装置方框图。参考图1,视频会议设备100包括处理器110、存储器120、图像检测装置130以及音源检测装置140。处理器110耦接存储器120、图像检测装置130以及音源检测装置140。存储器120包括神经网络模型(Neural Network,NN)121。在本实施例中,图像检测装置130可用以取得会议空间的会议图像,并且输出会议图像至处理器110,其中会议图像可包括会议空间中的所有会议成员。在一实施例中,图像检测装置130可为360度摄影机,并且会议图像包括360度全景图像,但本发明并不限于此。音源检测装置140可用以检测会议空间的声音来源,并且输出对应于声音来源的定位信号至处理器110。在一实施例中,音源检测装置140可为麦克风阵列(Microphone array),并且定位信号包括音源坐标,但本发明并不限于此。
在本实施例中,视频会议设备100可为一个独立且可移动的装置,并且可放置在会议空间中的任何适当位置,例如桌子中央处、会议室的天花板等,以便取得会议空间的会议图像以及检测在会议空间中的声音来源。然而,在另一实施例中,视频会议设备100也可与其他计算机设备或显示设备整合,本发明亦不加以限制。在本实施例中,处理器110可依据定位信号来选取在会议图像中对应于声音来源的第一子会议图像,并且对第一子会议图像进行人脸检测,以检测距离第一子会议图像的中心轴最近的人脸图像。处理器110以人脸图像为图像中心来重新选取在会议图像中的第二子会议图像,并且输出第二子会议图像。换言之,本实施例的处理器110可先依据图像检测装置130提供的会议图像以及音源检测装置140提供的定位信号来决定在会议图像中的第一子会议图像的范围,接着再依据第一子会议图像的人脸检测的判断结果来决定在会议图像中的第二子会议图像的范围。并且,在处理器110所输出的第二子会议图像中,对应于声音来源的人脸图像将位于第二子会议图像的中间位置。也就是说,本实施例的视频会议设备100无须对整张会议图像进行图像处理或人脸辨识,而是以较低的图像处理的数据运算量来自动地产生适当的特写会议图像。
更进一步而言,本实施例的处理器110对第一子会议图像进行人脸检测的方式是读取存储器120中的神经网络模型121,并且将第一子会议图像输入至神经网络模型121,以通过神经网络模型121辨识在第一子会议图像中的至少一人脸。接着,处理器110再依据所述至少一人脸在第一子会议图像中的分布来决定距离第一子会议图像的中心轴最近的人脸图像。另外,本实施例的神经网络模型121可预先通过不同会议情境的多个参考会议图像来进行训练,以使经训练后的神经网络模型121可至少用于辨识第一子会议图像的任意对象是否为人脸。上述的不同会议情境可以是指不同会议背景、不同会议室亮度或不同会议室对象等,而本发明并不加以限制。
在本实施例中,处理器110可包括具有图像数据分析以及计算处理功能的中央处理单元(Central Processing Unit,CPU),或是其他可编程的通用或专用的微处理器(Microprocessor)、图像处理器(Image Processing Unit,IPU)、图形处理器(GraphicsProcessing Unit,GPU)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuits,ASIC)、可编程逻辑设备(ProgrammableLogic Device,PLD)、其他类似运算电路或这些电路的结合。并且,处理器110耦接存储器120,以将用于实现本发明的视频会议方法所需的神经网络模型121、相关图像数据、图像分析软件(Image Analysis Software)以及图像处理软件(Image Processing Software)储存在存储器120中,以供处理器110读取并执行相关的软件程序。存储器120例如是可移动存储器随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash memory)或类似组件或上述组件的组合。在一实施例中,视频会议设备100也可与其他计算机设备或显示设备整合,本发明亦不加以限制。
图2是依照本发明的一实施例的视频会议情境的示意图。图3A是依照本发明的一实施例的第一子会议图像的示意图。图3B是依照本发明的一实施例的第二子会议图像的示意图。参考图1至图3B,视频会议设备100可例如放置于会议桌上,并且多个会议成员201~204坐于会议桌旁。举例而言,图像检测装置130先取得此会议空间的会议图像。接着,当会议成员204说话时,音源检测装置140输出对应于会议成员204的定位信号至处理器110。因此,处理器110将依据定位信号来选取在会议图像中对应于会议成员204的第一子会议图像。然而,由于音源检测装置140提供的定位信号未必完全精准,因此在一实施例中,处理器110可能所选取如图3A所示的包括了会议成员203~204的第一子会议图像310。在此一实施例中,处理器110将对第一子会议图像310进行人脸检测,以检测距离第一子会议图像310的中心轴C1最近的会议成员204的人脸图像301。接着,处理器110以会议成员204的人脸图像301为图像中心来重新选取如图3B所示的第二子会议图像320,并且输出第二子会议图像320。据此,视频会议设备100可将说话的会议成员204的人脸图像301以特写的形式输出,并且自动地将会议成员204的人脸图像301呈现于输出图像的置中位置。
此外,在另一实施例中,视频会议设备100的处理器110还可判断会议成员204的人脸图像301在第二子会议图像320中是否大于第一图像范围阈值或小于第二图像范围阈值,以基于人脸图像301为中心来执行图像缩放操作,并且输出经缩放的第二子会议图像310。换言之,视频会议设备100还可自动地依据说话的会议成员204与视频会议设备100的距离,来适当地调整人脸图像301在第二子会议图像320中的图像大小,进而提供更为适当的说话者的人脸特写图像。然而,上述的第一图像范围阈值以及上述的第二图像范围阈值可依据外部显示设备的显示分辨率来决定,而本发明并不加以限制。
图4是依照本发明的一实施例的视频会议方法的步骤流程图。参考图1以及图4,本实施例的视频会议方法可至少适用于图1实施例的视频会议设备100。在步骤S410中,图像检测装置130取得会议空间的会议图像。在步骤S420中,音源检测装置140检测会议空间的声音来源,并且输出对应于声音来源的定位信号。在步骤S430中,处理器110依据定位信号来选取在会议图像中对应于声音来源的第一子会议图像。在步骤S440中,处理器110对第一子会议图像进行人脸检测,以检测距离第一子会议图像的中心轴最近的人脸图像。在步骤S450中,处理器110以人脸图像为图像中心来选取在会议图像中的第二子会议图像,并且输出第二子会议图像。因此,本实施例的视频会议方法以及视频会议设备100可自动地提供适当的特写会议图像。
另外,关于本实施例的各步骤的实施方式、变化以及其延伸可参照上述图1至图3B实施例的说明而获致足够的教示、建议以及实施说明,因此不再赘述。
图5是依照本发明的另一实施例的会议图像的示意图。再参考图1,在另一实施例中,当音源检测装置140检测到多个声音来源时,音源检测装置140输出对应多个声音来源的多个定位信号至处理器110,以使处理器110依据多个定位信号来分别选取在会议图像中对应于多个声音来源的多个第一子会议图像。并且,处理器110对多个第一子会议图像分别进行人脸检测,以检测分别距离多个第一子会议图像的中心轴最近的多个人脸图像。处理器110分别以多个人脸图像为图像中心来选取在会议图像中的多个第二子会议图像,并且处理器110将多个第二子会议图像合并输出。
因此,参考图1、图2以及图5,举例而言,若会议成员201、204皆发出声音时,则音源检测装置140可分别提供会议成员201、204的两个定位信号至处理器110。因此,处理器110可依据此两个定位信号来决定两个第二子会议图像510、520(详细步骤请参考前述说明)。并且,处理器110将第二子会议图像510、520分别作为两个水平分割画面来合并输出为当前会议画面500。值得注意的是,可类推如上述图3A、3B实施例的方式。会议成员201、204的人脸图像511、521将分别位于两个分割画面中央。据此,在此另一实施例的视频会议设备100可提供同时呈现对应于多说话者的适当的多个特写会议图像。
另外,关于本实施例的视频会议设备的实施方式、变化以及其延伸可参照上述图1至图4实施例的说明而获致足够的教示、建议以及实施说明,因此不再赘述。
图6是依照本发明的又一实施例的会议图像的示意图。参考图1以及图6,在又一实施例中,当处理器110执行类似如上述图3A及图3B实施例所述的方法,而取得会议成员204的人脸图像位于中央的第二子会议图像620后,处理器110可进一步将第二子会议图像620以及会议图像610作为如图6所示的两个垂直分割画面来合并输出为当前会议画面600。换言之,处理器110可将全景会议图像与特写会议图像合并输出,以使当前会议画面600可同时呈现具有所有会议成员201~204的整体会议图像(例如全景会议图像)以及说话的会议成员204的特写图像。据此,在此又一实施例的视频会议设备100可提供另一种适当的特写会议图像。
另外,关于本实施例的视频会议设备的实施方式、变化以及其延伸可参照上述图1至图5实施例的说明而获致足够的教示、建议以及实施说明,因此不再赘述。
综上所述,本发明的视频会议设备以及视频会议方法可通过图像检测装置取得会议空间的全景会议图像,并且依据音源检测装置的定位信号来决定从全景会议图像中撷取对应于声音来源的部分会议图像,其中对应于声音来源的说话者的人脸图像将会自动地置中于所述部分会议图像的中央。因此,本发明的视频会议设备以及视频会议方法可自动地产生适当的特写会议图像,以提供良好视频会议体验。
只是以上所述内容,仅为本发明的较佳实施例而已,当不能以此限定本发明实施的范围,即所有依本发明权利要求书及发明内容所作的简单的等效变化与修改,皆仍属本发明专利涵盖的范围内。另外本发明的任一实施例或权利要求不须达成本发明所公开的全部目的或优点或特点。此外,摘要和发明名称仅是用来辅助专利档检索之用,并非用来限制本发明的权利范围。此外,本说明书或权利要求书中提及的“第一”、“第二”等用语仅用于命名组件(element)的名称或区别不同实施例或范围,而并非用来限制组件数量上的上限或下限。
Claims (20)
1.一种视频会议设备,其特征在于,所述视频会议设备包括图像检测装置、音源检测装置和处理器,其中:
所述图像检测装置用以取得会议空间的会议图像;
所述音源检测装置用以检测所述会议空间的声音来源,并且输出对应于所述声音来源的定位信号;以及
所述处理器耦接所述图像检测装置以及所述音源检测装置,并且用以接收所述会议图像以及所述定位信号,以依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像,
其中所述处理器对所述第一子会议图像进行人脸检测,以检测距离所述第一子会议图像的中心轴最近的人脸图像,其中所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像,并且输出所述第二子会议图像。
2.根据权利要求1所述的视频会议设备,其特征在于,所述处理器将所述第一子会议图像输入至神经网络模型,以辨识在所述第一子会议图像中的至少一人脸,并且所述处理器依据所述至少一人脸在所述第一子会议图像中的分布来决定距离所述第一子会议图像的所述中心轴最近的所述人脸图像。
3.根据权利要求2所述的视频会议设备,其特征在于,所述神经网络模型预先通过不同会议情境的多个参考会议图像进行训练,以至少用于辨识所述第一子会议图像中的任意对象是否为人脸。
4.根据权利要求1所述的视频会议设备,其特征在于,所述处理器判断所述人脸图像在所述第二子会议图像中是否大于第一图像范围阈值或小于第二图像范围阈值,以基于所述人脸图像为中心来执行图像缩放操作,并且输出经缩放的所述第二子会议图像。
5.根据权利要求4所述的视频会议设备,其特征在于,所述处理器耦接外部显示设备,并且所述第一图像范围阈值以及所述第二图像范围阈值依据所述外部显示设备的显示分辨率来决定。
6.根据权利要求1所述的视频会议设备,其特征在于,所述处理器还输出所述会议图像,以将所述第二子会议图像以及所述会议图像作为两个垂直分割画面来合并输出为当前会议画面。
7.根据权利要求1所述的视频会议设备,其特征在于,当所述音源检测装置检测到多个声音来源时,所述音源检测装置输出对应所述多个声音来源的多个定位信号至所述处理器,以使所述处理器依据所述多个定位信号来分别选取在所述会议图像中对应于所述多个声音来源的多个第一子会议图像,
其中所述处理器对所述多个第一子会议图像分别进行人脸检测,以检测分别距离所述多个第一子会议图像的中心轴最近的多个人脸图像,其中所述处理器分别以所述多个人脸图像为图像中心来选取在所述会议图像中的多个第二子会议图像,并且所述处理器将所述多个第二子会议图像合并输出。
8.根据权利要求7所述的视频会议设备,其特征在于,所述处理器将所述多个第二子会议图像作为多个水平分割画面来合并输出为当前会议画面,并且所述多个人脸图像分别位于所述多个分割画面中央。
9.根据权利要求1所述的视频会议设备,其特征在于,所述图像检测装置为360度摄影机,并且所述会议图像包括360度全景图像。
10.根据权利要求1所述的视频会议设备,其特征在于,所述音源检测装置为麦克风阵列,并且所述定位信号包括音源坐标。
11.一种视频会议方法,其特征在于,包括:
通过图像检测装置取得会议空间的会议图像;
通过音源检测装置检测所述会议空间的声音来源,并且输出对应于所述声音来源的定位信号;
通过处理器依据所述定位信号来选取在所述会议图像中对应于所述声音来源的第一子会议图像;
通过所述处理器对所述第一子会议图像进行人脸检测,以检测距离所述第一子会议图像的中心轴最近的人脸图像;以及
通过所述处理器以所述人脸图像为图像中心来选取在所述会议图像中的第二子会议图像,并且输出所述第二子会议图像。
12.根据权利要求11所述的视频会议方法,其特征在于,通过所述处理器对所述第一子会议图像进行所述人脸检测,以检测距离所述第一子会议图像的所述中心轴最近的所述人脸图像的步骤包括:
通过所述处理器将所述第一子会议图像输入至神经网络模型,以辨识在所述第一子会议图像中的至少一人脸;以及
通过所述处理器依据所述至少一人脸在所述第一子会议图像中的分布来决定距离所述第一子会议图像的所述中心轴最近的所述人脸图像。
13.根据权利要求12所述的视频会议方法,其特征在于,所述神经网络模型预先通过不同会议情境的多个参考会议图像进行训练,以至少用于辨识所述第一子会议图像中的任意对象是否为人脸。
14.根据权利要求11所述的视频会议方法,其特征在于,通过所述处理器以所述人脸图像为所述图像中心来选取在所述会议图像中的所述第二子会议图像,并且输出所述第二子会议图像的步骤包括:
通过所述处理器判断所述人脸图像在所述第二子会议图像中是否大于第一图像范围阈值或小于第二图像范围阈值,以基于所述人脸图像为中心来执行图像缩放操作,并且输出经缩放的所述第二子会议图像。
15.根据权利要求14所述的视频会议方法,其特征在于,所述处理器耦接外部显示设备,并且所述第一图像范围阈值以及所述第二图像范围阈值依据所述外部显示设备的显示分辨率来决定。
16.根据权利要求11所述的视频会议方法,其特征在于,所述视频会议方法还包括:
通过所述处理器还输出所述会议图像,以将所述第二子会议图像以及所述会议图像作为两个垂直分割画面来合并输出为当前会议画面。
17.根据权利要求11所述的视频会议方法,其特征在于,所述视频会议方法还包括:
当所述音源检测装置检测到多个声音来源时,通过所述音源检测装置输出对应所述多个声音来源的多个定位信号至所述处理器,以使所述处理器依据所述多个定位信号来分别选取在所述会议图像中对应于所述多个声音来源的多个第一子会议图像;
通过所述处理器对所述多个第一子会议图像分别进行人脸检测,以检测分别距离所述多个第一子会议图像的中心轴最近的多个人脸图像,其中所述处理器分别以所述多个人脸图像为图像中心来选取在所述会议图像中的多个第二子会议图像;以及
通过所述处理器将所述多个第二子会议图像合并输出。
18.根据权利要求17所述的视频会议方法,其特征在于,所述视频会议方法还包括:
通过所述处理器将所述多个第二子会议图像作为多个水平分割画面来合并输出为当前会议画面,并且所述多个人脸图像分别位于所述多个分割画面中央。
19.根据权利要求11所述的视频会议方法,其特征在于,所述图像检测装置为360度摄影机,并且所述会议图像包括360度全景图像。
20.根据权利要求11所述的视频会议方法,其特征在于,所述音源检测装置为麦克风阵列,并且所述定位信号包括音源坐标。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188023.9A CN112866617A (zh) | 2019-11-28 | 2019-11-28 | 视频会议设备以及视频会议方法 |
US16/953,291 US20210168241A1 (en) | 2019-11-28 | 2020-11-19 | Video conference apparatus and video conference method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911188023.9A CN112866617A (zh) | 2019-11-28 | 2019-11-28 | 视频会议设备以及视频会议方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112866617A true CN112866617A (zh) | 2021-05-28 |
Family
ID=75985344
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911188023.9A Pending CN112866617A (zh) | 2019-11-28 | 2019-11-28 | 视频会议设备以及视频会议方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20210168241A1 (zh) |
CN (1) | CN112866617A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI798867B (zh) * | 2021-06-27 | 2023-04-11 | 瑞昱半導體股份有限公司 | 視訊處理方法與相關的系統晶片 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI714318B (zh) * | 2019-10-25 | 2020-12-21 | 緯創資通股份有限公司 | 人臉辨識方法及裝置 |
US20220415003A1 (en) * | 2021-06-27 | 2022-12-29 | Realtek Semiconductor Corp. | Video processing method and associated system on chip |
US11979244B2 (en) * | 2021-09-30 | 2024-05-07 | Snap Inc. | Configuring 360-degree video within a virtual conferencing system |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06178295A (ja) * | 1992-12-09 | 1994-06-24 | Matsushita Electric Ind Co Ltd | テレビ会議用画像信号処理装置及び発言者画面拡大合成装置 |
US20020140804A1 (en) * | 2001-03-30 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method and apparatus for audio/image speaker detection and locator |
CN105592268A (zh) * | 2016-03-03 | 2016-05-18 | 苏州科达科技股份有限公司 | 视频会议系统、处理装置及视频会议方法 |
CN108270989A (zh) * | 2016-12-30 | 2018-07-10 | 中移(杭州)信息技术有限公司 | 一种视频图像处理方法和装置 |
CN108875470A (zh) * | 2017-06-19 | 2018-11-23 | 北京旷视科技有限公司 | 对访客进行登记的方法、装置及计算机存储介质 |
CN108933915A (zh) * | 2017-05-26 | 2018-12-04 | 和硕联合科技股份有限公司 | 视频会议装置与视频会议管理方法 |
CN109257559A (zh) * | 2018-09-28 | 2019-01-22 | 苏州科达科技股份有限公司 | 一种全景视频会议的图像显示方法、装置及视频会议系统 |
-
2019
- 2019-11-28 CN CN201911188023.9A patent/CN112866617A/zh active Pending
-
2020
- 2020-11-19 US US16/953,291 patent/US20210168241A1/en not_active Abandoned
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06178295A (ja) * | 1992-12-09 | 1994-06-24 | Matsushita Electric Ind Co Ltd | テレビ会議用画像信号処理装置及び発言者画面拡大合成装置 |
US20020140804A1 (en) * | 2001-03-30 | 2002-10-03 | Koninklijke Philips Electronics N.V. | Method and apparatus for audio/image speaker detection and locator |
CN105592268A (zh) * | 2016-03-03 | 2016-05-18 | 苏州科达科技股份有限公司 | 视频会议系统、处理装置及视频会议方法 |
CN108270989A (zh) * | 2016-12-30 | 2018-07-10 | 中移(杭州)信息技术有限公司 | 一种视频图像处理方法和装置 |
CN108933915A (zh) * | 2017-05-26 | 2018-12-04 | 和硕联合科技股份有限公司 | 视频会议装置与视频会议管理方法 |
CN108875470A (zh) * | 2017-06-19 | 2018-11-23 | 北京旷视科技有限公司 | 对访客进行登记的方法、装置及计算机存储介质 |
CN109257559A (zh) * | 2018-09-28 | 2019-01-22 | 苏州科达科技股份有限公司 | 一种全景视频会议的图像显示方法、装置及视频会议系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI798867B (zh) * | 2021-06-27 | 2023-04-11 | 瑞昱半導體股份有限公司 | 視訊處理方法與相關的系統晶片 |
Also Published As
Publication number | Publication date |
---|---|
US20210168241A1 (en) | 2021-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112866617A (zh) | 视频会议设备以及视频会议方法 | |
CN111918018B (zh) | 视频会议系统、视频会议设备以及视频会议方法 | |
CN110808048B (zh) | 语音处理方法、装置、系统及存储介质 | |
CN108933915A (zh) | 视频会议装置与视频会议管理方法 | |
US8411130B2 (en) | Apparatus and method of video conference to distinguish speaker from participants | |
US10235010B2 (en) | Information processing apparatus configured to generate an audio signal corresponding to a virtual viewpoint image, information processing system, information processing method, and non-transitory computer-readable storage medium | |
KR20160057867A (ko) | 디스플레이 장치 및 그에 의한 이미지 처리 방법 | |
JP2019220848A (ja) | データ処理装置、データ処理方法及びプログラム | |
EP4135314A1 (en) | Camera-view acoustic fence | |
CN114520888A (zh) | 影像撷取系统 | |
CN110673811B (zh) | 基于声音信息定位的全景画面展示方法、装置及存储介质 | |
CN114257757B (zh) | 视频的自动裁剪切换方法及系统、视频播放器及存储介质 | |
CN113542466A (zh) | 音频处理方法、电子设备及存储介质 | |
JP2010191544A (ja) | 映像音声処理装置、映像音声処理方法、映像音声処理プログラム | |
CN116684647A (zh) | 视频实时传输场景下的设备控制方法、系统及设备 | |
TW201222422A (en) | Method and arrangement for identifying virtual visual information in images | |
CN116527828A (zh) | 一种图像处理方法、装置、电子设备及可读存储介质 | |
Ronzhin et al. | A software system for the audiovisual monitoring of an intelligent meeting room in support of scientific and education activities | |
US10812898B2 (en) | Sound collection apparatus, method of controlling sound collection apparatus, and non-transitory computer-readable storage medium | |
WO2021217897A1 (zh) | 定位方法、终端设备及会议系统 | |
JP2005175839A (ja) | 画像表示装置、画像表示方法、プログラムおよび記憶媒体 | |
TWI791314B (zh) | 視訊會議系統及其方法、感測裝置及介面產生方法 | |
US20200053500A1 (en) | Information Handling System Adaptive Spatialized Three Dimensional Audio | |
US11937057B2 (en) | Face detection guided sound source localization pan angle post processing for smart camera talker tracking and framing | |
KR20190086214A (ko) | 지향성 마이크를 이용한 실감 시청 극대화 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210528 |
|
WD01 | Invention patent application deemed withdrawn after publication |