CN118118615A - 网络视讯装置及视讯会议影像处理方法 - Google Patents
网络视讯装置及视讯会议影像处理方法 Download PDFInfo
- Publication number
- CN118118615A CN118118615A CN202211584811.1A CN202211584811A CN118118615A CN 118118615 A CN118118615 A CN 118118615A CN 202211584811 A CN202211584811 A CN 202211584811A CN 118118615 A CN118118615 A CN 118118615A
- Authority
- CN
- China
- Prior art keywords
- video
- module
- picture
- server
- video device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 230000005540 biological transmission Effects 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims description 16
- 230000001815 facial effect Effects 0.000 claims description 5
- 238000003708 edge detection Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 13
- 238000013528 artificial neural network Methods 0.000 description 2
- XUIMIQQOPSSXEZ-UHFFFAOYSA-N Silicon Chemical compound [Si] XUIMIQQOPSSXEZ-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/69—Control of means for changing angle of the field of view, e.g. optical zoom objectives or electronic zooming
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1083—In-session procedures
- H04L65/1086—In-session procedures session scope modification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1083—In-session procedures
- H04L65/1093—In-session procedures by adding participants; by removing participants
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/58—Means for changing the camera field of view without moving the camera body, e.g. nutating or panning of optics or image sensors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/698—Control of cameras or camera modules for achieving an enlarged field of view, e.g. panoramic image capture
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/268—Signal distribution or switching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computer Networks & Wireless Communication (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开一种网络视讯装置及视讯会议影像处理方法,其中第一端网络视讯装置包含:传输模块,用来接收第二端网络视讯装置撷取的第二端视讯画面;显示模块,用来显示该第二端视讯画面;影像撷取模块,用来获得本地使用者观看显示模块显示的第二端视讯画面的第一端视讯画面;及处理模块,耦接该传输模块、该影像撷取模块以及该显示模块,用来根据该第一端视讯画面产生使用者信息,并执行下述步骤:控制该传输模块通过服务器传送该第一端视讯画面至该第二端网络视讯装置;由该传输模块接收第二端网络视讯装置根据该使用者信息调整的该第二端视讯画面;控制该显示模块显示调整后的该第二端视讯画面。
Description
技术领域
本发明涉及一种主持端视讯装置、与会端视讯装置及视讯会议系统,尤其是指一种自动根据使用者信息调整的第二端视讯画面的视讯会议系统。
背景技术
随着科技的进步,视讯会议的需求不断增加。目前视讯会议使用的视讯装置会自动针对会议参与者谈话时的状态,自动将视讯会议画面对焦到发话者身上。然而,若在视讯会议进行时,发话者正在描述同在现实空间内的一物品,例如桌上的一展示样品,其他与会者无法自动看到该物品的具体影像,需要发话者调整镜头的方向或物品的位置。在此情形下,如何让视讯装置在谈话者描述物品时正确将镜头画面自动聚焦于物品上,使其他远程与会者能看到物品的具体影像就成为业界所努力的目标。
发明内容
本发明的主要目的之一在于提供一网络视讯装置及视讯会议影像处理方法,以解决上述问题。
本发明提供一种主持端视讯装置,包含有一传输模块,用来通过一服务器接收一第二端视讯信号,该第二端视讯信号包含一第二端视讯装置撷取的一第二端视讯画面;一显示模块,用来显示该第二端视讯画面;一影像撷取模块,用来撷取一第一端使用者的一第一端视讯画面;以及一处理模块,耦接该传输模块、该影像撷取模块以及该显示模块,用以根据该第一端视讯画面实时产生一第一端使用者信息,其中该第一端使用者信息包含该第一端使用者观看该第二端视讯画面的一视线方位,并执行下述步骤:控制该传输模块连接该服务器加入一线上视讯会议,该线上视讯会议参与方最少包含该网络视讯装置与该第二端视讯装置;控制该传输模块通过该服务器传送该第一端使用者信息至该第二端视讯装置;由该传输模块通过该服务器接收该第二端视讯信号并获得调整后的该第二端视讯画面,其中调整后的该第二端视讯画面为该第二端视讯装置对应该第一端使用者的视线方位调整后撷取生成的一第二端重要物体画面,并且由该服务器传输给该线上视讯会议参与方;控制该显示模块显示调整后的该第二端视讯画面。
本发明提供一种与会端视讯装置,包含有一影像撷取模块,用来撷取一第二端视讯画面;一传输模块,用以通过一服务器传送一第二端视讯信号至一第一端视讯装置,该第二端视讯信号包含该第二端视讯画面,以及用以通过该服务器接收该第一端视讯装置传输的一第一端视讯画面与根据该第一端视讯画面产生的一第一端使用者信息,其中该第一端使用者信息包含该第一端使用者的一视线方位;以及一处理模块,耦接该传输模块以及该影像撷取模块,用以执行下述步骤:控制该传输模块连接该服务器加入一线上视讯会议,该线上视讯会议参与方最少包含该网络视讯装置与该第二端视讯装置;自该传输模块接收通过该服务器传送的该第一端使用者信息;对应该第一端使用者的视线方位调整该影像撷取模块撷取一重要物体影像,并且产生包含该重要物体影像的调整后的该第二端视讯画面,由该传输模块通过该服务器传输调整后的该第二端视讯画面给该线上视讯会议参与方;控制该显示模块显示该第一端视讯画面与调整后的该第二端视讯画面。
本发明提供一种视讯会议影像处理方法,适于一网络视讯装置,该网络视讯装置具有一传输模块、一显示模块、一影像撷取模块、以及一处理模块,该视讯会议影像处理方法包含:该处理模块控制该传输模块连接一服务器加入一线上视讯会议,该线上视讯会议参与方最少包含该网络视讯装置与一第二端视讯装置;该处理模块控制传输模块通过该服务器接收一第二端视讯信号,该第二端视讯信号包含一第二端视讯装置撷取的一第二端视讯画面;该处理模块控制该显示模块显示该第二端视讯画面;该处理模块控制该影像撷取模块撷取一第一端使用者的观看该第二端视讯画面的一第一端视讯画面;该处理模块根据该第一端视讯画面实时产生一第一端使用者信息,其中该第一端使用者信息包含该第一端使用者观看该第二端视讯画面的一视线方位,该处理模块控制该传输模块通过该服务器传送该第一端视讯画面与该第一端使用者信息至该第二端视讯装置;该处理模块控制该传输模块通过该服务器接收该第二端视讯信号并获得调整后的该第二端视讯画面,其中调整后的该第二端视讯画面为该第二端视讯装置对应该第一端使用者的视线方位调整后撷取生成的一第二端重要物体画面,并且由该服务器传输给该线上视讯会议参与方;该处理模块控制该显示模块显示调整后的该第二端视讯画面。
附图说明
图1为本发明实施例一视讯会议系统的示意图。
图2为本发明实施例一主持端视讯装置的示意图。
图3为本发明实施例一与会端视讯装置的示意图。
图4A为本发明实施例的一影像撷取模块的示意图。
图4B为本发明实施例的对应复数个摄影镜头的复数个视野的示意图。
图5为本发明实施例的一主持人信息产生方法的流程图。
图6及图7为本发明一实施例的一主持人的一视线方位的示意图。
图8为本发明另一实施例的主持人的视线方位的示意图。
图9为本发明一实施例的主持人与第一影像撷取模块的相对位置的示意图。
附图标记说明:1-视讯会议系统;10-服务器;12-第一视讯装置;14-第二视讯装置;20-主持端视讯装置;200-第一处理模块;202-第一影像撷取模块;204-第一传输模块;206-第一显示模块;30-与会端视讯装置;300-第二处理模块;302-第二影像撷取模块;304-第二传输模块;40-影像撷取模块;400-模块壳体;402-上方摄影镜头;404-下方摄影镜头;406-中间摄影镜头;408-左方摄影镜头;410-右方摄影镜头;5-流程;S500,S502,S504,S506-步骤。
具体实施方式
在说明书及权利要求书当中使用了某些词汇来指称特定的元件。所属领域中具有通常知识者应可理解,硬件制造商可能会用不同的名词来称呼同一个元件。本说明书及权利要求书并不以名称的差异来作为区分元件的方式,而是以元件在功能上的差异来作为区分的准则。在通篇说明书及权利要求书当中所提及的“包含”为一开放式的用语,故应解释成“包含但不限定于”。以外,“耦接”一词在此包含任何直接及间接的信号传输连接手段,包含有线网络、无线网络或是两者混合的网络连线等等。
请参考图1,图1为本发明实施例一视讯会议系统1的示意图。视讯会议系统1包含有一服务器10、一第一视讯装置12以及一第二视讯装置14。服务器10耦接第一视讯装置12以及第二视讯装置14,使用者可在服务器10上建立视讯会议并通过视讯装置10、12加入视讯会议,或是通过一视讯装置呼叫另一使用者或视讯装置进行视讯会议通话,服务器10可以接收第一视讯装置12以及第二视讯装置14撷取的视讯内容,并将视讯内容整合后传送给与会的视讯装置。此外,本发明实施例的视讯会议系统1可包含两个或两个以上的视讯装置与服务器10连线进行视讯会议,服务器10可以分析各个与会视讯装置撷取的视讯内容,根据视讯会议画面设定随时对与会视讯装置进行排序,例如,根据当下收到的视讯内容,服务器10决定第一视讯装置12目前为一主持端视讯装置以及第二视讯装置14为一与会端视讯装置,如此一来,主持端视讯装置以及与会端视讯装置可以显示对应服务器10传送过来的视讯内容的视讯画面。需注意的是,在视讯会议进行期间,服务器10随时可以分析视讯内容并重新对视讯装置进行排序,或是由管理或主持视讯会议的使用者主动排序。在一些实施例中,只有第一视讯装置12以及第二视讯装置14与服务器10连接进行视讯会议,其中服务器10分别传输两个视讯装置撷取的视讯内容给对方,或是将两个视讯装置撷取的视讯内容整合在一个视讯画面中再传输给两个视讯装置,其中两个视讯内容的画面区域可能为相同大小或是不同大小,例如一方发话时画面较大,或是固定另一方的视讯画面较大;在一些实施例中,服务器10与两个以上的视讯装置连线进行视讯会议,并依据排序后的结果决定传送哪些视讯装置撷取的视讯内容,其中排序较前的视讯内容在视讯会议画面中的区域较大,例如主持端视讯装置撷取的视讯内容画面最大,排序较后的视讯内容在视讯会议画面中的区域可能较小或不显示。为了方便描述,本发明实施例以第一视讯装置12为主持端视讯装置以及第二视讯装置14为与会端视讯装置为例进行说明,本领域具通常知识者当可根据所需适当改变第一视讯装置12以及第二视讯装置14的排序。
具体而言,请参考图2,图2为本发明实施例一第一端视讯装置20的示意图。第一端视讯装置20包含有一第一处理模块200、一第一影像撷取模块202、一第一传输模块204以及一第一显示模块206。第一传输模块204用来接收与会端视讯装置撷取的一第二端视讯画面,第一显示模块206用来显示第二端视讯画面,第一影像撷取模块202用来撷取一第一端视讯画面。第一处理模块200耦接第一影像撷取模块202、第一传输模块204及第一显示模块206,用以根据第一端视讯画面分析产生至少一第一端使用者信息,具体而言,至少一第一端使用者信息可以用来判断第一端使用者当下观看视讯会议画面时的聚焦内容。例如,第一端使用者信息可以包含:一第一端使用者距离、一第一端使用者脸部位置、一第一端使用者眼睛位置以及一第一端使用者视线方位,而不限于此。在一些实施例中,分析产生至少一第一端使用者信息的步骤亦可由服务器10完成,或是第一端处理模块200分析产生部分第一端使用者信息,例如分析第一端使用者脸部位置,而服务器10产生其他部分的第一端使用者信息。
进一步地,第一端视讯装置20的第一处理模块200可执行下述步骤:控制第一传输模块204通过服务器10传送至少一第一端使用者信息至第二端视讯装置30;由第一传输模块204接收第二端视讯装置30根据第一端使用者信息调整后撷取的第二端实时视讯画面;以及控制第一显示模块206显示调整后撷取的第二端实时视讯画面。举例而言,服务器10可根据登入的第一端使用者为视讯会议创建者、主持人、主讲人等身份,或是一第一端使用者当下正在发言的状态,决定第一端视讯装置20目前为主持端视讯装置,并将至少一第一端使用者信息传送到第二端视讯装置30,第二端视讯装置30根据至少一第一端使用者信息可以判断出该第一端使用者正在观看第二端实时视讯画面中的某一位置,也就是视线聚焦于重要物体(Object of Interest)的影像位置,第二端视讯装置30据此放大第二端实时视讯画面中视线聚焦位置的影像内容并置中,如此一来,调整后的第二端实时视讯画面被传送至第一端视讯装置20并显示于第一显示模块206,第一端使用者即可更清楚地关注重要物体的影像内容或针对性发言讨论。
另一方面,请参考图3,图3为本发明实施例一第二端视讯装置30的示意图。第二端视讯装置30包含有一第二处理模块300、一第二影像撷取模块302以及一第二传输模块304。第二影像撷取模块302用来撷取一第二端视讯画面,第二传输模块304用来通过服务器10传送第二端视讯画面至第一端视讯装置20,以及接收第一端视讯装置20根据第一端视讯画面产生的至少一第一端使用者信息。第二处理模块300耦接第二影像撷取模块302以及第二传输模块304,用来根据至少一第一端使用者信息调整第二影像撷取模块302撷取的第二端视讯画面,并控制第二传输模块304通过服务器10传送调整后的第二端视讯画面至第一端视讯装置20与其他与会视讯装置。举例而言,第二处理模块300根据第一端的至少一第一端使用者信息,可以判断出第一端的一使用者正在观看第二端视讯画面中的重要物体位置,由此第二处理模块300控制第二影像撷取模块302,放大第二端视讯画面中重要物体位置的影像内容作为调整后的第二端视讯画面,第二传输模块304通过服务器10将调整后的第二端视讯画面传送至第一端视讯装置20并显示于第一显示模块206,第一端的使用者即可更清楚地关注或针对重要物体位置的影像内容发言。
需注意的是,图2及图3仅为本发明实施例,本领域具通常知识者当可根据系统所需而适当增加其他元件,如主板、电源、连接线、麦克风模块、声音输出模块等,而不限于此;或者,可以适当装置或设备实现视讯会议系统1,例如,第一影像撷取模块202及第二影像撷取模块302可以是内建或外接式,通过麦克风模块进行杂音消除与抑制,通过声音输出模块进行声音增益调整等。
另一方面,为了使第一影像撷取模块202及第二影像撷取模块302所撷取的第一端视讯画面及第二端视讯画面具有更清楚的画面以及涵盖更宽广的视野,在一实施例中,第一影像撷取模块202及第二影像撷取模块302可以具有多个摄影镜头或摄影装置,例如包含复数个摄影镜头的摄影阵列模块,复数个摄影镜头可以用来同时撷取复数个视讯画面,第一处理模块200可以选择至少一视讯画面以融合成第一端视讯画面,而第二处理模块300可以根据至少一第一端使用者信息选择至少一视讯画面以融合成第二端视讯画面。如此一来,第一端视讯画面及第二端视讯画面可以具有更清楚的画面以及涵盖更宽广的视野。举例来说,请继续参考图4A及图4B,图4A为本发明实施例一影像撷取模块40的示意图。影像撷取模块40包含复数个摄影镜头(一上方摄影镜头402、一下方摄影镜头404、一中间摄影镜头406、一左方摄影镜头408以及一右方摄影镜头410)设置于一模块壳体400上。请继续参考图4B,图4B为本发明实施例对应复数个摄影镜头的复数个视野的示意图,如图4B所示,上方摄影镜头402、下方摄影镜头404、中间摄影镜头406、左方摄影镜头408以及右方摄影镜头410可以撷取分别对应一上视野、一下视野、一中视野、一左视野及一右视野的一上视讯画面、一下视讯画面、一中视讯画面、一左视讯画面及一右视讯画面,因此可在较宽广的视野范围内撷取产生视讯画面。需注意的是,中视野与上视野、下视野、左视野及右视野皆有重叠的区域,如此一来,第一处理模块200及第二处理模块300即可选择至少一视讯画面来融合成第一端视讯画面及第二端视讯画面。例如,当第一端的使用者的视线看向第一显示模块206的左边区域时,第二处理模块300即可选择并融合左视讯画面及中视讯画面,处理调整为第二端视讯画面。进一步地,上方摄影镜头402、下方摄影镜头404、中间摄影镜头406、左方摄影镜头408以及右方摄影镜头410可以是立体摄影镜头(Stereo Cameras),其规格是12MP@120Hz,如此一来,所拍摄的上视讯画面、下视讯画面、中视讯画面、左视讯画面及右视讯画面涵盖的左右视野至少为130度以及上下视野至少为105度,处理模块可以据以在这些视野范围内撷取画面融合处理为视讯画面,例如可实时放大使用者关注区域的撷取画面,并且融合多镜头的撷取画面以呈现更清楚的影像细节。需注意是,复数个摄影镜头亦可以是其他型式或规格的摄影镜头,本领域具通常知识者当可根据所需,分别适当选择每一摄影镜头的型式及规格。
关于第一处理模块200根据第一端视讯画面产生至少一第一端使用者信息,可归纳为一使用者信息产生方法5,如图5所示。使用者信息产生方法5包含以下步骤:
步骤S500:利用一边缘侦测方法侦测一使用者脸部位置。
步骤S502:根据一眼睛特征侦测使用者眼睛位置。
步骤S504:根据使用者眼睛位置判断使用者视线方位。
步骤S506:利用一视觉差公式计算使用者距离。
根据流程5,于步骤S500以及步骤S502中,第一处理模块200利用边缘侦测方法分析第一端视讯画面中使用者的脸部位置,并且利用一深度学习模块,根据眼睛特征来侦测第一端视讯画面中使用者的眼睛位置,深度学习模块可以是一开源计算机视觉库(OpenSource Computer Vision Library,OpenCV)的一深度神经网络(Deep Neural Network,DNN),但不以此为限,且流程5可对第一端视讯画面中的多名使用者同时进行。此外,边缘侦测方法为本领域具通常知识者所熟知,在此不再赘述。如前所述,第一端视讯装置20具有可现场收音的麦克风元件或麦克风阵列,亦可连接到不同位置的麦克风装置以对现场的使用者收音,第一处理模块200可对现场收音进行到达角度估测(Direction Of Arrival,DOA)等实时运算,以判断正在发言的使用者位置,并动态放大发言者的脸部或上半身影像,作为正常的视讯影像传输到服务器10给其他与会的视讯装置。在本发明的实施例中,第二视讯装置30以第二影像撷取模块302撷取前方全景影像作为正常的第二端视讯画面传输到服务器10给其他与会的视讯装置,第二处理模块300同时也可在撷取的视讯影像或是麦克风现场收音中侦测现场的使用者实时位置,并动态放大发言使用者的脸部或上半身实时影像,作为额外的视讯影像传输到服务器10给其他与会的视讯装置。
于步骤S504中,第一处理模块200可以根据眼睛位置判断使用者的视线方位,请继续参考图6及图7,图6及图7为本发明一实施例的使用者的视线方位的示意图。使用者的脸部位置可以包含一水平脸部中线以及一垂直脸部中线,第一处理模块200可以比较眼睛位置与水平脸部中线以及垂直脸部中线的相对位置,以判断使用者的视线方位。例如,如图6所示,当使用者向右边/中间/左边看时,亦即视线方位向右边/中间/左边时,眼睛位置相对于垂直脸部中线会偏右边/中间/左边。相同地,如图7所示,当使用者向上面/中间/下面看时,亦即视线方位向上面/中间/下面时,眼睛位置相对于水平脸部中线会偏上面/中间/下面。如此一来,第二处理模块300可以根据视线方位判断使用者的视线聚焦位置来调整第二端视讯画面,使用者即可更清楚地关注或说明第二端视讯画面中其视线聚焦的重要物体位置的影像内容,以在视讯会议中进行讨论。
进一步而言,请继续参考图8,图8为本发明另一实施例的使用者的视线方位的示意图。眼睛位置可以包含一眼睛中间位置,以及脸部位置可以包含一脸部中间位置,第一处理模块200可以根据眼睛中间位置与脸部中间位置的距离计算一视线角度,如图8所示,视线角度介于0度至180度之间,其中0度表示视线方位向最左方、90度表示视线方位向中间以及180度表示视线方位向最右方,并传输该视线角度到第二视讯装置30。在本发明的实施例中,第一处理模块200会判断使用者的视线是否保持在一特定角度一段时间,或是视线保持在一特定角度并同时发言超过一段时间,例如超过5秒,才将使用者的视线角度传输到第二视讯装置30。在本发明的实施例中,第一处理模块200判断使用者的视线角度是否保持在一特定角度一段时间或同时发言超过一段时间,会判断在一段时间内使用者的视线角度是否改变超过一门坎值,例如5度至20度之间的一角度值,如果改变超过门坎值则不传输视线角度,如果在一段时间内使用者视线角度未改变超过门坎值,则将使用者视线角度传输到第二视讯装置30。在本发明的实施例中,如果在一段时间内使用者视线角度未改变超过门坎值,第一处理模块200传输至第二视讯装置30的使用者视线角度可为使用者最新的视线角度、在该段时间内使用者视线角度的平均值、或是该段时间内使用者保持最久的视线角度。如此一来,第二处理模块300可以根据视线角度更精准判断使用者的视线聚焦位置来调整第二端视讯画面,第一端的使用者即可更清楚地观察第二端视讯画面中其视线聚焦位置的重要物体影像内容,以在视讯会议中进行讨论。
于步骤S504中,第一处理模块200可以利用视觉差公式计算使用者距离。请继续参考图9,图9为本发明一实施例的使用者与第一影像撷取模块202相对位置的示意图。需注意的是,图9中仅绘示出中间摄影镜头406与使用者的相对位置,本领域具通常知识者可以依需求加入上方摄影镜头402、下方摄影镜头404、左方摄影镜头408以及右方摄影镜头410来计算使用者距离。详细来说,第一处理模块200可以利用视觉差公式,根据一人脸平均尺寸与中间摄影镜头406的一感光元件尺寸及一摄影镜头焦距来计算使用者距离。其中视觉差公式如下式(1):
使用者距离=(摄影镜头焦距*人脸平均尺寸)/感光元件尺寸(1)
例如,男人的人脸平均尺寸为14.5公分,女人的人脸平均尺寸为13.3公分。需注意的是,第一处理模块200在侦测脸部位置时亦可以判断使用者的一脸部宽度,如此一来,视觉差公式中的人脸平均尺寸可以侦测出的使用者的脸部宽度取代预设值,以计算使用者距离。在本发明的实施例中,第一处理模块200或第二处理模块300可分析实时撷取的视讯影像计算使用者距离,以判断使用者是否正在参与视讯会议,当判断撷取的视讯影像中意外出现未参加视讯会议的使用者时,第一处理模块200或第二处理模块300可处理撷取的视讯影像,以屏蔽该意外出现的使用者出现在视讯会议画面中。
如前所述,使用第一端视讯装置20和第二端视讯装置30参与视讯会议的使用者身份可随时动态改变,并且可适用于超过两个以上的视讯装置参与的视讯会议中,当使用者发言时会侦测使用者方位进行实时收音处理以及撷取发言使用者的实时影像。在本发明的实施例中,当一使用者持续发言一段时间并未受干扰后,例如持续发言超过7至15秒后,其使用的视讯装置或服务器10可设定其为当下的主持人或发言者,而通知其他与会视讯装置的使用者为非发言者,这时主持人或发言者的视线会被其使用的视讯装置侦测,该视讯装置或服务器10根据目前该视讯装置显示的视讯画面,判断主持人或发言者正在注视视讯画面中的哪个区域,以通知对应该被注视视讯画面区域的远程视讯装置,也就是提供显示在被注视视讯画面区域的视讯画面的远程视讯装置,这时主持人或发言者使用的视讯装置可视为前述的第一端视讯装置20,被主持人或发言者注视的视讯画面区域对应的远程视讯装置可视为第二端视讯装置30,如此远程视讯装置可随主持人或发言者的视线动态调整其撷取的视讯画面,并且主持人或发言者可移动视线以控制调整多个远程视讯装置的一的视讯画面,被调整的远程视讯装置的视讯画面经由服务器10传送到所有与会视讯装置播放,由此所有与会使用者可观看得知目前发言者的关注视讯画面中的哪个部分,而发言使用者被影像撷取模块和麦克风撷取的实时影像画面和实时发言音频也会经由服务器10同步传送到所有与会视讯装置播放。在本发明的实施例中,第二处理模块300对根据第一端使用者视角调整后撷取的视讯影像进行物体侦测和辨识,并加以处理,以放大在视讯影像中辨识出的物体,或是提供该物体的多角度影像供第一端使用者观察,物体可为会议中讨论的产品样品、有讨论事项的白板、投影机或显示器的画面等等。在本发明的实施例中,当第二端视讯装置30的第二影像撷取模块302具有多个摄影镜头,或是连接其他摄影装置时,可同时撷取多个视讯画面并由第二处理模块300处理后传到服务器,例如一个或多个视讯画面为第二影像撷取模块302根据第一端使用者视角调整后撷取的视讯画面,包含第一端使用者正在关注的物体或信息的实时影像,还包括一个或多个视讯画面是第二端视讯装置30现场的使用者实时影像。在本发明的实施例中,当第一端使用者发言结束换其他使用者发言,例如第二端视讯装置30的使用者或第三端视讯装置的使用者发言时,第一端使用者发言时所关注的视讯影像并不会马上关闭或回归原本视角,而是仍保留在各个视讯装置显示的视讯会议画面中一段时间,例如超过7~15秒,下一个发言者发言时若是视线角度也是保持在第一端使用者关注的视讯影像上,其使用的视讯装置会将该发言者的视线视角传输给第二视讯装置30,第二处理模块300收到该发言者的视线视角后控制第二影像撷取模块302继续撷取和第一端使用者发言时同样的视讯影像,否则根据下一个发言者的视线角度调整第二影像撷取模块302撷取新视角的视讯影像,或是回到提供正常的视讯影像,若下一个发言者的视线角度并非关注视讯会议画面中第二端视讯装置的视讯画面区域时,则下一个发言者使用的视讯装置通知第二视讯装置30提供正常的视讯影像,或是停止提供额外视角的视讯画面,并且根据下一个发言者的视线角度通知受其关注的视讯画面区域对应的视讯装置,例如第一端视讯装置20、第三或第四端视讯装置之一,以提供根据下一个发言者的视线角度调整后撷取的视讯画面。在本发明的实施例中,正在发言的使用者的实时影像以及根据发言者的视线角度调整后撷取的视讯画面会被排序为较优先的级别,并被动态调整在视讯会议画面中占有较大或较靠近中央的画面区域,其他未发言使用者也未被发言者关注的视讯影像会被排序较后,并被动态调整在视讯会议画面中占有较小或较边缘的画面区域。
需注意的是,视讯会议系统1为本发明的实施例,本领域具通常知识者当可依本发明的精神加以结合、修饰或变化以上所述的实施例,而不限于此。上述所有的说明、步骤、及/或流程(包含建议步骤),可通过硬件、软件、韧体(即硬件装置与计算机指令的组合,硬件装置中的数据为只读软件数据)、电子系统、或上述装置的组合等方式实现。硬件可包含模拟、数字及混合电路(即微电路、微芯片或硅芯片)。电子系统可包含系统单芯片(systemon chip,SoC)、系统封装(system in package,SiP)、计算机模块(computer on module,CoM)及视讯会议系统1。本发明的流程步骤与实施例可以程序代码或指令的型态存在而储存于内存中。内存可为计算机可读取记录媒体,内存可包括只读存储器(read-onlymemory,ROM)、闪存(Flash Memory)、随机存取内存(random-access memory,RAM)、用户识别模块(Subscriber Identity Module,SIM)、硬盘或光盘只读存储器(CD-ROM/DVD-ROM/BD-ROM),但不以此为限。上述流程及实施例可被编译成程序代码或指令并储存于内存。中央处理器可用于读取与执行内存中所储存的程序代码或指令以实现前述所有步骤与功能。
综上所述,本发明的视讯会议系统可以排序主持端视讯装置以及与会端视讯装置,与会端视讯装置可以根据主持人信息调整第二端视讯画面,如此一来,主持端视讯装置可以显示调整后的第二端视讯画面,例如调整后的第二端视讯画面聚焦于第二端位于现场的样品、白板或其他物体,主持人即可清楚地关注或说明第二端视讯画面中重要物体的影像内容,其他与会者也可同时看到调整后的第二端视讯画面而实时了解主持人正在关注或说明的对象。
以上所述仅为本发明的较佳实施例,凡依本发明权利要求书所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (10)
1.一种网络视讯装置,其特征在于,包含有:
一传输模块,用来通过一服务器接收一第二端视讯信号,该第二端视讯信号包含一第二端视讯装置撷取的一第二端视讯画面;
一显示模块,用来显示该第二端视讯画面;
一影像撷取模块,用来撷取一第一端使用者的一第一端视讯画面;以及
一处理模块,耦接该传输模块、该影像撷取模块以及该显示模块,用以根据该第一端视讯画面实时产生一第一端使用者信息,其中该第一端使用者信息包含该第一端使用者观看该第二端视讯画面的一视线方位,并执行下述步骤:
控制该传输模块连接该服务器加入一线上视讯会议,该线上视讯会议参与方最少包含该网络视讯装置与该第二端视讯装置;
控制该传输模块通过该服务器传送该第一端使用者信息至该第二端视讯装置;
由该传输模块通过该服务器接收该第二端视讯信号并获得调整后的该第二端视讯画面,其中调整后的该第二端视讯画面为该第二端视讯装置对应该第一端使用者的视线方位调整后撷取生成的一第二端重要物体画面,并且由该服务器传输给该线上视讯会议参与方;
控制该显示模块显示调整后的该第二端视讯画面。
2.如权利要求1所述的网络视讯装置,其特征在于,该影像撷取模块包含有复数个摄影镜头,用来撷取复数个视讯画面,其中该处理模块选择至少一视讯画面以融合成该第一端视讯画面。
3.如权利要求1所述的网络视讯装置,其特征在于,该复数个摄影镜头包含一上方摄影镜头、一下方摄影镜头、一中间摄影镜头、一左方摄影镜头以及一右方摄影镜头,该复数个摄影镜头拍摄的一左右视野至少为130度以及一上下视野至少为105度。
4.如权利要求1所述的网络视讯装置,其特征在于,根据该第一端视讯画面产生该第一端使用者信息的步骤包含有:
利用一视觉差公式计算一使用者距离;
利用一边缘侦测方法侦测该使用者的一脸部位置;
根据一眼睛特征侦测该使用者的一眼睛位置;以及
根据该眼睛位置判断该使用者的一视线方位。
5.如权利要求4所述的网络视讯装置,其特征在于,该视觉差公式根据该影像撷取模块的一感光元件尺寸、一摄影镜头焦距以及一人脸平均尺寸计算该使用者距离。
6.如权利要求4所述的网络视讯装置,其特征在于,根据该眼睛位置判断该使用者的该视线方位的步骤包含有:
根据该眼睛位置与该脸部位置的一水平脸部中线及一垂直脸部中线的相对位置判断该视线方位。
7.一种网络视讯装置,其特征在于,包含有:
一影像撷取模块,用来撷取一第二端视讯画面;
一传输模块,用以通过一服务器传送一第二端视讯信号至一第一端视讯装置,该第二端视讯信号包含该第二端视讯画面,以及用以通过该服务器接收该第一端视讯装置传输的一第一端视讯画面与根据该第一端视讯画面产生的一第一端使用者信息,其中该第一端使用者信息包含该第一端使用者的一视线方位;以及
一处理模块,耦接该传输模块以及该影像撷取模块,
用以执行下述步骤:
控制该传输模块连接该服务器加入一线上视讯会议,该线上视讯会议参与方最少包含该网络视讯装置与该第二端视讯装置;
自该传输模块接收通过该服务器传送的该第一端使用者信息;
对应该第一端使用者的视线方位调整该影像撷取模块撷取一重要物体影像,并且产生包含该重要物体影像的调整后的该第二端视讯画面,由该传输模块通过该服务器传输调整后的该第二端视讯画面给该线上视讯会议参与方;
控制该显示模块显示该第一端视讯画面与调整后的该第二端视讯画面。
8.如权利要求7所述的网络视讯装置,其特征在于,该影像撷取模块包含有复数个摄影镜头,用来撷取复数个视讯画面,其中该处理模块根据该第一端使用者信息选择至少一视讯画面以融合成该第二端视讯画面。
9.如权利要求7所述的网络视讯装置,其特征在于,该复数个摄影镜头包含一上方摄影镜头、一下方摄影镜头、一中间摄影镜头、一左方摄影镜头以及一右方摄影镜头,该复数个摄影镜头拍摄的一左右视野至少为130度以及一上下视野至少为105度。
10.一种视讯会议影像处理方法,适于一网络视讯装置,该网络视讯装置具有一传输模块、一显示模块、一影像撷取模块以及一处理模块,其特征在于,该视讯会议影像处理方法包含:
该处理模块控制该传输模块连接一服务器加入一线上视讯会议,该线上视讯会议参与方最少包含该网络视讯装置与一第二端视讯装置;
该处理模块控制传输模块通过该服务器接收一第二端视讯信号,该第二端视讯信号包含一第二端视讯装置撷取的一第二端视讯画面;
该处理模块控制该显示模块显示该第二端视讯画面;
该处理模块控制该影像撷取模块撷取一第一端使用者的观看该第二端视讯画面的一第一端视讯画面;
该处理模块根据该第一端视讯画面实时产生一第一端使用者信息,其中该第一端使用者信息包含该第一端使用者观看该第二端视讯画面的一视线方位,
该处理模块控制该传输模块通过该服务器传送该第一端视讯画面与该第一端使用者信息至该第二端视讯装置;
该处理模块控制该传输模块通过该服务器接收该第二端视讯信号并获得调整后的该第二端视讯画面,其中调整后的该第二端视讯画面为该第二端视讯装置对应该第一端使用者的视线方位调整后撷取生成的一第二端重要物体画面,并且由该服务器传输给该线上视讯会议参与方;
该处理模块控制该显示模块显示调整后的该第二端视讯画面。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW111145613A TW202423109A (zh) | 2022-11-29 | 2022-11-29 | 主持端視訊裝置、與會端視訊裝置及視訊會議系統 |
TW111145613 | 2022-11-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118118615A true CN118118615A (zh) | 2024-05-31 |
Family
ID=91191437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211584811.1A Pending CN118118615A (zh) | 2022-11-29 | 2022-12-09 | 网络视讯装置及视讯会议影像处理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240179390A1 (zh) |
CN (1) | CN118118615A (zh) |
TW (1) | TW202423109A (zh) |
-
2022
- 2022-11-29 TW TW111145613A patent/TW202423109A/zh unknown
- 2022-12-09 CN CN202211584811.1A patent/CN118118615A/zh active Pending
-
2023
- 2023-09-03 US US18/241,894 patent/US20240179390A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
TW202423109A (zh) | 2024-06-01 |
US20240179390A1 (en) | 2024-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8274544B2 (en) | Automated videography systems | |
US8237771B2 (en) | Automated videography based communications | |
US8289363B2 (en) | Video conferencing | |
US8154578B2 (en) | Multi-camera residential communication system | |
US8253770B2 (en) | Residential video communication system | |
US8154583B2 (en) | Eye gazing imaging for video communications | |
US8159519B2 (en) | Personal controls for personal video communications | |
US8063929B2 (en) | Managing scene transitions for video communication | |
CN108419016B (zh) | 拍摄方法、装置及终端 | |
US8749607B2 (en) | Face equalization in video conferencing | |
US6611281B2 (en) | System and method for providing an awareness of remote people in the room during a videoconference | |
US20100118112A1 (en) | Group table top videoconferencing device | |
US11218669B1 (en) | System and method for extracting and transplanting live video avatar images | |
US11496675B2 (en) | Region of interest based adjustment of camera parameters in a teleconferencing environment | |
US20220264156A1 (en) | Context dependent focus in a video feed | |
EP3884461B1 (en) | Selective distortion or deformation correction in images from a camera with a wide angle lens | |
CN118118615A (zh) | 网络视讯装置及视讯会议影像处理方法 | |
WO2022007681A1 (zh) | 拍摄控制方法、移动终端和计算机可读存储介质 | |
TWI248021B (en) | Method and system for correcting out-of-focus eyesight of attendant images in video conferencing | |
KR20220057439A (ko) | 안면 인식 기반 안면 트래킹 방법 | |
JP2012114511A (ja) | 会議システム | |
JP2020057875A (ja) | 通信端末、通信システム、撮像装置及び撮像方法 | |
TWI799048B (zh) | 環景影像會議系統及方法 | |
CN118675217A (zh) | 电子装置及其与会者关注度分析方法 | |
CN118590605A (zh) | 用于主持元宇宙虚拟会议的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |