TWI757940B

TWI757940B - 視訊會議系統及其排除打擾的方法

Info

Publication number: TWI757940B
Application number: TW109137675A
Authority: TW
Inventors: 阮鈺珊; 曹淩帆; 廖述群; 范聖欣; 黃宇杰
Original assignee: 宏碁股份有限公司
Priority date: 2020-10-29
Filing date: 2020-10-29
Publication date: 2022-03-11
Also published as: US20220141396A1; US11812185B2; TW202218415A

Abstract

一種視訊會議系統及其排除打擾的方法。所述方法包括下列步驟。啟始視訊會議，並透過影像擷取裝置獲取視訊串流。利用深度學習模型偵測視訊串流中第一視訊畫面內的至少一第一影像物件。判斷至少一第一影像物件是否為打擾物件。反應於判定至少一第一影像物件為打擾物件，自第一視訊畫面移除打擾物件。

Description

視訊會議系統及其排除打擾的方法

本發明是有關於一種視訊會議系統，且特別是有關於一種視訊會議系統及其排除打擾的方法。

隨著新型冠狀病毒疫情在全世界國家的爆發，讓許多人居家使用視訊會議進行遠端上班或線上課程的需求遽增。在進行視訊會議的過程中，使用者所在的周圍環境有時候可能會發生無法預期的打擾而影響到視訊會議的進行，例如，在居家的使用情境，家人或寵物可能未注意而闖入視訊會議的背景而造成影像打擾，或是小孩或寵物突然發出干擾聲音而影響視訊會議的進行。

有鑑於此，本發明提出一種視訊會議系統及其排除打擾的方法，可以在不影響其他會議參與者的情況下，盡快地排除視訊會議的打擾。

本發明實施例提供一種排除打擾的方法，適用於視訊會議系統，並包括下列步驟。啟始視訊會議，並透過影像擷取裝置獲取視訊串流。利用深度學習模型偵測視訊串流中第一視訊畫面內的至少一第一影像物件。判斷至少一第一影像物件是否為打擾物件。反應於判定至少一第一影像物件為打擾物件，自第一視訊畫面移除打擾物件。

本發明實施例提供一種視訊會議系統，其包括顯示器、影像擷取裝置、儲存裝置以及處理器。處理器耦接顯示器、影像擷取裝置與儲存裝置，並經配置以執行下列步驟。啟始視訊會議，並透過影像擷取裝置獲取視訊串流。利用深度學習模型偵測視訊串流中第一視訊畫面內的至少一第一影像物件。判斷至少一第一影像物件是否為打擾物件。反應於判定至少一第一影像物件為打擾物件，自第一視訊畫面移除打擾物件。

基於上述，於本發明的實施例中，當使用者的周遭環境出現打擾時，視訊會議系統可以自動偵測出視訊畫面中出現打擾物件，進而消除視訊畫面中的打擾物件。基此，視訊會議的打擾可以即時地被排除，從而提升視訊會議的流暢度。

為讓本發明的上述特徵和優點能更明顯易懂，下文特舉實施例，並配合所附圖式作詳細說明如下。

本發明的部份實施例接下來將會配合附圖來詳細描述，以下的描述所引用的元件符號，當不同附圖出現相同的元件符號將視為相同或相似的元件。這些實施例只是本發明的一部份，並未揭示所有本發明的可實施方式。更確切的說，這些實施例只是本發明的專利申請範圍中的方法與系統的範例。

圖1是依照本發明一實施例的視訊會議系統的方塊圖。請參照圖1，視訊會議系統10包括顯示器110、儲存裝置120、處理器130以及影像擷取裝置140。處理器130耦接至顯示器110、儲存裝置120與影像擷取裝置140。在一些實施例中，視訊會議系統10可以實施為包括具有顯示器110、儲存裝置120與處理器130的電腦系統，以及外接於上述電腦系統的影像擷取裝置140。例如，視訊會議系統10可以是由筆記型電腦或桌上型電腦與外接攝影機而構成，本發明不在此設限。在一些實施例中，視訊會議系統10可以是將顯示器110、儲存裝置120、處理器130以及影像擷取裝置140整合為單一電子裝置而實施。例如，視訊會議系統10可實施為智慧型手機、平板電腦、筆記型電腦等具備影像擷取功能的電子裝置，本發明不在此設限。

顯示器110可以是液晶顯示器（Liquid Crystal Display，LCD）、發光二極體（Light Emitting Diode，LED）顯示器、有機發光二極體（Organic Light Emitting Diode，OLED）等各類型的顯示器，本發明對此不限制。

儲存裝置120用以儲存檔案、影像、指令、程式碼、軟體元件等等資料，其可以例如是任意型式的固定式或可移動式隨機存取記憶體（random access memory，RAM）、唯讀記憶體（read-only memory，ROM）、快閃記憶體（flash memory）、硬碟或其他類似裝置、積體電路及其組合。

影像擷取裝置140用以拍攝畫面而產生視訊串流，並且包括具有透鏡以及感光元件的攝像鏡頭。感光元件用以感測進入透鏡的光線強度，進而產生影像。感光元件可以例如是電荷耦合元件（charge coupled device，CCD）、互補性氧化金屬半導體（complementary metal-oxide semiconductor，CMOS）元件或其他元件，本發明不在此設限。

處理器130耦接顯示器110、儲存裝置120以及影像擷取裝置140，用以控制視訊會議系統10的整體動作。處理器130可以是中央處理單元（Central Processing Unit，CPU），或是其他可程式化之一般用途或特殊用途的微處理器（Microprocessor）、數位訊號處理器（Digital Signal Processor，DSP）、可程式化控制器、特殊應用積體電路（Application Specific Integrated Circuits，ASIC）、可程式化邏輯裝置（Programmable Logic Device，PLD）、或其他類似裝置或這些裝置的組合。處理器130可執行記錄於儲存裝置120中的程式碼、軟體模組、指令等等，以實現本發明實施例的排除打擾的方法。

圖2是依照本發明一實施例的排除打擾的方法的流程圖。請參照圖2，本實施例的方法適用於上述實施例的視訊會議系統10，以下即搭配視訊會議系統10中的各項元件說明本實施例的詳細步驟。

於步驟S201，處理器130啟始視訊會議，並透過影像擷取裝置140獲取視訊串流。處理器130可透過執行一視訊會議軟體而啟始視訊會議，而顯示器110可顯示視訊會議軟體的使用者介面。於進行視訊會議的期間，影像擷取裝置140持續地擷取影像而產生視訊串流。影像擷取裝置140可將視訊串流提供給由處理器130與儲存裝置120組成的電腦系統。視訊串流可包括分別對應至不同時間點的多張視訊畫面。處理器130可持續地將包括使用者的視訊畫面經由網路提供給其他會議參與者。

於步驟S202，處理器130利用深度學習模型偵測視訊串流中第一視訊畫面內的至少一第一影像物件。深度學習模型用以進行物件偵測（object detection）。上述深度學習模型可為卷積層類神經網路（Convolution Neural Network，CNN）模型中用以進行物件偵測的R-CNN、Fast R-CNN、Faster R-CNN、YOLO或SSD等等，本發明對於深度學習模型所使用的網路架構並不限制。詳細而言，在影像擷取裝置140擷取當前視訊畫面（即第一視訊畫面）之後，處理器130可利用深度學習模型來偵測並辨識對應至至少一種物件分類結果的一或多個第一影像物件。舉例而言，處理器130可利用深度學習模型而偵測出當前視訊畫面內被分類為“人”的一或多個第一影像物件。換言之，處理器130也可能透過深度學習模型而偵測出當前視訊畫面內對應至不同物件分類結果的多個第一影像物件。

於步驟S203，處理器130判斷至少一第一影像物件是否為打擾物件。詳細而言，於一實施例中，在獲取當前視訊畫面（即第一視訊畫面）內的第一影像物件之後，處理器130可利用另一深度學習模型而直接辨識所有第一影像物件是否為打擾物件，從而判斷當前視訊畫面是否包括打擾物件。於一實施例中，在獲取當前視訊畫面（即第一視訊畫面）內的第一影像物件之後，處理器130可透過比對當前視訊畫面的影像物件與先前視訊畫面的影像物件來判斷當前視訊畫面是否包括打擾物件。

於步驟S204，反應於判定至少一第一影像物件為打擾物件，處理器130自第一視訊畫面移除打擾物件。於是，處理器130可將不具有打擾物件的第一視訊畫面提供給其他會議參與者，使得視訊會議的其他會議參與者不會看到打擾物件。需說明的是，於一些實施例中，在判定至少一第一影像物件為打擾物件之後，處理器130更可依據第一影像物件的位置資訊來移除第一視訊畫面之後擷取的其他視訊畫面中的打擾物件。

於一實施例中，處理器130可使用不具有打擾物件的視訊畫面取代第一視訊畫面，從而達到移除打擾物件的目的。舉例而言，反應於判定第一視訊畫面包括打擾物件，處理器130可將第一視訊畫面替代成3秒之前擷取的視訊畫面。或者，於一實施例中，處理器130可透過各式影像處理技術而自第一視訊畫面移除打擾物件，像是使用預設圖案覆蓋打擾物件或使打擾物件模糊化等等。或者，於一實施例中，處理器130可利用第三視訊畫面的第一區域取代第一視訊畫面中包括所述打擾物件的第二區域，從而達到移除打擾物件的目的。第三視訊畫面可為在視訊會議開始之前所拍攝的背景畫面。或者，上述第三視訊畫面也可為在第一視訊畫面之前擷取的視訊畫面。

舉例而言，圖3是依照本發明一實施例的移除打擾物件的示意圖。請參照圖3，處理器130可以利用背景畫面Img_b的第一區域310取代第一視訊畫面Img_1中包括打擾物件Obj_in的第二區域320，以產生經處理的第一視訊畫面Img_1’。於一些實施例中，包括打擾物件Obj_in的第二區域320的尺寸與位置可由深度學習模型所提供的邊界框（Bonding Box）而決定，並進而獲取第一區域310的尺寸與位置。

基於前述可知，處理器130可透過不同判斷機制來判斷第一視訊畫面中的第一影像物件物否為打擾物件。以下將分別列舉實施例以說明。

圖4是依照本發明一實施例的排除打擾的方法的流程圖。請參照圖4，本實施例的方法適用於上述實施例的視訊會議系統10，以下即搭配視訊會議系統10中的各項元件說明本實施例的詳細步驟。

於步驟S401，處理器130啟始視訊會議，並透過影像擷取裝置140獲取視訊串流。於步驟S402，反應於觸發操作，處理器130自視訊串流選取基準視訊畫面。接著，於步驟S403，處理器130利用深度學習模型偵測基準視訊畫面內的至少一基準影像物件。詳細而言，觸發操作可為一使用者輸入操作，使用者可透過此使用者輸入操作啟動視訊會議系統10執行防干擾功能。此使用者輸入操作可以是語音輸入、觸控輸入、滑鼠輸入或鍵盤輸入等等，本發明對此不限制。舉例而言，使用者可透過按下特定功能鍵而啟動視訊會議系統10執行防干擾功能。反應於接收觸發操作，處理器130可將某一先前視訊畫面設置為基準視訊畫面，並將基準視訊畫面內的基準影像物件歸類為非打擾物件。此外，利用深度學習模型偵測基準視訊畫面內的基準影像物件的操作內容相似於利用深度學習模型偵測視訊串流中第一視訊畫面內的第一影像物件的操作內容，可參照前述實施例說明。

於步驟S404，處理器130利用深度學習模型偵測視訊串流中第一視訊畫面內的至少一第一影像物件。於步驟S405，處理器130判斷至少一第一影像物件是否為打擾物件。於本實施例中，步驟S405可實施為步驟S4051～S4053。

於步驟S4051，透過比對第一視訊畫面內的至少一第一影像物件以及一基準視訊畫面內的至少一基準影像物件，處理器130可判斷至少一第一影像物件是否為打擾物件。於一實施例中，依據基準影像物件的物件分類結果與影像位置以及第一影像物件的物件分類結果與影像位置，處理器130可判斷第一視訊畫面內的第一影像物件是否對應至基準視訊畫面內的基準影像物件，亦即第一影像物件與基準影像物件是否對應至相同的真實場景物件。基於基準視訊畫面內的基準影像物件歸類為非打擾物件的準則，若處理器130發現某一第一影像物件未對應至基準影像物件，因而可判定此第一影像物件為新出現的打擾物件。

於是，於步驟S4052，反應於至少一第一影像物件未對應至至少一基準影像物件，處理器130判定至少一第一影像物件為打擾物件。於步驟S4053，反應於至少一第一影像物件對應至至少一基準影像物件，處理器130判定至少一第一影像物件並非為打擾物件。舉例而言，在接收觸發操作之前所擷取的基準視訊畫面內包括兩位會議參與者的基準影像物件，則第一視訊畫面中兩位會議參與者所對應的第一影像物件將不會被處理器130判定為打擾物件。於步驟S406，反應於判定至少一第一影像物件為打擾物件，處理器130自第一視訊畫面移除打擾物件。

圖5是依照本發明一實施例的比對視訊畫面來偵測打擾物件的示意圖。請參照圖5，反應於於時間t2接收到觸發操作，處理器130可決定出於時間點t1所擷取的基礎視訊畫面Img_r。舉例而言，基礎視訊畫面Img_r可以是觸發操作前2秒所擷取的視訊畫面。處理器130可自基礎視訊畫面Img_r偵測出基準影像物件Obj_r1。接著，處理器130可獲取於時間點t3所擷取的第一視訊畫面Img_c，並自第一視訊畫面Img_c偵測出兩個第一影像物件Obj_c1、Obj_c2。反應於判定第一影像物件Obj_c1對應至基準影像物件Obj_r1，處理器130可判定第一影像物件Obj_c1並非為打擾物件。反應於判定第一影像物件Obj_c2未對應至任何基準影像物件，處理器130可判定第一影像物件Obj_c2為打擾物件。於是，處理器130可將第一影像物件Obj_c2自第一視訊畫面Img_c移除之後，再將未包括第一影像物件Obj_c2的經處理視訊畫面提供給其他會議參與者。

圖6是依照本發明一實施例的排除打擾的方法的流程圖。請參照圖6，本實施例的方法適用於上述實施例的視訊會議系統10，以下即搭配視訊會議系統10中的各項元件說明本實施例的詳細步驟。此外，為了更清楚的說明，請共同參照圖6與圖7，圖7是依照本發明一實施例的利用深度學習模型來偵測打擾物件的示意圖。

於步驟S601，處理器130利用影像擷取裝置140擷取一背景畫面Img_b。背景畫面Img_b包括使用者進行視訊會議的背景。在一些實施例中，背景畫面Img_b可以是在視訊會議開始時先行拍攝的畫面。舉例來說，第一畫面210可以是啟始視訊會議前5秒所拍攝的視訊畫面，本發明對此不限制。

於步驟S602，處理器130利用影像擷取裝置140對使用者擷取多張第二視訊畫面Img_t1～Img_tn。第二視訊畫面Img_t1～Img_tn可以是在啟始視訊會議前所拍攝的視訊畫面，也可於進行視訊會議期間所拍攝的視訊畫面。第二視訊畫面Img_t1～Img_tn包括使用者的影像。

於步驟S603，處理器130依據背景畫面Img_b對第二視訊畫面Img_t1～Img_tn執行影像相減操作而獲取多個人臉影像Img_f1～Img_fn。處理器130可依據背景相減法（background subtraction）而逐一將第二視訊畫面Img_t1～Img_tn與背景畫面Img_b相減以獲取多個人臉影像Img_f1～Img_fn。

於步驟S604，處理器130將人臉影像Img_f1～Img_fn作為訓練資料集來訓練另一深度學習模型M1。於此，處理器130將利用訓練資料集來訓練一個影像分類器，其中此影像分類器為基於深度學習演算法的影像辨識模型。於步驟S604中所訓練的深度學習模型M1用以將模型輸入影像物件分類為打擾物件或非打擾物件。在一些實施例中，此影像分類器可以是基於卷積神經網路（Convolutional Neural Network，CNN）或其他深度學習演算法。更具體而言，在規劃好深度學習模型M1的卷積神經網路架構後，必須利用人臉影像Img_f1～Img_fn與各張人臉影像Img_f1～Img_fn的分類解答資訊來決定深度學習模型M1中的權重資訊，從而訓練出深度學習模型M1。舉例而言，這些人臉影像Img_f1～Img_fn的分類解答資訊可分別為非打擾物件而被標記為分類結果“1”。

於步驟S605，處理器130啟始視訊會議，並透過影像擷取裝置140獲取視訊串流。於步驟S606，處理器130利用深度學習模型偵測視訊串流中第一視訊畫面Img_c內的至少一第一影像物Obj_c1、Obj_c2。步驟S606中的深度學習模型與深度學習模型M1為相異的模型，步驟S606為用於進行物件偵測的深度學習模型。於步驟S607，處理器130判斷至少一第一影像物件Obj_c1、Obj_c2是否為打擾物件。於本實施例中，步驟S607可實施為步驟S6071～S6073。

於步驟S6071，透過利用另一深度學習模型M1將至少一第一影像物件Obj_c1、Obj_c2分類為打擾物件或非打擾物件，處理器130判斷至少一第一影像物件Obj_c1、Obj_c2是否為打擾物件。換言之，處理器130可利用於步驟S604中訓練出來的深度學習模型M1來辨認各個第一影像物件Obj_c1、Obj_c2是否為打擾物件。舉例來說，在一些實施例之中，處理器130可以利用深度學習模型M1將第一影像物件Obj_c1、Obj_c2分為“1”或“0”兩個分類結果。若分類結果為“1”，則代表模型輸入影像物件為使用者的人臉影像；若分類結果為“0”，則代表模型輸入影像物件並非為使用者的人臉影像。

於是，於步驟S6072，反應於另一深度學習模型M1將至少一第一影像物件Obj_c2分類為打擾物件，處理器130判定至少一第一影像物件Obj_c2為打擾物件。於步驟S6073，反應於另一深度學習模型M1將至少一第一影像物件Obj_c1分類為非打擾物件，處理器130判定至少一第一影像物件Obj_c1並非為打擾物件。

於步驟S608，反應於判定至少一第一影像物件Obj_c2為打擾物件，處理器130自第一視訊畫面移除打擾物件。之後，處理器130可將第一影像物件Obj_c2自第一視訊畫面Img_c移除之後，再將未包括第一影像物件Obj_c2的經處理視訊畫面提供給其他會議參與者。

圖8是依照本發明另一實施例所繪示之視訊會議系統的方塊圖。請參照圖8，在一實施例中，視訊會議系統10更包括耦接至處理器130的麥克風150。麥克風150用以接收聲音訊號。在一些實施例中，麥克風150可以是內嵌於筆記型電腦、桌上型電腦、智慧型手機與平板電腦等電子裝置的內建麥克風。在另一些實施例中，麥克風150可以是獨立於電腦系統之外接麥克風，本發明對此不限制。

圖9是依照本發明一實施例的排除打擾的方法的流程圖。請參照圖9，本實施例的方法適用於上述實施例的視訊會議系統10，以下即搭配圖8中視訊會議系統10中的各項元件說明本實施例的詳細步驟。

於步驟S901，處理器130啟始視訊會議，並透過影像擷取裝置140獲取視訊串流。於步驟S902，處理器130利用深度學習模型偵測視訊串流中第一視訊畫面內的至少一第一影像物件。於步驟S903，處理器130判斷至少一第一影像物件是否為打擾物件。於步驟S904，反應於判定至少一第一影像物件為打擾物件，處理器130自第一視訊畫面移除打擾物件。上述步驟的詳細實施內容以於前述實施例說明，於此不再贅述。

於步驟S905，於進行視訊會議的期間，處理器130利用麥克風150獲取聲音訊號。具體來說，麥克風150所接收的聲音訊號可能包括使用者說話的聲音與使用者所在周圍環境的聲音，例如寵物的叫聲、其他人的說話聲音或是其他突發的聲響，本發明對此不限制。在正常情況下，使用者對麥克風輸入的聲音訊號的音量不會有劇烈變化且會小於音量門檻值。因此，若處理器130判定聲音訊號的音量超過音量門檻值，則可推斷為有干擾聲音出現。

於步驟S906，反應於聲音訊號的音量大於音量門檻值，處理器130將麥克風150調整為靜音模式。於步驟S907，反應於聲音訊號的音量未大於音量門檻值，處理器130將麥克風150調整為正常收音模式。也就是說，處理器130持續判斷麥克風150所接收的聲音訊號的音量是否超過音量門檻值，此音量門檻值可以為一預設值或處理器130依據音量紀錄而決定的統計值。舉例而言，處理器130可判斷聲音訊號的音量分貝值(dB)是否大於音量門檻值。於一實施例中，反應於聲音訊號的音量從大音量門檻值轉換為小於音量門檻值，處理器130可將麥克風150從靜音模式切換為正常收模式。

於一實施例中，音量門檻值可依據預設時段內的音量紀錄來決定。處理器130可記錄麥克風150所接收的聲音訊號於預設時段內的音量紀錄，並依據此音量紀錄決定音量門檻值。於一實施例中，處理器130可對預設時段內的音量記錄進行統計計算而獲取一統計值，並將此統計值作為音量門檻值。上述統計值可以為四分位數等等。此外，本發明實施例對於預設時段的長度並不限制，其可是實際需求而設置。

舉例而言，處理器130採樣並記錄每一秒的音量分貝值(dB)，並持續儲存最近10分鐘之內總共600筆音量記錄。像是，音量記錄可以如下表1所示：表1

時間(時:分:秒)	音量(dB)
10:43:21	61.2
10:43:22	59.8
…
11:43:21	62.4

接著，處理器130可以依據表1內的音量記錄決定音量門檻值。像是，處理器130可獲取表1內的音量記錄的第三四分位數為61.9(dB)，將第三四分位數61.9(dB)作為音量門檻值。

綜上所述，於本發明的實施例中，當使用者在進行視訊會議時，視訊會議系統可以自動偵測干擾聲音與視訊畫面中的打擾物件，並自動將干擾聲音與作為打擾物件的影像物件濾除。基此，其他會議參與者將不會被這些干擾聲音或打擾物件嚴重影響，而使視訊會議被中斷。藉此，本發明實施例能讓使用者於進行視訊會議期間時，即時地地排除視訊會議的打擾，使視訊會議可以流暢地且順利地進行。

雖然本發明已以實施例揭露如上，然其並非用以限定本發明，任何所屬技術領域中具有通常知識者，在不脫離本發明的精神和範圍內，當可作些許的更動與潤飾，故本發明的保護範圍當視後附的申請專利範圍所界定者為準。

10:視訊會議系統 110:顯示器 120:儲存裝置 130:處理器 140:攝影機 150:麥克風 310:第一區域 320:第二區域 Img_b:背景畫面 Img_1、Img_c:第一視訊畫面 Img_1’:經處理的第一視訊畫面 Obj_in:打擾物件 Img_r:基礎視訊畫面 Obj_c1、Obj_c2:第一影像物件 Obj_r1:基準影像物件 Img_t1～Img_tn:第二視訊畫面 Img_f1～Img_fn:人臉影像 M1:深度學習模型 S201～S204, S401～S406, S601～S608, S901～S906:步驟

圖1是依照本發明一實施例的視訊會議系統的方塊圖。圖2是依照本發明一實施例的排除打擾的方法的流程圖。圖3是依照本發明一實施例的移除打擾物件的示意圖。圖4是依照本發明一實施例的排除打擾的方法的流程圖。圖5是依照本發明一實施例的比對視訊畫面來偵測打擾物件的示意圖。圖6是依照本發明一實施例的排除打擾的方法的流程圖。圖7是依照本發明一實施例的利用深度學習模型來偵測打擾物件的示意圖。圖8是依照本發明一實施例的視訊會議系統的方塊圖。圖9是依照本發明一實施例的排除打擾的方法的流程圖。

S201~S204:步驟

Claims

一種排除打擾的方法，適用於視訊會議系統，所述方法包括：啟始一視訊會議，並透過影像擷取裝置獲取視訊串流；利用一深度學習模型偵測所述視訊串流中一第一視訊畫面內的至少一第一影像物件；利用所述影像擷取裝置擷取一背景畫面；利用所述影像擷取裝置對一使用者擷取多張第二視訊畫面；依據所述背景畫面對所述第二視訊畫面執行一影像相減操作而獲取多個人臉影像；將所述人臉影像作為訓練資料集來訓練另一深度學習模型；判斷所述至少一第一影像物件是否為打擾物件；以及反應於判定所述至少一第一影像物件為所述打擾物件，自所述第一視訊畫面移除所述打擾物件，其中判斷所述至少一第一影像物件是否為所述打擾物件的步驟包括：透過利用所述另一深度學習模型將所述至少一第一影像物件分類為所述打擾物件或一非打擾物件，判斷所述至少一第一影像物件是否為所述打擾物件；反應於所述另一深度學習模型將所述至少一第一影像物件分類為所述打擾物件，判定所述至少一第一影像物件為所述打擾物件；以及反應於所述另一深度學習模型將所述至少一第一影像物件分類為所述非打擾物件，判定所述至少一第一影像物件並非為所述打擾物件。
如請求項1所述的排除打擾的方法，其中判斷所述至少一第一影像物件是否為所述打擾物件的步驟包括：透過比對所述第一視訊畫面內的所述至少一第一影像物件以及一基準視訊畫面內的至少一基準影像物件，判斷所述至少一第一影像物件是否為所述打擾物件；反應於所述至少一第一影像物件未對應至所述至少一基準影像物件，判定所述至少一第一影像物件為所述打擾物件；以及反應於所述至少一第一影像物件對應至所述至少一基準影像物件，判定所述至少一第一影像物件並非為所述打擾物件。
如請求項2所述的排除打擾的方法，其中在判斷所述至少一第一影像物件是否為所述打擾物件的步驟之前，所述方法更包括：反應於一觸發操作，自所述視訊串流選取所述基準視訊畫面；以及利用所述深度學習模型偵測所述基準視訊畫面內的所述至少一基準影像物件。
如請求項1所述的排除打擾的方法，其中自所述第一視訊畫面移除所述打擾物件的步驟包括：利用一第三視訊畫面的一第一區域取代所述第一視訊畫面中的一第二區域，其中所述第二區域包括所述打擾物件。
如請求項1所述的排除打擾的方法，所述方法更包括：於進行所述視訊會議的期間，利用一麥克風獲取聲音訊號；反應於所述聲音訊號的音量大於一音量門檻值，將所述麥克風調整為靜音模式；以及反應於所述聲音訊號的音量未大於所述音量門檻值，將所述麥克風調整為正常收音模式。
如請求項5所述的排除打擾的方法，所述方法更包括：記錄所述聲音訊號於一預設時段內的音量紀錄；以及依據所述音量紀錄決定所述音量門檻值。
一種視訊會議系統，包括：一顯示器；一影像擷取裝置；一儲存裝置，記錄有多個指令；以及一處理器，耦接所述顯示器、所述影像擷取裝置與所述儲存裝置，經配置以：啟始一視訊會議，並透過所述影像擷取裝置獲取視訊串流；利用一深度學習模型偵測所述視訊串流中一第一視訊畫面內的至少一第一影像物件；利用所述影像擷取裝置擷取一背景畫面；利用所述影像擷取裝置對一使用者擷取多張第二視訊畫面；依據所述背景畫面對所述第二視訊畫面執行一影像相減操作而獲取多個人臉影像；將所述人臉影像作為訓練資料集來訓練另一深度學習模型；判斷所述至少一第一影像物件是否為打擾物件；反應於判定所述至少一第一影像物件為所述打擾物件，自所述第一視訊畫面移除所述打擾物件；透過利用所述另一深度學習模型將所述至少一第一影像物件分類為所述打擾物件或一非打擾物件，判斷所述至少一第一影像物件是否為所述打擾物件；反應於所述另一深度學習模型將所述至少一第一影像物件分類為所述打擾物件，判定所述至少一第一影像物件為所述打擾物件；以及反應於所述另一深度學習模型將所述至少一第一影像物件分類為所述非打擾物件，判定所述至少一第一影像物件並非為所述打擾物件。
如請求項7所述的視訊會議系統，其中所述處理器更經配置以：透過比對所述第一視訊畫面內的所述至少一第一影像物件以及一基準視訊畫面內的至少一基準影像物件，判斷所述至少一第一影像物件是否為所述打擾物件；反應於所述至少一第一影像物件未對應至所述至少一基準影像物件，判定所述至少一第一影像物件為所述打擾物件；以及反應於所述至少一第一影像物件對應至所述至少一基準影像物件，判定所述至少一第一影像物件並非為所述打擾物件。
如請求項8所述的視訊會議系統，其中所述處理器更經配置以：反應於一觸發操作，自所述視訊串流選取所述基準視訊畫面；以及利用所述深度學習模型偵測所述基準視訊畫面內的所述至少一基準影像物件。
如請求項7所述的視訊會議系統，其中所述處理器更經配置以：利用一背景畫面的一第一區域取代所述第一視訊畫面中的一第二區域，其中所述第二區域包括所述打擾物件。
如請求項7所述的視訊會議系統，其中所述視訊會議系統更包括耦接所述處理器的一麥克風，所述處理器更經配置以：於進行所述視訊會議的期間，利用所述麥克風獲取聲音訊號；反應於所述聲音訊號的音量大於一音量門檻值，將所述麥克風調整為靜音模式；以及反應於所述聲音訊號的音量未大於所述音量門檻值，將所述麥克風調整為正常收音模式。
如請求項7所述的視訊會議系統，其中所述處理器更經配置以：記錄所述聲音訊號於一預設時段內的音量紀錄；以及依據所述音量紀錄決定所述音量門檻值。