TWI564791B

TWI564791B - 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體

Info

Publication number: TWI564791B
Application number: TW105114914A
Authority: TW
Inventors: 邱凱聖; 洪誌臨; 李宗南; 吳昭文
Original assignee: 卡訊電子股份有限公司
Priority date: 2015-05-19
Filing date: 2016-05-13
Publication date: 2017-01-01
Also published as: US20160343389A1; TW201643689A; US10083710B2

Description

播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體

本發明係關於一種電子控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體；特別是關於一種播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體。

由於電子及通訊技術蓬勃發展，為了解決多人或遠距溝通時秩序維持等問題，逐漸發展出相關的電子溝通系統，如：視訊會議系統、會議發言系統、公共廣播系統、遠距教學系統或視聽教學系統等，該些系統通常設置數個可收發音訊的播音裝置(audio broadcasting apparatuses)，該播音裝置通常設有麥克風(microphone)、喇叭(speaker)及中控電腦(computer)等，供不同使用者表達意見或接收訊息。

以會議或教學系統為例，使用者僅在發言時才需播放聲音，為了達到維持秩序、節能省電及防止噪音等效果，習知播音裝置通常設有開關，讓使用者在發言前按下開關用以開啟播音功能，另於發言後再次按下開關用以關閉播音功能。然而，此種手動控制方式不符合使用習慣，常見使用者忘記關閉播音功能之情況，且頻繁地開啟/關閉播音功能亦造成使用不便。

為了解決上述問題，遂發展出無需手動開啟/關閉播音功能的自動播音裝置，可利用紅外線或超音波偵測該自動播音裝置附近是否有人，作為開啟或關閉播音功能之依據，以便自動關閉播音功能，其實施例可參酌中國公告第CN 202551276 U「一種麥克風」實用新型專利案。惟其實際使用於會議或教學等過程中，使用者通常位於習知自動播音裝置附近以便發言，如此，將使習知自動播音裝置持續開啟播音功能，而非在使用者發言時才開啟播音功能，故其播音控制方式無法因應使用習慣，亦無法符合上述〝維持秩序〞、〝節能省電〞及〝防止噪音〞等需求。

有鑑於此，有必要改善上述先前技術的缺點，以符合實際需求，提升其實用性。

本發明係提供一種播音控制系統，可因應使用習慣而自動控制播音功能。

本發明另提供一種播音控制方法，可由上述播音控制系統執行，以因應使用習慣而自動控制播音功能。

本發明再提供一種電腦程式產品，可供電腦載入程式並執行，以因應使用習慣而自動控制播音功能。

本發明又提供一種電腦可讀取紀錄媒體，可儲存上述電腦程式產品，供電腦載入程式並執行，以因應使用習慣而自動控制播音功能。

本發明揭示一種播音控制系統，可包含：一收音單元，用以收錄一音訊；一攝像單元，用以攝取一視訊，該視訊包含數張含有人臉的影像；一記憶單元，用以儲存該音訊及該視訊；及一控制單元，電性連接該收音單元、該攝像單元及該記憶單元，該控制單元用以從該影像中偵測一人臉特徵，由該人臉特徵定義一嘴動量偵察區，依據相鄰影像之嘴動量偵察區的變化量及該音訊隨時間的變化產生一控制訊號。

所述播音控制系統，還可包含一播音單元電性連接該控制單元。

所述播音控制系統，還可包含一通訊單元電性連接該控制單元。

所述播音控制系統，還可包含一第一通訊單元、一第二通訊單元及一播音單元，該第一通訊單元電性連接該控制單元，該第二通訊單元耦接該第一通訊單元，該播音單元電性連接該第二通訊單元。

本發明另揭示一種播音控制方法，可由上述播音控制系統執行，該方法之步驟包含：收錄一音訊；攝取一視訊，該視訊包含數張含有人臉的影像；儲存該音訊及該視訊；及從該視訊的影像中偵測一人臉特徵，由該人臉特徵定義一嘴動量偵察區，依據該嘴動量偵察區的像素變化量及該音訊隨時間的變化產生一控制訊號。

所述控制訊號維持一致能時間後，該控制單元可依據該嘴動量偵察區及該音訊隨時間的變化判斷該控制訊號是否持續。

所述播音控制系統及方法，若該嘴動量偵察區隨時間的變化量大於一門檻值，且該音訊隨時間的變化大於一閥值，該控制訊號為一致能狀態，否則，該控制訊號為一除能狀態。

所述門檻值可為一移動量門檻值，該控制單元可判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值，作為產生該控制訊號之依據。

所述嘴動量偵察區中具有移動量的像素可分別具有一移動方向，該移動方向可介於以二維平面座標的一縱軸為中心的銳角範圍內。

所述門檻值可為前一影像的人臉特徵所佔面積，該控制單元可判斷目前影像的人臉特徵所佔面積是否大於該面積門檻值之數倍，作為產生該控制訊號之依據。

所述音訊之波形具有數個區段，各該區段分別具有一振幅，該控制單元判斷目前區段的振幅是否大於該閥值。

所述控制單元可每隔數張影像依據一特徵模型演算法偵測該人臉特徵，其餘影像可依據一模板匹配演算法偵測該人臉特徵。

所述人臉特徵可為該影像中人臉正面的鼻子特徵。

所述嘴動量偵察區可為該影像中的鼻子特徵下方的一矩形區域。

所述矩形區域的面積可為該鼻子特徵所佔面積的數倍。

本發明另揭示一種內儲程式之電腦程式產品，當電腦載入該程式並執行後，可完成上述播音控制方法。

本發明另揭示一種內儲程式之電腦可讀取記錄媒體，當電腦載入該程式並執行後，可完成上述播音控制方法。

上揭播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體，可利用使用者的動作及音量作為播音控制之依據，以因應使用者的發言習慣自動控制播音功能，達成「無需使用者手動開啟或關閉播音功能」功效，改善習知電子溝通系統「無法因應使用習慣」問題，且可滿足會議或教學過程中〝維持秩序〞、〝節能省電〞及〝防止噪音〞等需求。

1‧‧‧收音單元

2‧‧‧攝像單元

3‧‧‧記憶單元

4‧‧‧控制單元

5‧‧‧播音單元

6‧‧‧通訊單元

6a‧‧‧第一通訊單元

6b‧‧‧第二通訊單元

C‧‧‧電腦系統

E‧‧‧發言裝置

P‧‧‧可攜式電子裝置

S1‧‧‧收音步驟

S2‧‧‧攝影步驟

S3‧‧‧儲存步驟

S4‧‧‧監控步驟

第1圖：係本發明之播音控制系統第一實施例的系統方塊圖。

第2a圖：係本發明之播音控制系統第一實施例的第一種態樣示意圖。

第2b圖：係本發明之播音控制系統第一實施例的第二種態樣示意圖。

第2c圖：係本發明之播音控制系統第一實施例的第三種態樣示意圖。

第3圖：係本發明之播音控制系統第二實施例的示意圖。

第4圖：係本發明之播音控制方法實施例的運作流程圖。

第5a圖：係本發明之嘴動量偵察區中張嘴分析範例的光流影像。

第5b圖：係本發明之嘴動量偵察區中閉嘴分析範例的光流影像。

為讓本發明之上述及其他目的、特徵及優點能更明顯易懂，下文特舉本發明之較佳實施例，並配合所附圖式，作詳細說明如下：本發明全文所述之「耦接」，係指兩電子裝置間可利用有線實體(如：導電線或光纖等)或無線技術(如：紅外線、藍芽、WiFi、3G等)相互傳遞訊息，係本發明所屬技術領域中具有通常知識者可以理解。

本發明全文所述之「光流偵測法」(optical flow detection)，係指可偵測相鄰影像中相同物件(如：像素)的光線流動(可用向量表示，如第5a、5b圖所示之細線)之技術，其實施例可參酌「Gunnar Farneback,“Two-Frame Motion Estimation Based on Polynomial Expansion,”in Image Analysis-Lecture Notes in Computer Science Volume 2749,363-370,2003」論文或〝Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm〞、〝Determining Optical algorithm〞、〝SimpleFlew：A Non-iterative,Sublinear Optical Flow Algorithm〞等文獻，亦可使用openCV函式庫實現之光流演算法，其使用方式係本發明所屬技術領域中具有通常知識者可以理解，在此容不贅述。

請參閱第1圖所示，其係本發明之播音控制系統第一實施例的系統方塊圖。其中，該第一實施例可包含一收音單元1、一攝像單元2、一記憶單元3及一控制單元4。該收音單元1可為習知收音裝置，如：麥克風等，用以收錄一音訊(audio)；該攝像單元2可為習知攝像裝置，如：攝影機等，用以攝取一視訊(video)，該視訊可包含數張含有人臉(face)的影像，該影像可由該攝像單元2朝向使用者的臉部正面拍攝；該記憶單元3可為習知資料儲存裝置，如：記憶體、硬碟或資料庫等，用以儲存該音訊及該視訊；該控制單元4可為具有訊號處理功能的裝置，如：微處理器(microprocessor)、微控制器(Micro Control Unit)、數位訊號處理器 (Digital Signal Processor)或嵌入式系統(Embedded System)等，該控制單元4可電性連接該收音單元1、攝像單元2及記憶單元3，並可執行一播音控制程式(Program)，用以進行影像及聲音等訊號處理過程，並可產生一控制訊號，作為控制播音功能之依據。此外，該系統實施例還可包含一播音單元5(如：習知喇叭或耳機等)及一通訊單元6(如：習知有線或無線通訊收發器)，該播音單元5及通訊單元6可分別電性連接該控制單元4，用以提供播音(broadcast)及通訊(communication)之功能。以下舉例說明本發明之播音控制系統第一實施例實際使用時的不同實施態樣，惟不以此為限。

舉例而言，該第一實施例可實施為一電腦系統C，如第2a圖所示，該收音單元1可為一麥克風，該攝像單元2可為一網路攝影機(web-cam)，該記憶單元3、控制單元4及通訊單元6可整合於一主機，該播音單元5可為一顯示器中所含的喇叭，可供使用者透過網際網路(Internet)進行遠距教學或會議。或者，如第2b圖所示，該收音單元1、攝像單元2、記憶單元3、控制單元4、播音單元5及通訊單元6可整合形成一發言裝置E，其中，該記憶單元3、控制單元4、播音單元5及通訊單元6可設於一底座內，該收音單元1及/或攝像單元2亦可設於該底座內，在此並不設限，其設置方式係所屬技術領域中具有通常知識者可以理解，在此容不贅述，該發言系統E亦可耦接一中控裝置(圖未繪示)，該中控裝置另可耦接至少一發言裝置E，用以構成一會議或教學系統；又，如第2c圖所示，該收音單元1、攝像單元2、記憶單元3、控制單元4、播音單元5及通訊單元6可整合於一可攜式電子裝置P，如：筆記型電腦、平板電腦或智慧型手機等，惟不以此為限，可供使用者隨時隨地可依實際所需與他人交流。此外，該播音單元5與收音單元1亦可位於不同位置，而形成本發明之播音控制系統另一實施例，說明如下。

請參閱第3圖所示，其係本發明之播音控制系統第二實施例的系統方塊圖。其中，該第二實施例除可包含上述收音單元1、攝像單元2、記憶單元3、控制單元4及播音單元5外，還可包含一第一通訊單元6a及一第二通訊單元6b(如：習知有線或無線通訊收發器)，該控制單元4電性連接該收音單元1、攝像單元2、記憶單元3及第一通訊單元6a，該第一通訊單元6a耦接該第二通訊單元6b，該第二通訊單元6b電性連接該播音單元5，使該播音單元5與收音單元1可位於不同位置，以符合遠距播音之需求。以下說明本發明之播音控制系統上述實施例的運作過程。

本發明之播音控制系統上述實施例實際運作時，該控制單元4可從該影像中偵測一人臉特徵，該人臉特徵可選為該影像中人臉正面的鼻子特徵，以便搜尋人臉中嘴巴所在區域，作為觀察使用者是否開口發言之依據；接著，可由該人臉特徵定義一嘴動量偵察區，該嘴動量偵察區可設為該影像中的鼻子特徵下方的一矩形區域，該矩形區域的面積為該鼻子特徵所佔面積的數倍，如：2倍，用以偵測相鄰影像中的嘴巴是否有說話動作而上下開闔；接著，可依據相鄰影像之嘴動量偵察區的變化量(如：移動向量、面積縮放或像素色差等)，以及，該音訊隨時間的變化(如：振幅差異等)，而產生該控制訊號。

在上述實施例中，當該控制訊號維持一致能時間(enabling time，如：5秒)後，該控制單元4可依據該嘴動量偵察區的變化量及該音訊隨時間的變化，而判斷該控制訊號是否持續，以便觀察上述音訊播放過程是否需要繼續進行，若相鄰影像之嘴動量偵察區的變化量大於一門檻值(表示影像中的嘴巴可能有說話行為)，且該音訊隨時間的變化大於一閥值(表示嘴巴可能有發出聲音)，則該控制訊號為一致能狀態(enabling state，如：〝高準位〞，惟不以此為限)，以便開啟播音功能，將使用者發言時產生的音訊送至該播音單元5進行播放，否則，只要上述兩條件任一者未滿足，該控制訊號為一除能狀態(disabling state，如：〝低準位〞，惟不以此為限)，以便關閉播音功能，避免該播音單元5於使用者未發言時誤播雜音。以下舉例說明該嘴動量偵察區的變化量偵測方式，惟不以此為限。

其中，該嘴動量偵察區的變化量可為相鄰影像區域中的移動向量或面積變量等，如：可用習知光流偵測法(optical flow detection)找出相鄰影像中相同物件的移動向量，該移動向量可轉換為平面座標的實際角度，其計算方式可如下式(1)所示：其中，A_g為平面座標的實際角度，F_x、F_y為該移動向量之二維方向的位移變化量。值得注意的是，該嘴動量偵察區中的每一個像素皆具有一特徵(如顏色特徵)，該特徵於多個影像之間會產生移動的現象，由此可知，對該嘴動量偵察區中的每一個具有移動特徵的像素而言，該移動之特徵分別具有一移動方向。舉例來說，假設該嘴動量偵察區中的某一個像素為紅點(具有紅色之特徵)，該紅點可能由目前影像的座標(x,y)移動至下一影像的座標(x+x1,y+y1)(其中x1和y1皆為整數)，在此情況下，即可稱該像素的特徵具有移動現象，並具有一移動方向。該移動方向介於以二維平面座標(x,y)的一縱軸(如：Y軸)為中心的銳角範圍內，如：以X軸方向為0°，該銳角範圍a可為90°±44.5°或270°±44.5°，用以得知影像中的嘴巴下顎是否有說話行為中的縱向開闔動作。此時，該門檻值可為一移動量門檻值，使該控制單元4可判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值(如：200個像素)，作為產生該控制訊號之依據。舉例而言，如第5a、5b圖所示，其係分別顯示本發明之嘴動量偵察區中張嘴、閉嘴分析範例的光流影像，影像中的人臉嘴巴附近的細線方向可表示光流方向，在第5a圖中，移動角度介於60~120°(表示下顎位移向上)的像素量為911，在第5b圖中，移動角度介於240~300°(表示下顎位移向下)的像素量為828。

另一方面，由於使用者欲利用該播音單元5播送聲音時，會有〝嘴巴趨向收音、攝像單元〞及〝說話〞動作過程，因此，亦可利用〝嘴巴趨向攝像單元〞動作為產生該控制訊號之依據，如：觀察該攝像單元2拍攝到的連續影像中的鼻子或嘴巴部位是否逐漸變大，故，該控制單元4可將該門檻值設為前一影像的人臉特徵所佔面積，判斷目前影像的人臉特徵所佔面積是否大於該面積門檻值之數倍(如：1.5倍)，如：若前一影像的人臉特徵所佔面積為34*23=782像素，後一影像的人臉特徵為所佔面積為47*29=1363>(782*1.5)像素，則已偵測到嘴巴趨向攝像單元的動作過程，作為產生該控制訊號之依據。以下舉例說明該音訊隨時間的變化偵測方式，惟不以此為限。

首先，本領域具有通常知識者皆了解音訊之波形可切割為數個區段，每個區段具有一時間長度，例如1/20秒。據此，每個區段皆具有一最大正峰值和一最大負峰值，該最大正峰值和最大負峰值之間的差值即為該區段的峰值。據此，該控制單元4可判斷該音訊之振幅是否大於該閥值，以便判斷該使用者是否開始說話，如：聲音突然變大(即振幅波峰驟升)的情況。然而，本發明並未限定於此。

在另一種方式中，該音訊之數個區段可具有相鄰之第一和第二區段，據此，該控制單元4可判斷該第二區段的振幅是否大於該第一區段的振幅達到該閥值，以便判斷該使用者是否開始說話，如：聲音突然變大(即振幅波峰驟升)的情況。然而，本發明亦未限定於此。

其中，該控制單元4進行上述影像處理過程前，可先進行一前處理過程(如：尺寸縮放、彩色轉灰階等)，接著，該控制單元4可每隔數張(如：5張)影像依據一特徵模型演算法偵測該人臉特徵，其餘影像可依據一模板匹配演算法偵測該人臉特徵，用以降低特徵搜尋所需時間及演算複雜度，其中該特徵模型演算法可為使用Haar矩形特徵模型的Adaboost演算法、LBP演算法、Eigenfaces演算法、Fisherfaces演算法或具有類似功能的OpenCV函式等，該模板匹配演算法可參酌《R.Brunelli,“Template Matching Techniques in Computer Vision：Theory and Practice,”Wiley,2009》書籍，其影像處理過程係所屬技術領域中具有通常知識者可以理解，在此容不贅述。

請參閱第4圖所示，其係本發明之播音控制方法實施例的運作流程。其中，該播音控制方法實施例可由上述播音控制系統實施例執行，可包含一收音步驟S1、一攝影步驟S2、一儲存步驟S3及一監控步驟S4，該收音步驟S1係可收錄一音訊；該攝影步驟S2係可攝取一視訊，該視訊可包含數張含有人臉的影像；該儲存步驟S3係可儲存該音訊及該視訊；該監控步驟S4係可從該視訊的影像中偵測一人臉特徵，由該人臉特徵定義一嘴動量偵察區，依據該嘴動量偵察區的像素變化量及該音訊隨時間的變化產生一控制訊號。

在此實施例中，當該控制訊號維持上述致能時間後，可重新依據該嘴動量偵察區及該音訊隨時間的變化判斷是否繼續產生該控制訊號；若該嘴動量偵察區隨時間的變化量大於上述門檻值，且該音訊隨時間的變化大於上述閥值，可產生該控制訊號，否則，不產生該控制訊號，其中該門檻值可為上述移動量門檻值，用以判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值，作為產生該控制訊號之依據，該嘴動量偵察區中具有移動量的像素可分別具有上述移動方向，該移動方向可介於以二維平面座標的上述縱軸為中心的銳角範圍內，另一方面，該門檻值可為前一影像的人臉特徵所佔面積，用以判斷目前影像的人臉特徵所佔面積是否大於該面積門檻值，作為產生該控制訊號之依據；又，該閥值可為該音訊中相鄰二波峰之正增益量的正整數倍；另，每隔數張影像可依據上述特徵模型演算法偵測該人臉特徵，其餘影像可依據上述模板匹配演算法偵測該人臉特徵，該人臉特徵可為該影像中人臉的鼻子特徵，該嘴動量偵察區可為該影像中的鼻子特徵下方的矩形區域，該矩形區域的面積可為該鼻子特徵之面積的數倍，其詳細內容已說明如上述播音控制系統實施例，在此容不贅述。

此外，本發明之播音控制方法實施例還可利用程式語言(Program Language，如：C++、Java等)撰成電腦程式(如：上述播音控制程式)，其程式碼(Program Code)的撰寫方式係熟知該項技藝者可以理解，用以產生一種內儲該播音控制程式之電腦程式產品，當電腦載入該程式並執行後，可完成本發明之播音控制方法實施例，作為本發明之播音控制系統上述實施例之軟硬體協同運作的依據。

另，上述電腦程式產品還可儲存於一電腦可讀取紀錄媒體，如：各式記憶體、記憶卡、硬碟、光碟或USB隨身碟等，當電腦載入上述程式並執行後，可完成本發明之播音控制方法實施例，作為本發明之播音控制系統上述實施例之軟硬體協同運作的依據。

藉由前揭之技術手段，本發明之播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體上述實施例的主要特點列舉如下：該播音控制系統包含該收音單元、攝像單元、記憶單元及控制單元，該收音單元可用以收錄上述音訊；該攝像單元可用以攝取上述視訊，該視訊可包含數張含有人臉的影像；該記憶單元可用以儲存該音訊及該視訊；該控制單元可電性連接該收音單元、攝像單元及記憶單元，用以從該影像中偵測一人臉特徵，由該人臉特徵定義一嘴動量偵察區，依據相鄰影像之嘴動量偵察區的變化量及該音訊隨時間的變化產生一控制訊號。

據此，本案之播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體上述實施例，可利用使用者的動作及音量作為播音控制之依據，以因應使用者的發言習慣自動控制播音功能，達成「無需使用者手動開啟或關閉播音功能」功效，改善習知電子溝通系統「無法因應使用習慣」問題，且可滿足會議或教學過程中〝維持秩序〞、〝節能省電〞及〝防止噪音〞等需求。

雖然本發明已利用上述較佳實施例揭示，然其並非用以限定本發明，任何熟習此技藝者在不脫離本發明之精神和範圍之內，相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。