TWI564791B - 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 - Google Patents
播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 Download PDFInfo
- Publication number
- TWI564791B TWI564791B TW105114914A TW105114914A TWI564791B TW I564791 B TWI564791 B TW I564791B TW 105114914 A TW105114914 A TW 105114914A TW 105114914 A TW105114914 A TW 105114914A TW I564791 B TWI564791 B TW I564791B
- Authority
- TW
- Taiwan
- Prior art keywords
- broadcast control
- unit
- broadcast
- mouth
- control system
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 44
- 238000004590 computer program Methods 0.000 title claims description 13
- 238000001514 detection method Methods 0.000 claims description 45
- 238000004891 communication Methods 0.000 claims description 37
- 230000008859 change Effects 0.000 claims description 28
- 230000001815 facial effect Effects 0.000 claims description 24
- 230000001154 acute effect Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 description 25
- 230000003287 optical effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000006073 displacement reaction Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000023077 detection of light stimulus Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
- G06V40/165—Detection; Localisation; Normalisation using facial parts and geometric relationships
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Geometry (AREA)
- Studio Devices (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Description
本發明係關於一種電子控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體;特別是關於一種播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體。
由於電子及通訊技術蓬勃發展,為了解決多人或遠距溝通時秩序維持等問題,逐漸發展出相關的電子溝通系統,如:視訊會議系統、會議發言系統、公共廣播系統、遠距教學系統或視聽教學系統等,該些系統通常設置數個可收發音訊的播音裝置(audio broadcasting apparatuses),該播音裝置通常設有麥克風(microphone)、喇叭(speaker)及中控電腦(computer)等,供不同使用者表達意見或接收訊息。
以會議或教學系統為例,使用者僅在發言時才需播放聲音,為了達到維持秩序、節能省電及防止噪音等效果,習知播音裝置通常設有開關,讓使用者在發言前按下開關用以開啟播音功能,另於發言後再次按下開關用以關閉播音功能。然而,此種手動控制方式不符合使用習慣,常見使用者忘記關閉播音功能之情況,且頻繁地開啟/關閉播音功能亦造成使用不便。
為了解決上述問題,遂發展出無需手動開啟/關閉播音功能的自動播音裝置,可利用紅外線或超音波偵測該自動播音裝置附近是否有
人,作為開啟或關閉播音功能之依據,以便自動關閉播音功能,其實施例可參酌中國公告第CN 202551276 U「一種麥克風」實用新型專利案。惟其實際使用於會議或教學等過程中,使用者通常位於習知自動播音裝置附近以便發言,如此,將使習知自動播音裝置持續開啟播音功能,而非在使用者發言時才開啟播音功能,故其播音控制方式無法因應使用習慣,亦無法符合上述〝維持秩序〞、〝節能省電〞及〝防止噪音〞等需求。
有鑑於此,有必要改善上述先前技術的缺點,以符合實際需求,提升其實用性。
本發明係提供一種播音控制系統,可因應使用習慣而自動控制播音功能。
本發明另提供一種播音控制方法,可由上述播音控制系統執行,以因應使用習慣而自動控制播音功能。
本發明再提供一種電腦程式產品,可供電腦載入程式並執行,以因應使用習慣而自動控制播音功能。
本發明又提供一種電腦可讀取紀錄媒體,可儲存上述電腦程式產品,供電腦載入程式並執行,以因應使用習慣而自動控制播音功能。
本發明揭示一種播音控制系統,可包含:一收音單元,用以收錄一音訊;一攝像單元,用以攝取一視訊,該視訊包含數張含有人臉的影像;一記憶單元,用以儲存該音訊及該視訊;及一控制單元,電性連接該收音單元、該攝像單元及該記憶單元,該控制單元用以從該影像中偵測一人臉特徵,由該人臉特徵定義一嘴動量偵察區,依據相鄰影像之嘴動量偵察區的變化量及該音訊隨時間的變化產生一控制訊號。
所述播音控制系統,還可包含一播音單元電性連接該控制單元。
所述播音控制系統,還可包含一通訊單元電性連接該控制單元。
所述播音控制系統,還可包含一第一通訊單元、一第二通訊單元及一播音單元,該第一通訊單元電性連接該控制單元,該第二通訊單元耦接該第一通訊單元,該播音單元電性連接該第二通訊單元。
本發明另揭示一種播音控制方法,可由上述播音控制系統執行,該方法之步驟包含:收錄一音訊;攝取一視訊,該視訊包含數張含有人臉的影像;儲存該音訊及該視訊;及從該視訊的影像中偵測一人臉特徵,由該人臉特徵定義一嘴動量偵察區,依據該嘴動量偵察區的像素變化量及該音訊隨時間的變化產生一控制訊號。
所述控制訊號維持一致能時間後,該控制單元可依據該嘴動量偵察區及該音訊隨時間的變化判斷該控制訊號是否持續。
所述播音控制系統及方法,若該嘴動量偵察區隨時間的變化量大於一門檻值,且該音訊隨時間的變化大於一閥值,該控制訊號為一致能狀態,否則,該控制訊號為一除能狀態。
所述門檻值可為一移動量門檻值,該控制單元可判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值,作為產生該控制訊號之依據。
所述嘴動量偵察區中具有移動量的像素可分別具有一移動方向,該移動方向可介於以二維平面座標的一縱軸為中心的銳角範圍內。
所述門檻值可為前一影像的人臉特徵所佔面積,該控制單元可判斷目前影像的人臉特徵所佔面積是否大於該面積門檻值之數倍,作為產生該控制訊號之依據。
所述音訊之波形具有數個區段,各該區段分別具有一振幅,該控制單元判斷目前區段的振幅是否大於該閥值。
所述控制單元可每隔數張影像依據一特徵模型演算法偵測該人臉特徵,其餘影像可依據一模板匹配演算法偵測該人臉特徵。
所述人臉特徵可為該影像中人臉正面的鼻子特徵。
所述嘴動量偵察區可為該影像中的鼻子特徵下方的一矩形區域。
所述矩形區域的面積可為該鼻子特徵所佔面積的數倍。
本發明另揭示一種內儲程式之電腦程式產品,當電腦載入該程式並執行後,可完成上述播音控制方法。
本發明另揭示一種內儲程式之電腦可讀取記錄媒體,當電腦載入該程式並執行後,可完成上述播音控制方法。
上揭播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體,可利用使用者的動作及音量作為播音控制之依據,以因應使用者的發言習慣自動控制播音功能,達成「無需使用者手動開啟或關閉播音功能」功效,改善習知電子溝通系統「無法因應使用習慣」問題,且可滿足會議或教學過程中〝維持秩序〞、〝節能省電〞及〝防止噪音〞等需求。
1‧‧‧收音單元
2‧‧‧攝像單元
3‧‧‧記憶單元
4‧‧‧控制單元
5‧‧‧播音單元
6‧‧‧通訊單元
6a‧‧‧第一通訊單元
6b‧‧‧第二通訊單元
C‧‧‧電腦系統
E‧‧‧發言裝置
P‧‧‧可攜式電子裝置
S1‧‧‧收音步驟
S2‧‧‧攝影步驟
S3‧‧‧儲存步驟
S4‧‧‧監控步驟
第1圖:係本發明之播音控制系統第一實施例的系統方塊圖。
第2a圖:係本發明之播音控制系統第一實施例的第一種態樣示意圖。
第2b圖:係本發明之播音控制系統第一實施例的第二種態樣示意圖。
第2c圖:係本發明之播音控制系統第一實施例的第三種態樣示意圖。
第3圖:係本發明之播音控制系統第二實施例的示意圖。
第4圖:係本發明之播音控制方法實施例的運作流程圖。
第5a圖:係本發明之嘴動量偵察區中張嘴分析範例的光流影像。
第5b圖:係本發明之嘴動量偵察區中閉嘴分析範例的光流影像。
為讓本發明之上述及其他目的、特徵及優點能更明顯易懂,下文特舉本發明之較佳實施例,並配合所附圖式,作詳細說明如下:本發明全文所述之「耦接」,係指兩電子裝置間可利用有線實體(如:導電線或光纖等)或無線技術(如:紅外線、藍芽、WiFi、3G等)相互傳遞訊息,係本發明所屬技術領域中具有通常知識者可以理解。
本發明全文所述之「光流偵測法」(optical flow detection),係指可偵測相鄰影像中相同物件(如:像素)的光線流動(可用向量表示,如第5a、5b圖所示之細線)之技術,其實施例可參酌「Gunnar Farneback,“Two-Frame Motion Estimation Based on Polynomial Expansion,”in Image Analysis-Lecture Notes in Computer Science Volume 2749,363-370,2003」論文或〝Pyramidal Implementation of the Lucas Kanade Feature Tracker Description of the algorithm〞、〝Determining Optical algorithm〞、〝SimpleFlew:A Non-iterative,Sublinear Optical Flow Algorithm〞等文獻,亦可使用openCV函式庫實現之光流演算法,其使用方式係本發明所屬技術領域中具有通常知識者可以理解,在此容不贅述。
請參閱第1圖所示,其係本發明之播音控制系統第一實施例的系統方塊圖。其中,該第一實施例可包含一收音單元1、一攝像單元2、一記憶單元3及一控制單元4。該收音單元1可為習知收音裝置,如:麥克風等,用以收錄一音訊(audio);該攝像單元2可為習知攝像裝置,如:攝影機等,用以攝取一視訊(video),該視訊可包含數張含有人臉(face)的影像,該影像可由該攝像單元2朝向使用者的臉部正面拍攝;該記憶單元3可為習知資料儲存裝置,如:記憶體、硬碟或資料庫等,用以儲存該音訊及該視訊;該控制單元4可為具有訊號處理功能的裝置,如:微處理器(microprocessor)、微控制器(Micro Control Unit)、數位訊號處理器
(Digital Signal Processor)或嵌入式系統(Embedded System)等,該控制單元4可電性連接該收音單元1、攝像單元2及記憶單元3,並可執行一播音控制程式(Program),用以進行影像及聲音等訊號處理過程,並可產生一控制訊號,作為控制播音功能之依據。此外,該系統實施例還可包含一播音單元5(如:習知喇叭或耳機等)及一通訊單元6(如:習知有線或無線通訊收發器),該播音單元5及通訊單元6可分別電性連接該控制單元4,用以提供播音(broadcast)及通訊(communication)之功能。以下舉例說明本發明之播音控制系統第一實施例實際使用時的不同實施態樣,惟不以此為限。
舉例而言,該第一實施例可實施為一電腦系統C,如第2a圖所示,該收音單元1可為一麥克風,該攝像單元2可為一網路攝影機(web-cam),該記憶單元3、控制單元4及通訊單元6可整合於一主機,該播音單元5可為一顯示器中所含的喇叭,可供使用者透過網際網路(Internet)進行遠距教學或會議。或者,如第2b圖所示,該收音單元1、攝像單元2、記憶單元3、控制單元4、播音單元5及通訊單元6可整合形成一發言裝置E,其中,該記憶單元3、控制單元4、播音單元5及通訊單元6可設於一底座內,該收音單元1及/或攝像單元2亦可設於該底座內,在此並不設限,其設置方式係所屬技術領域中具有通常知識者可以理解,在此容不贅述,該發言系統E亦可耦接一中控裝置(圖未繪示),該中控裝置另可耦接至少一發言裝置E,用以構成一會議或教學系統;又,如第2c圖所示,該收音單元1、攝像單元2、記憶單元3、控制單元4、播音單元5及通訊單元6可整合於一可攜式電子裝置P,如:筆記型電腦、平板電腦或智慧型手機等,惟不以此為限,可供使用者隨時隨地可依實際所需與他人交流。此外,該播音單元5與收音單元1亦可位於不同位置,而形成本發明之播音控制系統另一實施例,說明如下。
請參閱第3圖所示,其係本發明之播音控制系統第二實施例的系統方塊圖。其中,該第二實施例除可包含上述收音單元1、攝像單元2、記憶單元3、控制單元4及播音單元5外,還可包含一第一通訊單元6a及一第二通訊單元6b(如:習知有線或無線通訊收發器),該控制單元4電性連接該收音單元1、攝像單元2、記憶單元3及第一通訊單元6a,該第一通訊單元6a耦接該第二通訊單元6b,該第二通訊單元6b電性連接該播音單元5,使該播音單元5與收音單元1可位於不同位置,以符合遠距播音之需求。以下說明本發明之播音控制系統上述實施例的運作過程。
本發明之播音控制系統上述實施例實際運作時,該控制單元4可從該影像中偵測一人臉特徵,該人臉特徵可選為該影像中人臉正面的鼻子特徵,以便搜尋人臉中嘴巴所在區域,作為觀察使用者是否開口發言之依據;接著,可由該人臉特徵定義一嘴動量偵察區,該嘴動量偵察區可設為該影像中的鼻子特徵下方的一矩形區域,該矩形區域的面積為該鼻子特徵所佔面積的數倍,如:2倍,用以偵測相鄰影像中的嘴巴是否有說話動作而上下開闔;接著,可依據相鄰影像之嘴動量偵察區的變化量(如:移動向量、面積縮放或像素色差等),以及,該音訊隨時間的變化(如:振幅差異等),而產生該控制訊號。
在上述實施例中,當該控制訊號維持一致能時間(enabling time,如:5秒)後,該控制單元4可依據該嘴動量偵察區的變化量及該音訊隨時間的變化,而判斷該控制訊號是否持續,以便觀察上述音訊播放過程是否需要繼續進行,若相鄰影像之嘴動量偵察區的變化量大於一門檻值(表示影像中的嘴巴可能有說話行為),且該音訊隨時間的變化大於一閥值(表示嘴巴可能有發出聲音),則該控制訊號為一致能狀態(enabling state,如:〝高準位〞,惟不以此為限),以便開啟播音功能,將使用者發言時產生的音訊送至該播音單元5進行播放,否則,只要上述兩條件任一者未滿足,
該控制訊號為一除能狀態(disabling state,如:〝低準位〞,惟不以此為限),以便關閉播音功能,避免該播音單元5於使用者未發言時誤播雜音。以下舉例說明該嘴動量偵察區的變化量偵測方式,惟不以此為限。
其中,該嘴動量偵察區的變化量可為相鄰影像區域中的移動向量或面積變量等,如:可用習知光流偵測法(optical flow detection)找出相鄰影像中相同物件的移動向量,該移動向量可轉換為平面座標的實際角度,其計算方式可如下式(1)所示:
其中,Ag為平面座標的實際角度,Fx、Fy為該移動向量之二維方向的位移變化量。值得注意的是,該嘴動量偵察區中的每一個像素皆具有一特徵(如顏色特徵),該特徵於多個影像之間會產生移動的現象,由此可知,對該嘴動量偵察區中的每一個具有移動特徵的像素而言,該移動之特徵分別具有一移動方向。舉例來說,假設該嘴動量偵察區中的某一個像素為紅點(具有紅色之特徵),該紅點可能由目前影像的座標(x,y)移動至下一影像的座標(x+x1,y+y1)(其中x1和y1皆為整數),在此情況下,即可稱該像素的特徵具有移動現象,並具有一移動方向。該移動方向介於以二維平面座標(x,y)的一縱軸(如:Y軸)為中心的銳角範圍內,如:以X軸方向為0°,該銳角範圍a可為90°±44.5°或270°±44.5°,用以得知影像中的嘴巴下顎是否有說話行為中的縱向開闔動作。此時,該門檻值可為一移動量門檻值,使該控制單元4可判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值(如:200個像素),作為產生該控制訊號之依據。舉例而言,如第5a、5b圖所示,其係分別顯示本發明之嘴動量偵察區中張嘴、閉嘴分析範例的光流影像,影像中的人臉嘴巴附近的細線方向可表示
光流方向,在第5a圖中,移動角度介於60~120°(表示下顎位移向上)的像素量為911,在第5b圖中,移動角度介於240~300°(表示下顎位移向下)的像素量為828。
另一方面,由於使用者欲利用該播音單元5播送聲音時,會有〝嘴巴趨向收音、攝像單元〞及〝說話〞動作過程,因此,亦可利用〝嘴巴趨向攝像單元〞動作為產生該控制訊號之依據,如:觀察該攝像單元2拍攝到的連續影像中的鼻子或嘴巴部位是否逐漸變大,故,該控制單元4可將該門檻值設為前一影像的人臉特徵所佔面積,判斷目前影像的人臉特徵所佔面積是否大於該面積門檻值之數倍(如:1.5倍),如:若前一影像的人臉特徵所佔面積為34*23=782像素,後一影像的人臉特徵為所佔面積為47*29=1363>(782*1.5)像素,則已偵測到嘴巴趨向攝像單元的動作過程,作為產生該控制訊號之依據。以下舉例說明該音訊隨時間的變化偵測方式,惟不以此為限。
首先,本領域具有通常知識者皆了解音訊之波形可切割為數個區段,每個區段具有一時間長度,例如1/20秒。據此,每個區段皆具有一最大正峰值和一最大負峰值,該最大正峰值和最大負峰值之間的差值即為該區段的峰值。據此,該控制單元4可判斷該音訊之振幅是否大於該閥值,以便判斷該使用者是否開始說話,如:聲音突然變大(即振幅波峰驟升)的情況。然而,本發明並未限定於此。
在另一種方式中,該音訊之數個區段可具有相鄰之第一和第二區段,據此,該控制單元4可判斷該第二區段的振幅是否大於該第一區段的振幅達到該閥值,以便判斷該使用者是否開始說話,如:聲音突然變大(即振幅波峰驟升)的情況。然而,本發明亦未限定於此。
其中,該控制單元4進行上述影像處理過程前,可先進行一前處理過程(如:尺寸縮放、彩色轉灰階等),接著,該控制單元4可每隔
數張(如:5張)影像依據一特徵模型演算法偵測該人臉特徵,其餘影像可依據一模板匹配演算法偵測該人臉特徵,用以降低特徵搜尋所需時間及演算複雜度,其中該特徵模型演算法可為使用Haar矩形特徵模型的Adaboost演算法、LBP演算法、Eigenfaces演算法、Fisherfaces演算法或具有類似功能的OpenCV函式等,該模板匹配演算法可參酌《R.Brunelli,“Template Matching Techniques in Computer Vision:Theory and Practice,”Wiley,2009》書籍,其影像處理過程係所屬技術領域中具有通常知識者可以理解,在此容不贅述。
請參閱第4圖所示,其係本發明之播音控制方法實施例的運作流程。其中,該播音控制方法實施例可由上述播音控制系統實施例執行,可包含一收音步驟S1、一攝影步驟S2、一儲存步驟S3及一監控步驟S4,該收音步驟S1係可收錄一音訊;該攝影步驟S2係可攝取一視訊,該視訊可包含數張含有人臉的影像;該儲存步驟S3係可儲存該音訊及該視訊;該監控步驟S4係可從該視訊的影像中偵測一人臉特徵,由該人臉特徵定義一嘴動量偵察區,依據該嘴動量偵察區的像素變化量及該音訊隨時間的變化產生一控制訊號。
在此實施例中,當該控制訊號維持上述致能時間後,可重新依據該嘴動量偵察區及該音訊隨時間的變化判斷是否繼續產生該控制訊號;若該嘴動量偵察區隨時間的變化量大於上述門檻值,且該音訊隨時間的變化大於上述閥值,可產生該控制訊號,否則,不產生該控制訊號,其中該門檻值可為上述移動量門檻值,用以判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值,作為產生該控制訊號之依據,該嘴動量偵察區中具有移動量的像素可分別具有上述移動方向,該移動方向可介於以二維平面座標的上述縱軸為中心的銳角範圍內,另一方面,該門檻值可為前一影像的人臉特徵所佔面積,用以判斷目前影像的人臉特徵所
佔面積是否大於該面積門檻值,作為產生該控制訊號之依據;又,該閥值可為該音訊中相鄰二波峰之正增益量的正整數倍;另,每隔數張影像可依據上述特徵模型演算法偵測該人臉特徵,其餘影像可依據上述模板匹配演算法偵測該人臉特徵,該人臉特徵可為該影像中人臉的鼻子特徵,該嘴動量偵察區可為該影像中的鼻子特徵下方的矩形區域,該矩形區域的面積可為該鼻子特徵之面積的數倍,其詳細內容已說明如上述播音控制系統實施例,在此容不贅述。
此外,本發明之播音控制方法實施例還可利用程式語言(Program Language,如:C++、Java等)撰成電腦程式(如:上述播音控制程式),其程式碼(Program Code)的撰寫方式係熟知該項技藝者可以理解,用以產生一種內儲該播音控制程式之電腦程式產品,當電腦載入該程式並執行後,可完成本發明之播音控制方法實施例,作為本發明之播音控制系統上述實施例之軟硬體協同運作的依據。
另,上述電腦程式產品還可儲存於一電腦可讀取紀錄媒體,如:各式記憶體、記憶卡、硬碟、光碟或USB隨身碟等,當電腦載入上述程式並執行後,可完成本發明之播音控制方法實施例,作為本發明之播音控制系統上述實施例之軟硬體協同運作的依據。
藉由前揭之技術手段,本發明之播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體上述實施例的主要特點列舉如下:該播音控制系統包含該收音單元、攝像單元、記憶單元及控制單元,該收音單元可用以收錄上述音訊;該攝像單元可用以攝取上述視訊,該視訊可包含數張含有人臉的影像;該記憶單元可用以儲存該音訊及該視訊;該控制單元可電性連接該收音單元、攝像單元及記憶單元,用以從該影像中偵測一人臉特徵,由該人臉特徵定義一嘴動量偵察區,依據相鄰影像之嘴動量偵察區的變化量及該音訊隨時間的變化產生一控制訊號。
據此,本案之播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體上述實施例,可利用使用者的動作及音量作為播音控制之依據,以因應使用者的發言習慣自動控制播音功能,達成「無需使用者手動開啟或關閉播音功能」功效,改善習知電子溝通系統「無法因應使用習慣」問題,且可滿足會議或教學過程中〝維持秩序〞、〝節能省電〞及〝防止噪音〞等需求。
雖然本發明已利用上述較佳實施例揭示,然其並非用以限定本發明,任何熟習此技藝者在不脫離本發明之精神和範圍之內,相對上述實施例進行各種更動與修改仍屬本發明所保護之技術範疇,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
1‧‧‧收音單元
2‧‧‧攝像單元
3‧‧‧記憶單元
4‧‧‧控制單元
5‧‧‧播音單元
6‧‧‧通訊單元
Claims (27)
- 一種播音控制系統,包含:一收音單元,用以收錄一音訊;一攝像單元,用以攝取一視訊,該視訊包含數張含有人臉的影像;一記憶單元,用以儲存該音訊及該視訊;及一控制單元,電性連接該收音單元、該攝像單元及該記憶單元,該控制單元用以從該影像中偵測一人臉特徵,由該人臉特徵定義一嘴動量偵察區,依據相鄰影像之嘴動量偵察區的變化量及該音訊隨時間的變化產生一控制訊號。
- 根據申請專利範圍第1項所述之播音控制系統,其中該控制訊號維持一致能時間後,該控制單元依據該嘴動量偵察區及該音訊隨時間的變化判斷該控制訊號是否持續。
- 根據申請專利範圍第1或2項所述之播音控制系統,其中若該嘴動量偵察區隨時間的變化量大於一門檻值,且該音訊隨時間的變化大於一閥值,該控制訊號為一致能狀態,否則,該控制訊號為一除能狀態。
- 根據申請專利範圍第3項所述之播音控制系統,其中該門檻值為一移動量門檻值,該控制單元判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值,作為產生該控制訊號之依據。
- 根據申請專利範圍第4項所述之播音控制系統,其中該嘴動量偵察區中具有移動量的像素分別具有一移動方向,該移動方向介於以二維平面座標的一縱軸為中心的銳角範圍內。
- 根據申請專利範圍第3項所述之播音控制系統,其中該門檻值為前一影像的人臉特徵所佔面積,該控制單元判斷目前影像的人臉特徵所佔面積是否大於該面積門檻值之數倍,作為產生該控制訊號之依據。
- 根據申請專利範圍第3項所述之播音控制系統,其中該音訊之波形具有 數個區段,各該區段分別具有一振幅,該控制單元判斷目前區段的振幅是否大於該閥值。
- 根據申請專利範圍第1項所述之播音控制系統,其中該控制單元每隔數張影像依據一特徵模型演算法偵測該人臉特徵,其餘影像依據一模板匹配演算法偵測該人臉特徵。
- 根據申請專利範圍第1項所述之播音控制系統,其中該人臉特徵為該影像中人臉正面的鼻子特徵。
- 根據申請專利範圍第9項所述之播音控制系統,其中該嘴動量偵察區為該影像中的鼻子特徵下方的一矩形區域。
- 根據申請專利範圍第10項所述之播音控制系統,其中該矩形區域的面積為該鼻子特徵所佔面積的數倍。
- 根據申請專利範圍第1項所述之播音控制系統,另包含一播音單元電性連接該控制單元。
- 根據申請專利範圍第1項所述之播音控制系統,另包含一通訊單元電性連接該控制單元。
- 根據申請專利範圍第1項所述之播音控制系統,另包含一第一通訊單元、一第二通訊單元及一播音單元,該第一通訊單元電性連接該控制單元,該第二通訊單元耦接該第一通訊單元,該播音單元電性連接該第二通訊單元。
- 一種播音控制方法,由一播音控制系統執行,該方法之步驟包含:收錄一音訊;攝取一視訊,該視訊包含數張含有人臉的影像;儲存該音訊及該視訊;及從該視訊的影像中偵測一人臉特徵,由該人臉特徵定義一嘴動量偵察區,依據該嘴動量偵察區的像素變化量及該音訊隨時間的變化產生一控 制訊號。
- 根據申請專利範圍第15項所述之播音控制方法,其中該控制訊號維持一致能時間後,依據該嘴動量偵察區及該音訊隨時間的變化判斷該控制訊號是否持續。
- 根據申請專利範圍第15項所述之播音控制方法,其中若該嘴動量偵察區隨時間的變化量大於一門檻值,且該音訊隨時間的變化大於一閥值,該控制訊號為一致能狀態,否則,該控制訊號為一除能狀態。
- 根據申請專利範圍第17項所述之播音控制方法,其中該門檻值為一移動量門檻值,判斷該嘴動量偵察區中具有移動量的像素數量是否大於該移動量門檻值,作為產生該控制訊號之依據。
- 根據申請專利範圍第18項所述之播音控制方法,其中該嘴動量偵察區中具有移動量的像素分別具有一移動方向,該移動方向介於以二維平面座標的一縱軸為中心的銳角範圍內。
- 根據申請專利範圍第17項所述之播音控制方法,其中該門檻值為前一影像的人臉特徵所佔面積,判斷目前影像的人臉特徵所佔面積是否大於該面積門檻值之數倍,作為產生該控制訊號之依據。
- 根據申請專利範圍第17項所述之播音控制方法,其中該音訊之波形具有數個區段,各該區段分別具有一振幅,該播音控制方法更包含判斷目前區段的振幅是否大於該閥值。
- 根據申請專利範圍第15項所述之播音控制方法,其中每隔數張影像依據一特徵模型演算法偵測該人臉特徵,其餘影像依據一模板匹配演算法偵測該人臉特徵。
- 根據申請專利範圍第15項所述之播音控制方法,其中該人臉特徵為該影像中人臉的鼻子特徵。
- 根據申請專利範圍第23項所述之播音控制方法,其中該嘴動量偵察區 為該影像中的鼻子特徵下方的一矩形區域。
- 根據申請專利範圍第24項所述之播音控制方法,其中該矩形區域的面積為該鼻子特徵所佔面積的數倍。
- 一種內儲程式之電腦程式產品,當電腦載入該程式並執行後,可完成如請求項15至25項中任一項所述之方法。
- 一種內儲程式之電腦可讀取記錄媒體,當電腦載入該程式並執行後,可完成如請求項15至25項中任一項所述之方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW105114914A TWI564791B (zh) | 2015-05-19 | 2016-05-13 | 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 |
US15/156,378 US10083710B2 (en) | 2015-05-19 | 2016-05-17 | Voice control system, voice control method, and computer readable medium |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW104115893 | 2015-05-19 | ||
TW105114914A TWI564791B (zh) | 2015-05-19 | 2016-05-13 | 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW201643689A TW201643689A (zh) | 2016-12-16 |
TWI564791B true TWI564791B (zh) | 2017-01-01 |
Family
ID=57324771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW105114914A TWI564791B (zh) | 2015-05-19 | 2016-05-13 | 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10083710B2 (zh) |
TW (1) | TWI564791B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9853758B1 (en) * | 2016-06-24 | 2017-12-26 | Harman International Industries, Incorporated | Systems and methods for signal mixing |
CN106774797B (zh) * | 2016-12-02 | 2021-01-12 | 北京奇虎科技有限公司 | 机器人自动节电方法、装置和机器人 |
DE102016124906A1 (de) * | 2016-12-20 | 2017-11-30 | Miele & Cie. Kg | Verfahren zum Steuern eines Bodenpflegegeräts und Bodenpflegegerät |
US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
US11017779B2 (en) * | 2018-02-15 | 2021-05-25 | DMAI, Inc. | System and method for speech understanding via integrated audio and visual based speech recognition |
US11308312B2 (en) | 2018-02-15 | 2022-04-19 | DMAI, Inc. | System and method for reconstructing unoccupied 3D space |
US11468885B2 (en) | 2018-02-15 | 2022-10-11 | DMAI, Inc. | System and method for conversational agent via adaptive caching of dialogue tree |
WO2019161196A2 (en) * | 2018-02-15 | 2019-08-22 | DMAI, Inc. | System and method for disambiguating a source of sound based on detected lip movement |
CN109697976B (zh) * | 2018-12-14 | 2021-05-25 | 北京葡萄智学科技有限公司 | 一种发音识别方法及装置 |
CN110021297A (zh) * | 2019-04-13 | 2019-07-16 | 上海影隆光电有限公司 | 一种基于音视频识别的智能显示方法及其装置 |
KR20210028422A (ko) * | 2019-09-04 | 2021-03-12 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
CN110808048B (zh) * | 2019-11-13 | 2022-10-25 | 联想(北京)有限公司 | 语音处理方法、装置、系统及存储介质 |
CN110827823A (zh) * | 2019-11-13 | 2020-02-21 | 联想(北京)有限公司 | 语音辅助识别方法、装置、存储介质及电子设备 |
CN113723385B (zh) * | 2021-11-04 | 2022-05-17 | 新东方教育科技集团有限公司 | 视频处理方法及装置、神经网络的训练方法及装置 |
CN114265626A (zh) * | 2021-11-25 | 2022-04-01 | 上海齐感电子信息科技有限公司 | 控制方法及控制系统 |
CN114666639B (zh) * | 2022-03-18 | 2023-11-03 | 海信集团控股股份有限公司 | 视频播放方法及显示设备 |
CN116668611A (zh) * | 2023-07-27 | 2023-08-29 | 小哆智能科技(北京)有限公司 | 一种虚拟数字人唇形同步方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008134625A1 (en) * | 2007-04-26 | 2008-11-06 | Ford Global Technologies, Llc | Emotive advisory system and method |
WO2010101697A2 (en) * | 2009-02-06 | 2010-09-10 | Oculis Labs, Inc. | Video-based privacy supporting system |
TW201403458A (zh) * | 2012-04-27 | 2014-01-16 | Hewlett Packard Development Co | 來自使用者的音頻輸入 |
TW201501044A (zh) * | 2013-06-24 | 2015-01-01 | Utechzone Co Ltd | 偵測臉部動作以產生訊號的裝置、方法以及電腦可讀取紀錄媒體 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4052568A (en) * | 1976-04-23 | 1977-10-04 | Communications Satellite Corporation | Digital voice switch |
DE3276731D1 (en) * | 1982-04-27 | 1987-08-13 | Philips Nv | Speech analysis system |
US5907351A (en) * | 1995-10-24 | 1999-05-25 | Lucent Technologies Inc. | Method and apparatus for cross-modal predictive coding for talking head sequences |
JP2000175170A (ja) * | 1998-12-04 | 2000-06-23 | Nec Corp | 多地点テレビ会議システム及びその通信方法 |
US6526161B1 (en) * | 1999-08-30 | 2003-02-25 | Koninklijke Philips Electronics N.V. | System and method for biometrics-based facial feature extraction |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
TWI262474B (en) * | 2004-10-06 | 2006-09-21 | Inventec Corp | Voice waveform processing system and method |
ES2373366T3 (es) * | 2004-10-22 | 2012-02-02 | Shiseido Co., Ltd. | Procedimiento de maquillaje de labios. |
JP5293329B2 (ja) * | 2009-03-26 | 2013-09-18 | 富士通株式会社 | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 |
US9154730B2 (en) * | 2009-10-16 | 2015-10-06 | Hewlett-Packard Development Company, L.P. | System and method for determining the active talkers in a video conference |
US8451312B2 (en) * | 2010-01-06 | 2013-05-28 | Apple Inc. | Automatic video stream selection |
CN102214291B (zh) * | 2010-04-12 | 2013-01-16 | 云南清眸科技有限公司 | 一种快速准确的基于视频序列的人脸检测跟踪方法 |
US8635066B2 (en) * | 2010-04-14 | 2014-01-21 | T-Mobile Usa, Inc. | Camera-assisted noise cancellation and speech recognition |
US8326001B2 (en) * | 2010-06-29 | 2012-12-04 | Apple Inc. | Low threshold face recognition |
US8903130B1 (en) * | 2011-05-09 | 2014-12-02 | Google Inc. | Virtual camera operator |
US8913103B1 (en) * | 2012-02-01 | 2014-12-16 | Google Inc. | Method and apparatus for focus-of-attention control |
CN202551276U (zh) | 2012-03-14 | 2012-11-21 | 赖建新 | 一种麦克风 |
US9263044B1 (en) * | 2012-06-27 | 2016-02-16 | Amazon Technologies, Inc. | Noise reduction based on mouth area movement recognition |
KR101992676B1 (ko) * | 2012-07-26 | 2019-06-25 | 삼성전자주식회사 | 영상 인식을 이용하여 음성 인식을 하는 방법 및 장치 |
JP2014153663A (ja) * | 2013-02-13 | 2014-08-25 | Sony Corp | 音声認識装置、および音声認識方法、並びにプログラム |
WO2014209262A1 (en) * | 2013-06-24 | 2014-12-31 | Intel Corporation | Speech detection based upon facial movements |
US9264824B2 (en) * | 2013-07-31 | 2016-02-16 | Starkey Laboratories, Inc. | Integration of hearing aids with smart glasses to improve intelligibility in noise |
US20150279364A1 (en) * | 2014-03-29 | 2015-10-01 | Ajay Krishnan | Mouth-Phoneme Model for Computerized Lip Reading |
-
2016
- 2016-05-13 TW TW105114914A patent/TWI564791B/zh active
- 2016-05-17 US US15/156,378 patent/US10083710B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008134625A1 (en) * | 2007-04-26 | 2008-11-06 | Ford Global Technologies, Llc | Emotive advisory system and method |
WO2010101697A2 (en) * | 2009-02-06 | 2010-09-10 | Oculis Labs, Inc. | Video-based privacy supporting system |
TW201403458A (zh) * | 2012-04-27 | 2014-01-16 | Hewlett Packard Development Co | 來自使用者的音頻輸入 |
TW201501044A (zh) * | 2013-06-24 | 2015-01-01 | Utechzone Co Ltd | 偵測臉部動作以產生訊號的裝置、方法以及電腦可讀取紀錄媒體 |
Also Published As
Publication number | Publication date |
---|---|
US20160343389A1 (en) | 2016-11-24 |
TW201643689A (zh) | 2016-12-16 |
US10083710B2 (en) | 2018-09-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI564791B (zh) | 播音控制系統、方法、電腦程式產品及電腦可讀取紀錄媒體 | |
US9361512B2 (en) | Identification of a gesture | |
WO2020082902A1 (zh) | 视频的音效处理方法及相关产品 | |
WO2019134527A1 (zh) | 人机交互方法、装置、介质及移动终端 | |
WO2017031901A1 (zh) | 人脸识别方法、装置及终端 | |
TW201901527A (zh) | 視訊會議裝置與視訊會議管理方法 | |
US9275275B2 (en) | Object tracking in a video stream | |
US20120098946A1 (en) | Image processing apparatus and methods of associating audio data with image data therein | |
CN104246660A (zh) | 用于基于隐式用户输入和行为的媒体的动态适应的系统和方法 | |
JP7209851B2 (ja) | 画像変形の制御方法、装置およびハードウェア装置 | |
US20170287192A1 (en) | User terminal device for displaying an object image in which a feature part changes based on image metadata and the control method thereof | |
TWI588590B (zh) | 影像產生系統及影像產生方法 | |
CN109618098B (zh) | 一种人像面部调整方法、装置、存储介质及终端 | |
WO2018121385A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN105741256B (zh) | 电子设备及其刮须提示系统与方法 | |
US10769416B2 (en) | Image processing method, electronic device and storage medium | |
US20240080408A1 (en) | Combining video streams having different information-bearing levels | |
US20150009314A1 (en) | Electronic device and eye region detection method in electronic device | |
US20150116209A1 (en) | Electronic device and method for controlling buttons of electronic device | |
CN112381709B (zh) | 图像处理方法、模型训练方法、装置、设备和介质 | |
WO2021087773A1 (zh) | 识别方法、装置、电子设备及存储介质 | |
KR102288060B1 (ko) | 피사체의 소리를 수신하는 방법 및 이를 구현하는 전자장치 | |
CN106127752A (zh) | 图像质量分析方法和装置 | |
CN106023114B (zh) | 图像处理方法及装置 | |
US20230115371A1 (en) | Efficient vision perception |