TWI712011B

TWI712011B - 安全警示語音提示方法

Info

Publication number: TWI712011B
Application number: TW108146455A
Authority: TW
Inventors: 楊世豪; 陳惠貞; 黃玠元
Original assignee: 仁寶電腦工業股份有限公司
Priority date: 2019-12-18
Filing date: 2019-12-18
Publication date: 2020-12-01
Also published as: US11145081B2; US20210192775A1; TW202125441A

Abstract

本案係關於一種安全警示語音提示方法，包括以下步驟：提供可穿戴電子裝置；取得影像並對影像進行影像處理；偵測並辨識影像中的複數個物件；分類並判斷複數個物件的危險程度，並生成判斷結果；根據判斷結果，針對當前複數個物件中高於一特定危險程度的物件生成安全警示訊息；以及轉換安全警示訊息以語音形式提示。藉此，可輔助使用者避開危險，有效提升使用者之行走安全性。

Description

安全警示語音提示方法

本案係關於一種語音提示方法，尤指一種應用於可穿戴電子裝置之安全警示語音提示方法。

交通，是人類時常需要面對的課題。不論是在室內或室外，最基本且單純的交通方式就是行走。事實上，走路時常會遇到障礙物或者危險，若有突如其來的威脅常讓人措手不及。

對於一般人來說，在眼睛接收到周圍環境的訊息後，大腦還需要一定的反應時間，方能對情況進行應對與處理，並以行動實現對障礙物或危險的閃避，方能完成每一次行走。

然而，對於視力較差、不具視力或者反應較差的人來說，在室外行走是一項艱鉅的任務。若對路上的情況來不及反應可能會直接地導致傷亡，且也不易改變行走路線。

現有的協助提示方法，大多是透過真人助理來協助注意路況及修正路線，但真人助理不一定隨時都能在線上服務。若臨時需要使用服務，也可能有無法得到幫助的情況。因此，存在需拜託他人以及不能隨時隨地使用等缺點。

故此，如何發展一種可有效解決前述先前技術之問題與缺點之安全警示語音提示方法，實為目前尚待解決的問題。

本案之主要目的為提供一種安全警示語音提示方法，俾解決並改善前述先前技術之問題與缺點。

本案之另一目的為提供一種安全警示語音提示方法，藉由對影像中的物件的危險程度進行分類，再針對危險程度較高的物件生成安全警示訊息，並轉換該安全警示訊息以語音形式提示，可輔助使用者避開危險，有效提升使用者之行走安全性。

本案之另一目的為提供一種安全警示語音提示方法，透過深度學習及機器學習，透過神經網路計算特徵，以及擷取特徵點的方式，實現對物件的二步分類，先就物件對使用者的基本危險程度進行第一分類，再以使用者速度與物件速度進行第二分類，最終綜合二步分類透過機器學習決策生成判斷結果，能夠精確地進行當前最重要的安全警示訊息提示，進而實現以人工智慧輔助使用者行走，並達到不受時間、空間限制也無須拜託他人等功效。此外，更可以進一步搭配導航系統輔助使用者修正行走路線。

為達上述目的，本案之一較佳實施態樣為提供一種安全警示語音提示方法，包括步驟：(a)提供一可穿戴電子裝置；(b)取得一影像並對該影像進行影像處理；(c)偵測並辨識該影像中的複數個物件；(d)分類並判斷該複數個物件的危險程度，並生成一判斷結果；(e)根據該判斷結果，針對當前該複數個物件中高於一特定危險程度的該物件生成一安全警示訊息；以及(f)轉換該安全警示訊息以語音形式提示。

1:可穿戴電子裝置

11:控制單元

12:影像擷取模組

13:影像處理單元

14:儲存單元

15:軟體引擎

151:物件偵測單元

152:深度學習單元

153:機器學習單元

154:視覺里程單元

155:慣性量測單元

156:導航系統

157:圖像描述單元

1571:第二卷積神經網路

1572:遞歸神經網路

1573:長短期記憶模型

16:語音處理單元

A:流程接續點

S100、S200、S300、S400、S500、S600、S700、S800:步驟

S210、S220、S310、S320、S410、S420、S510、S520:步驟

S710、S720、S730:步驟

第1圖係顯示本案一實施例之安全警示語音提示方法之流程圖。

第2圖係顯示本案一實施例之可穿戴電子裝置之架構方塊圖。

第3圖係顯示本案一實施例之安全警示語音提示方法之流程圖。

第4A圖係顯示本案一實施例之安全警示語音提示方法之局部流程圖。

第4B圖係顯示第4A圖所示之安全警示語音提示方法之後續步驟流程圖。

第5圖係顯示本案一實施例之策略神經網路之架構示意圖。

第6圖係顯示本案一實施例之圖像描述單元之輸入及輸出示意圖。

第7圖係顯示本案一實施例之語音處理單元之輸入及輸出示意圖。

體現本案特徵與優點的一些典型實施例將在後段的說明中詳細敘述。應理解的是本案能夠在不同的態樣上具有各種的變化，其皆不脫離本案的範圍，且其中的說明及圖示在本質上係當作說明之用，而非架構於限制本案。

請參閱第1圖，其係顯示本案一實施例之安全警示語音提示方法之流程圖。如第1圖所示，本案一實施例之安全警示語音提示方法包括步驟如下：首先，如步驟S100所示，提供可穿戴電子裝置。其次，如步驟S200所示，取得影像，並對影像進行影像處理。然後，如步驟S300所示，偵測並辨識影像中的複數個物件。接著，如步驟S400所示，分類並判斷複數個物件的危險程度，並生成判斷結果。然後，如步驟S500所示，根據判斷結果，針對當前複數個物件中高於一特定危險程度的物件生成安全警示訊息。最後，如步驟S600所示，轉換安全警示訊息以語音形式提示。藉此，可輔助使用者避開危險，有效提升使用者之行走安全性。

應特別注意的是，在步驟S500中，特定危險程度可以是預設在可穿戴電子裝置內，在本案中可為一量化數值，且能依照使用者特性進行設定，也可以是在一伺服器端持續運算並動態調整，但皆不以此為限。此外，特定危險程度可判斷使用者是否可能產生人身危險。因此，當判斷結果中存在多個物件高於特定危險程度，表示環境中存在多個可能對使用者的人身安全造成威脅的物件，會對應每一個物件皆生成安全警示訊息，而非局限於僅對單一物件生成安全警示訊息。相應地，在步驟S600中，若存在有多個安全警示訊息，該多個安全警示訊息會依照危險程度由高至低依序以語音形式提示播放。

具體而言，本案之安全警示語音提示方法係以人工智慧作為基礎，利用擴增實境(Augmented Reality,AR)來實現視覺里程(Visual Odometry,VO)，進而以視覺里程搭配深度學習(Deep Learning)、機器學習(Machine Learning)以及圖像描述(Image Captioning)來將擷取到的影像轉換為對使用者的安全訊息語音提示。

以下說明可穿戴電子裝置的架構，應注意的是其只是能實現本案的安全警示語音提示方法的一個實施例，其他可實現本案的穿戴電子裝置亦屬本案的教示範圍。請參閱第2圖，其係顯示本案一實施例之可穿戴電子裝置之架構方塊圖。如第2圖所示，本案的可穿戴電子裝置1包括控制單元11、影像擷取模組12、影像處理單元13、儲存單元14、軟體引擎15、語音處理單元16及慣性量測感測器17。其中，控制單元11可為但不限於中央處理器(CPU)，影像擷取模組12包括至少一個感光元件，影像處理單元13可為但不限於圖形處理器(GPU)，儲存單元14可為記憶體(Memory)或快閃碟(Flash Drive)，且語音處理單元16可為硬體晶片(Chip)，亦可為軟體單元，同時語音處理單元16可包括揚聲器。慣性量測感測器17係與控制單元11相連接，用以取得慣性數據測量值，例如角速度及加速度，但不以此為限。此外，軟體引擎15包括物件偵測單元151、深度學習單元152、機器學習單元153、視覺里程單元154、慣性量測單元(Inertial Measurement Unit,IMU)155、導航系統156及圖像描述單元157。物件偵測單元151、深度學習單元152、機器學習單元153、視覺里程單元154、慣性量測單元155、導航系統156及圖像描述單元157係可由控制單元11運行，或各自運行於特定的運算或處理單元，以實現本案的安全警示語音提示方法。應特別注意的是，慣性量測單元155在軟體引擎15內係處理硬體元件，即慣性量測感測器17，所獲得的數據，其中慣性量測單元155包含軟體演算法。

請再參閱第1圖及第2圖。在一些實施例中，本案安全警示語音提示方法之步驟S200可進一步包括步驟如下：首先，開啟影像擷取模組12以取得影像。然後，以影像處理單元13對影像進行影像處理。具體而言，影像擷取模組12會在固定的時間間距下連續地擷取當前影像，並以影像處理單元13進行影像處理，一般稱此影像處理為影像前處理，例如但不限於灰階化及高斯模糊等，可以使影像特徵更為清楚，但不以此為限。

在一些實施例中，本案安全警示語音提示方法之步驟S300可進一步包括步驟如下：首先，對影像進行物件偵測。接著，對偵測到的複數個物件進行特徵擷取，並利用一全連接層分類進行物件辨識。較佳地，此處的物件偵測係使用預先訓練好的卷積神經網路(Convolution Neural Network,CNN)模型，其已將常見的物件儲存為訓練集(Training set)，當物件的特徵擷取完成，偵測到的物件會被放入卷積神經網路模型中，以輸出特徵向量，再由卷積神經網路的全連接層分類完成物件辨識。簡言之，此二步驟可透過物件偵測單元151及深度學習單元152搭配第一卷積神經網路來實現，且第一卷積神經網路輸出複數個特徵向量。

請參閱第3圖並配合第2圖，其中第3圖係顯示本案一實施例之安全警示語音提示方法之流程圖。如第2圖及第3圖所示，本案之安全警示語音提示方法，在步驟S300及步驟S400之間可進一步包括步驟S700，根據影像得到可穿戴電子裝置1的使用者的速度以及複數個物件的速度，此步驟可透過視覺里程單元154及慣性量測單元155來實現。視覺里程的輸入採用步驟S200完成的影像前處理，並在此步驟中尋找擷取影像中的特徵點，並計算出使用者速度以及物件速度。

步驟S700的細部流程可參閱第4A圖及第4B圖。第4A圖係顯示本案一實施例之安全警示語音提示方法之局部流程圖，以及第4B圖係顯示第4A圖所示之安全警示語音提示方法之後續步驟流程圖。由於此實施例之安全警示語音提示方法篇幅較大，在第4A圖及第4B圖中的流程步驟係以流程接續點A連接。如第2圖、第4A圖及第4B圖所示，前述的步驟S200的細部流程分別以步驟S210及步驟S220表示，且前述的步驟S300的細部流程分別以步驟S310及步驟S320表示。步驟S700的細部流程包括步驟S710、步驟S720及步驟S730。首先，步驟S710係計算並擷取影像中的每一幀影像中的複數個特徵點。接著，步驟S720係計算該複數個特徵點之間的移動距離，例如建構一地圖並記錄行走路線及距離，但不以此為限。然後，在步驟S730中，係結合慣性量測單元155、時間以及移動距離，搭配前述步驟的物件辨識，計算得到使用者的速度以及該複數個物件的速度。進一步地，在步驟S700之後，本案之安全警示語音提示方法可以搭配導航系統156輔助使用者修正行走路線，其方式可透過現有的可穿戴電子裝置1的硬體架構以語音的方式實現。

根據本案之構想，步驟S400可由控制單元11配合機器學習單元153實現，並可進一步包括以下步驟：首先，如步驟S410所示，針對複數個物件對使用者的危險程度進行第一分類，此處所指的危險程度為預先對不同物件所指定的危險預設值，像是卡車相較小客車就具有高的危險預設值。進一步地，此危險預設值可以是固定的，也可以在機器學習的過程中被適度地調整。接著，如步驟S420所示，針對複數個物件的速度進行第二分類，並根據第一分類及第二分類判斷複數個物件的危險程度，以生成一初步判斷結果。具體來說，由步驟S300及步驟S700可以得知被辨識的物件種類及物件的速度與距離。第一分類會明確給出每一個物件的種類，例如紅綠燈、行人、汽車、腳踏車等，但不以此為限。第二分類會對物件的速度及/或距離分組，例如距離小於0.5公尺、距離為0.5公尺至1公尺及距離為1公尺至1.5公尺等，但不以此為限。根據第一分類及第二分類，將每個物件種類及物件的速率及/或距離排列組合，可以得到決策模型的狀態集(States set)和各別狀態所有可能執行的動作集(Actions set)，並給出相應的評分，以進一步應用在策略神經網路。

以下以簡單架構進一步說明本案所採用的策略神經網路(Deep Q Network)。請參閱第5圖並配合第4A圖及第4B圖，其中第5圖係顯示本案一實施例之策略神經網路之架構示意圖。如第4A圖至第5圖所示，狀態(s)和動作(a)為最大策略值π(s,a)的輸入，最大策略值π(s,a)為一函數。在當前環境下，觀察當前環境的組成物件及距離可以給定當前環境的狀態(State)，其方式可由狀態集透過觀察狀態來產生當前狀態，將此狀態作為策略神經網路(Deep Q Network)的輸入，策略神經網路會預測所有可能操作的預期最終獎勵(Rewards)，並執行環境狀態下具有最大策略值的動作(Action)，即生成判斷結果。同時，藉由多次反覆的過程，正向或負向的經驗可被獲得來訓練並使對所有狀態的應對能更加完善。簡言之，策略神經網路的輸入由第一分類及第二分類結合運算來實現，策略神經網路的輸出可透過機器學習持續調整改進。最終，由策略神經網路得出相應的判斷結果，判斷結果可包括各物件最大策略值的動作及其對應危險程度評分。

請參閱第6圖並配合第1圖、第2圖、第4A圖及第4B圖，其中第6圖係顯示本案一實施例之圖像描述單元之輸入及輸出示意圖。如第1圖、第2圖、第4A圖、第4B圖及第6圖所示，在前述步驟的判斷結果生成後，步驟S500係被執行。首先，如判斷結果中具有高於特定危險程度的物件，其具體係採用圖像描述，並以圖像描述單元157實現。其中，圖像描述單元157包括第二卷積神經網路1571、遞歸神經網路(Recurrent Neural Network,RNN)1572及長短期記憶模型(Long Short-Term Memory)1573。步驟S500進一步包括以下步驟：首先，如步驟S510所示，將判斷結果、使用者的速度及複數個物件的速度作為圖像描述單元157之遞歸神經網路1572之輸入。接著，如步驟S520所示，圖像描述單元157輸出與影像相符的一段文字。在此實施例中，前述步驟中的第一卷積神經網路輸出的特徵向量係被應用為第二卷積神經網路1571之輸出，以作為長短期記憶模型1573的輸入。應特別注意的是，第一卷積神經網路可與第二卷積神經網路1572相同或相異，且長短期記憶模型1573可為預先訓練好的模型，但皆不以此為限。

請參閱第7圖並配合第2圖、第4A圖及第4B圖，其中第7圖係顯示本案一實施例之語音處理單元之輸入及輸出示意圖。如第2圖、第4A圖、第4B圖及第7圖所示，在前述步驟S520輸出的一段文字，在步驟S600中係被輸入至語音處理單元16，語音處理單元16可為文字轉語音(Text-To-Speech，TTS)系統，經過文字轉語音系統的神經網路模型，可將輸入的文字轉換為語音並輸出，其可以揚聲器實現，例如以語音講述「左前方有一汽車以時速30公里的速度行駛」，但不此為限。

根據本案之構想，其影像取得方式不局限於穿戴電子裝置的內建影像擷取模組，更可利用周遭環境中已具有的錄影設備(例如：監視攝影機)，透過物聯網或其他影像串流方式連結，來取得分析影像。如此，本案所建構之安全警示語音提示方法，更可以透過不同於可穿戴裝置視角範圍的影像，輔助判斷使用者行走安全性。

綜上所述，本案提供一種安全警示語音提示方法，藉由對影像中的物件的危險程度進行分類，再針對危險程度最高的物件生成安全訊息，並以語音提示該安全訊息，可輔助使用者避開危險，有效提升使用者行走安全性。同時，透過深度學習及機器學習配合神經網路，以及擷取特徵點的方式，實現對物件的二步分類，先就物件對使用者的基本危險程度進行第一分類，再以使用者速度與物件速度進行第二分類，最終綜合二步分類生成判斷結果，能夠精確地進行當前最重要的安全訊息提示，進而實現以人工智慧輔助使用者行走，並達到不受時間、空間限制也無須拜託他人等功效。此外，更可以進一步搭配導航系統輔助使用者修正行走路線。

縱使本發明已由上述之實施例詳細敘述而可由熟悉本技藝之人士任施匠思而為諸般修飾，然皆不脫如附申請專利範圍所欲保護者。

S100、S200、S300、S400、S500、S600:步驟

Claims

一種安全警示語音提示方法，包括步驟：(a)提供一可穿戴電子裝置；(b)取得一影像並對該影像進行影像處理；(c)偵測並辨識該影像中的複數個物件；(g)根據該影像得到該可穿戴電子裝置的一使用者的速度以及該複數個物件的速度，其中該步驟(g)更包括步驟：(g1)計算並擷取該影像中的每一幀影像中的複數個特徵點；(g2)計算該複數個特徵點之間的移動距離；以及(g3)結合一慣性量測單元、時間與移動距離計算得到該使用者的速度以及該複數個物件的速度；(d)分類並判斷該複數個物件的危險程度，並生成一判斷結果，其中該步驟(d)更包括步驟：(d1)針對該複數個物件對使用者的危險程度進行一第一分類；以及(d2)針對該複數個物件的速度進行一第二分類，並根據該第一分類及該第二分類判斷該複數個物件的危險程度，以生成該判斷結果；(e)根據該判斷結果，針對當前該複數個物件中高於一特定危險程度的該物件生成一安全警示訊息；以及(f)轉換該安全警示訊息以語音形式提示。
如申請專利範圍第1項所述之安全警示語音提示方法，其中該步驟(b)更包括步驟：(b1)開啟一影像擷取模組以取得該影像；以及 (b2)以一影像處理單元對該影像進行影像處理。
如申請專利範圍第1項所述之安全警示語音提示方法，其中該步驟(c)更包括步驟：(c1)對該影像進行物件偵測；以及(c2)對偵測到的該複數個物件進行特徵擷取，並利用一全連接層分類進行物件辨識。
如申請專利範圍第1項所述之安全警示語音提示方法，於該步驟(g)之後更包括步驟：(h)搭配一導航系統輔助該使用者修正一行走路線。
如申請專利範圍第1項所述之安全警示語音提示方法，其中該步驟(e)更包括步驟：(e1)將該判斷結果、該使用者的速度及該複數個物件的速度作為一圖像描述單元之一遞歸神經網路之輸入；以及(e2)該圖像描述單元輸出與該影像相符的一段文字。
如申請專利範圍第5項所述之安全警示語音提示方法，其中該步驟(c)係以一第一卷積神經網路實現，該第一卷積神經網路輸出複數個特徵向量，且該步驟(d)係以一策略神經網路實現。
如申請專利範圍第6項所述之安全警示語音提示方法，其中該圖像描述單元包括一第二卷積神經網路、該遞歸神經網路以及一長短期記憶模型，該複數個特徵向量被應用為該第二卷積神經網路之輸出，以作為該長短期記憶模型的輸入。