TW201606760A

TW201606760A - 從音頻訊號的即時情緒辨識

Info

Publication number: TW201606760A
Application number: TW104119439A
Authority: TW
Inventors: 克翰耶塞; 休伯瑞格玆克理斯; 金在淵; 伯丘湯瑪士Ｃ
Original assignee: 微軟技術授權有限責任公司
Priority date: 2014-07-21
Filing date: 2015-06-16
Publication date: 2016-02-16
Also published as: US20160019915A1; US10068588B2; WO2016014321A1

Abstract

本案提供了用於即時辨識音頻訊號中的情緒的系統、方法、以及電腦可讀取儲存媒體。在一使用者的運算裝置中偵測一音頻訊號並運算一快速音訊指紋。從該音訊指紋擷取出一或多個特徵，並將其與關聯於經定義的情緒的特徵進行比較，以判定相對的相似度。根據該相對的相似度，對於該經定義的情緒運算出信賴評分，且判定對於一或多個特定情緒的一信賴評分是否超過一底限信賴評分。若判定出對於一或多個特定情緒的信賴評分係超過一底限，則將該特定情緒或多個情緒與該音頻訊號進行關聯。接著依需求，根據關聯於該音頻訊號的該情緒或多個情緒啟動不同的措施。

Description

從音頻訊號的即時情緒辨識

本案係關於從音頻訊號的即時情緒辨識。

人類談話不僅是詞語的說出，也會關係著說出這些詞語的方式；從說出的詞語所得到的、伴隨著的、及/或即時被利用的音頻訊號；以及甚至是那些說出詞語的講者的身分。換言之，人類的溝通多半發生在一講者的談話和講話方式的非語義特徵之中。講者的情緒會增加影響一聽者的反應的上下文內涵層面，甚至造成對於同樣的詞語的不同解釋。例如，聽到講者普通音量的「趕快」的詞語，可能無法改變聽者的時間線，而當聽到高張音量的「趕快！」並伴隨講者語氣中的焦慮，則可能會使聽者停下所有動作並開始跑。

然而，儘管現今智慧型裝置的普及，其使用者介面充其量只能理解具有語義的談話，而因此因無法理解也不可能依照談話所傳達的更豐富的義涵來作出反應。

此概述係提供以簡化形式介紹所挑選的概念，而進一步會在以下詳細說明中描述。此概述並非用來識別所請求保護標的的關鍵特徵或必要特徵，也並非用於幫助決定所請求保護標的的範圍。

在不同的實施例中，提供用於即時辨識音頻訊號中的情緒的系統、方法、及電腦可讀取儲存媒體。在使用者的運算裝置(如，移動運算裝置)上，偵測出一音頻訊號(如，人類談話及/或從人類談話而得到的音頻訊號)，並運算出一快速音訊指紋。從該音訊指紋擷取出一或多個特徵，並將該音訊指紋與關聯於經定義的情緒進行比較，以判定相對的相似度。根據相對的相似度，對於該經定義的情緒運算出信賴評分，並且判定對於一或多個特定情緒的一信賴評分是否超過一相關的底限信賴評分。若判定出關聯於一或多個特定情緒的一底限信賴評分被超過，則將該些特定情緒中的一或多個情緒與該音頻訊號進行關聯。接著依需求，根據關聯於該音頻訊號的該情緒或多個情緒啟動不同的措施。

本發明的實施例提供一種連續地收聽音頻訊號的環境，如此，當該些訊號被接收時，可即時地被偵測。有了對於一講者的情緒狀態的即時持續的理解，可解開從協助面到個人化的多種情境，以簡單地使講者意識到他們自己說話時所描繪的情緒。這樣的理解提供改善準確性並減低錯誤率，從而使得依賴於音頻偵測及解譯的運算執行具有增進的效率。

100‧‧‧運算裝置

110‧‧‧匯流排

112‧‧‧記憶體

114‧‧‧處理器

116‧‧‧顯示元件

118‧‧‧I/O埠

120‧‧‧I/O元件

122‧‧‧電源

200‧‧‧運算系統

210‧‧‧使用者運算裝置

212‧‧‧學習引擎

214‧‧‧網路

216‧‧‧麥克風

218‧‧‧情緒識別引擎

220‧‧‧資料儲存

222‧‧‧音頻訊號接收元件

224‧‧‧音訊指紋運算元件

226‧‧‧特徵擷取元件

228‧‧‧評分元件

230‧‧‧比對元件

232‧‧‧措施啟動元件

234‧‧‧講者識別元件

236‧‧‧附加訊號接收元件

238‧‧‧比較子元件

240‧‧‧運算子元件

242‧‧‧底限判定子元件

244‧‧‧音頻訊號接收元件

246‧‧‧音訊指紋運算元件

248‧‧‧特徵擷取元件

250‧‧‧訓練/建模元件

252‧‧‧資料儲存

300‧‧‧情緒偵測應用

400‧‧‧方法

410~416‧‧‧方塊

500‧‧‧方法

510~522‧‧‧方塊

600‧‧‧方法

610~616‧‧‧方塊

本發明以所附圖式透過示例的方式來說明而非限制性的，在圖式中類似的參考數字表示相同的元件，且其中：圖1為適於應用本發明的實施例的一例示性運算環境的方塊圖；圖2為可應用本發明的實施例的一例示性運算系統的方塊圖；圖3為圖示了與本發明的實施相符的一例示性實施情境的方塊圖；圖4為圖示了與本發明的實施相符的用於辨識音頻訊號中的情緒的一例示性方法的流程圖；圖5為圖示了與本發明的實施相符的用於辨識音頻訊號中的情緒的另一例示性方法的流程圖；以及圖6為圖示了與本發明的實施相符的用於辨識音頻訊號中的情緒的又一例示性方法的流程圖。

為滿足法定要求，對本發明的標的作出明確性的敘述。然而，敘述本身並非用以限制本專利的範圍。相反的，發明人已設想所要求保護的標的尚可用其它方式來實現，來包括不同的步驟或與本文中的與其他現有的或未來的技術相似的步驟的組合。此外，儘管用語「步驟」及/或「方塊」可在本文中用來意指所用方法的不同元件，除非且除了已明確地描述的個別步驟的順序之外，該些用語不應被解釋為指定在所揭示的各個步驟之間的任何特定順序。

一般而言，於此所述技術的各種態樣，係針對用於即時辨識音頻訊號中的情緒的系統、方法、及電腦可讀取儲存媒體。透過一連續收音的麥克風偵測出一音頻訊號(如，人類談話及/或從人類談話而得到的音頻訊號)，並在一使用者的運算裝置(如，一移動裝置)上運算出一快速音訊指紋。所運算出的音訊指紋，為隨著時間的一音壓的表徵，且對於每一音頻訊號均為獨一無二的。從該音訊指紋擷取一或多個特徵，以產生某些特定的音頻訊號的屬性的一數位摘要。例示性特徵包括，例如但非限於，頻率-時間展現、以振幅區分的談話差異、以詞語速度區分的談話差異、零交越率、基礎估計及其衍生物、音頻訊號的頻譜分佈、談話中的有聲/無聲訊號的比率、以及談話的抑揚頓挫。

將擷取出的該些特徵與一資料儲存中的與經定義的情緒(從複數個講者所整合出的情緒，亦或是特定於偵測到的該音頻訊號所發出的講者)相關聯的特徵進行比較，以判定相對的相似度。根據該相對的相似度，對於一或多個經定義的情緒的(依照應用方式或所利用的實施例)運算出信賴評分，該些信賴評分代表著對於該音頻訊號的講者正感受著相關的經定義的情緒或多個情緒的確定程度。判定對於一或多個特定情緒的一信賴評分是否超過一相關的底限信賴評分。若判定出對於一或多個特定情緒的信賴評分超過一底限，則將該特定情緒或多個情緒與該音頻訊號進行關聯。

因此，本發明的一實施例係針對一種儲存有電腦可用指令的一或多個電腦可讀取儲存媒體，當一或多個運算裝置使用該些電腦可用指令時，會使該一或多個運算裝置去執行用於辨識音頻訊號中的情緒的方法。該方法包括步驟：偵測一音頻訊號，從偵測出的該音頻訊號運算出一音訊指紋運算，根據該音訊指紋，對於複數個經定義的情緒中的一或多個情緒運算出信賴評分，以及根據運算出的該些信賴評分將一或多個情緒與該音頻訊號進行關聯。

在另一實施例中，本發明係針對一種用於辨識音頻訊號中的情緒的方法，該方法由包括至少一處理器的一或多個運算裝置來執行。該方法包括步驟：偵測一音頻訊號，從偵測出的該音頻訊號運算出一音訊指紋，從該音訊指紋擷取出至少一特徵，將擷取出的該至少一特徵與關聯於複數個經定義的情緒的特徵進行比較以判定相對的相似度，根據判定出的該相對的相似度對該複數個經定義的情緒中的一或多個情緒運算出信賴評分，判定出對於該複數個經定義的情緒中的一或多個特定情緒所運算出的該信賴評分超過一信賴評分底限，以及將該複數個經定義的情緒中的該一或多個特定情緒與該音頻訊號進行關聯。

在又一實施例中，本發明係針對一系統，該系統包括偵測音頻訊號的一麥克風，具有一或多個處理器及一或多個電腦可讀取儲存媒體的一情緒識別引擎，以及與該情緒識別引擎耦接的一資料儲存。該情緒識別引擎經配置以：從該麥克風接收偵測出的一音頻訊號，從被接收的該音頻訊號運算出一音訊指紋，根據運算出的該音訊指紋以及至少一部分的有關於該資料儲存的已存資料對於複數個經定義的情緒中的一或多個情緒判定信賴評分，以及根據運算出的該些信賴評分將一或多個情緒與該音頻訊號進行關聯。

在簡單地概述本發明的實施例之後，應用本發明的實施方式的一例示性操作環境係描述如下，以對於本發明的各種態樣提供一般性敘述。大致參照圖式並特別由圖1來說明，其圖示了應用本發明的實施方式的一例示性操作環境，並大致指定為運算裝置100。運算裝置100僅為適當的運算環境的一例，而並非用來對使用範圍或發明功能實施上建議出任何的限制。也不應將運算裝置100解釋為對於任一元件或元件的任一組合具有任何的關聯或必要條件。

本發明的實施方式係描述於計算機程式或機器可用指令的一般性敘述中，該計算機程式或機器可用指令包括電腦可用指令或電腦可執行指令，如由一電腦所執行的程式模組，或由其它機器如個人資料助理或其他手持式裝置所執行的程式模組。一般而言，程式模組包括常式、程式、物件、元件、資料結構及類似者，及/或意指執行特定作業或執行特定抽象化資料型態的程式碼。本發明的實施例可在各種系統配置中實施，包括但非限於，手持式裝置、消費性電子產品、通用電腦、特定功用的運算裝置及類似者。本發明的實施例也可以在分散式運算環境中實施，其中透過藉由通訊網絡鏈接的遠程處理裝置來執行作業。

接著參照圖1，運算裝置100包括一匯流排110，匯流排110直接或間接地耦接以下裝置：記憶體112、一或多個處理器114、一或多個顯示元件116、一或多個輸入/輸出埠(I/O埠)118、一或多個I/O元件120、及一例示性電源122。匯流排110代表該些一或多個匯流排(例如位址匯流排、資料匯流排或其組合)。儘管圖1的不同方塊為了清楚起見係以線條來圖示，在現實中，這些方塊代表邏輯上的元件，非必要為實際的元件。例如，可考慮以一顯示元件(如顯示器裝置)作為一個I/O元件。而處理器也具有記憶體。發明人將些認定為本領域的特性，並重申圖1的圖示僅是說明性的例示性運算裝置，其可與本發明的一或多個實施例一起應用。在「工作站」、「伺服器」、「膝上型電腦」、「手持式裝置」等這些類別之間並無區別，其所有均為圖1的範圍內並參照「運算裝置」而可預期的。

運算裝置100一般包括各式各樣的電腦可讀取媒體。電腦可讀取媒體為運算裝置100可存取的任意可用的媒體，包括揮發性媒體與非揮發性媒體、可移除式媒體與不可移除式媒體。電腦可讀取媒體包含電腦儲存媒體及通訊媒體；電腦儲存媒體不包含訊號本身。電腦儲存媒體包括揮發性與非揮發性、可移除式與不可移除式媒體應用於任一資訊儲存(如電腦可讀取指令、資料結構、程式模組或其他資料)的方法或技術。電腦儲存媒體包括，但非限於，RAM、ROM、EEPROM、快閃記憶體或其他記憶體技術、CD-ROM、數位光碟(DVD)或其他光碟儲存裝置、磁卡式錄音帶、磁帶、磁碟儲存器或其他磁性儲存裝置、或任何其他可用來儲存所需資訊且可被運算裝置100存取的媒體。另一方面，通訊媒體能實現電腦可讀取指令、資料結構、程式模組或在調變資料信號(如載波或其他包括任何資訊傳播媒體的傳輸機制)中的其他資料。術語「調變資料信號」是指具有一或多個本身特性集的訊號，或是以將資訊編碼於訊號中的方式而改變的訊號。舉例而言，但非限制，通訊媒體包括有線媒體例如有線網路或直接有線的連接，以及無線媒體如聲學、無線射頻(RF)、紅外線及其它無線媒體。任何上述組合亦應包含於電腦可讀取媒體的範圍內。

記憶體112包括具有揮發性及/或非揮發性記憶體的形式的電腦儲存媒體。該記憶體可為可移除式、不可移除式或其組合。例示性硬體裝置包括固態記憶體、硬碟機、光碟機及類似者。運算裝置100包括能從各種實體如記憶體112或I/O元件120讀取資料的一或多個處理器。顯示元件116對一使用者活其他裝置呈現資料指示。例示性顯示元件包括一顯示器裝置、擴音器、印字元件、振動元件及類似者。

I/O傳輸埠118允許運算裝置100邏輯地耦接至包括 I/O元件120的其他裝置，該些裝置可為內建的裝置。在實施例中，一麥克風或其他音頻流資料的來源被納入而作為一I/O元件，以提供情緒辨識所需的該些音頻訊號。其他例示的I/O元件包括搖桿、遊戲平板、衛星碟形、掃瞄器、印表機、無線裝置、一控制器(如觸控筆、鍵盤及滑鼠)、自然使用者介面(NUI)、及類似者。

NUI處理空中的手勢、語音、或其他由使用者產生的生理輸入。這些輸入可以被理解為由運算裝置100顯示的搜尋請求、出現在可對於輸入搜尋請求而提供回應的應用程式的單詞或符號及類似者。這些請求可被傳送至適當的網路元件以作進一步處理。NUI能實現語音辨識、觸控和觸控筆辨識、臉部辨識、生物特徵辨識、螢幕上的或鄰近螢幕的手勢辨識、空中的手勢、頭部和眼部追蹤、以及與運算裝置100的顯示有關的觸控辨識的任意組合。運算裝置100可配備深度攝影機，如立體攝影機系統、紅外線攝影機系統、RGB攝影機系統、及這些用於姿勢偵測與辨識的系統的組合。此外，運算裝置100可配備有能偵測運動的三軸加速度計或陀螺儀。該些三軸加速度計或陀螺儀的輸出訊號可提供至運算裝置100的顯示器，以產生沉浸式擴增實境或虛擬實境。

於此所述的發明標的的態樣係以電腦可執行指令(如由一移動裝置執行的程式模組)的一般性敘述來描述。一般而言，程式模組包括能執行特定作業或執行特定抽象化資料型態的常式、程式、物件、元件、資料結構等。於此所述的發明標的的態樣亦可於分散式運算環境中實施，其中透過藉由通訊網絡鏈接的遠程處理裝置來執行作業。在一分散式運算環境中，程式模組可位於本地的或遠端的包括記憶體儲存裝置的電腦儲存媒體。電腦可用指令形成一個界面，以允許電腦根據一輸入來源作出反應。該些指令與其它代碼段協作以啟動各種的作業，以對於跟接收到的資料的來源有關的已接收資料作出回應。

另外，儘管此處係使用用語「學習引擎」，應可認定此用語亦可包含伺服器、網頁瀏覽器、分散於一或多個電腦上的一或多個程序的集合、一或多個獨立式儲存裝置、一或多個其他運算或儲存裝置的集合、以上的一者或多者的任意組合及類似者。

如前所述，本發明的實施例提供了用於即時辨識音頻訊號中的情緒(如，人類談話及/或從人類談話所得到的或伴隨的音頻訊號)的系統、方法、及電腦可讀取儲存媒體。參照圖2，提供一方塊圖圖示了可應用本發明的實施例的一例示性運算系統200。一般而言，運算系統200說明一環境，在該環境中，音頻訊號會被偵測出，且將從音頻訊號運算出的音訊指紋與相關於已知情緒狀態的音訊指紋的一資料庫進行比較，以決定該音頻訊號的講者的情緒狀態是否可被識別。在其他未圖示的元件中，運算系統200通常包括一使用者運算裝置210及經由網路214與其他學習引擎相通訊的一學習引擎212。網路214可包括，非限於，一或多個區域網路(LAN)及/或廣域網路(WAN)。這些環境在辦公室中、企業型電腦網路、內部網路、以及網際網路中均為常見的。因此，網路214在此不加贅述。此外，在實施例中，由使用者運算裝置210及學習引擎212所執行的所述功能，可由一單一裝置(如，使用者運算裝置210)來執行，而使網路214非為必要。在這些實施例中，資料儲存252(將詳述如下)亦可位於有關於使用者運算裝置210。任一個或所有的這些變化型及其任意組合，應認定為本發明的實施例的範圍所涵蓋。

應可理解的是，在本發明的實施例的範圍內，可在運算系統200中使用任何數量的使用者運算裝置及/或學習引擎。其每一者包含能在一分散式環境中協作的一單一裝置/介面或多個裝置/介面。例如，學習引擎212可包含配置於一分散式環境中的多個裝置及/或模組，該分散式環境共同地提供於此所述的學習引擎212的功效。此外，未圖示出的其他元件或模組亦可包括於運算系統200之內。

在一些實施例中，一或多個圖示的元件/模組可以獨立的應用方式來實施。在其他實施例中，一或多個圖示的元件/模組可藉由使用者運算裝置210、學習引擎212、或一網際網路為主的服務來實施。對於該領域的習知技藝者而言應可理解的是，圖示於圖2中的元件/模組其本質上與數量上均為例示性的，而不應解釋限制性的。可使用任何數量的元件/模組來達到本案實施例範圍內的功效。另外，元件/模組可位於任何數量的學習引擎及/或使用者運算裝置中。舉例而言，學習引擎212可用一單一運算裝置、一運算裝置集群、或遠離一或多個其他元件的一運算裝置來提供。

應可理解的是，本文所述的這些與其他配置僅作為例示性闡述。其他配置及元件(如，機器、介面、功能、指令，以及功能群集等)可用於附加於所示的及/或描述的配置及元件或作為代替，且可省略掉一些元件。此外，許多本文描述的元件均為可應用為離散的或分散式元件或與其它元件聯合的功能實體，以及應用於任何合適的組合及位置。透過一或多個實體所執行的本文中描述的各種功能，可由硬體、韌體、及/或軟體來實現。例如，各種功能可由一處理器去執行儲存在記憶體中的指令來實現。

與本發明的實施例相符的，系統200經訓練以理解整體的或特定於講者的音訊指紋及/或特徵，該些音訊指紋及/或特徵係與複數個經定義的情緒相關聯。當存取由不同使用者產生的音頻訊號能提高在音頻偵測中所仰賴的準確性並降低錯誤率時，在實施例中，使用者可以選擇不讓自己的音頻樣本被收集及/或被儲存以改善音頻偵測運算的結果。例如，使用者可以經由「設置」選項或類似者，透過可存取的使用者介面(未示出)來選擇不加入音頻訊號集合。可替代地，當存取音頻偵測程式(或透過一個「設置」選項或類似者)時，使用者會被要求加入情緒偵測，以藉由音頻訊號的收集及可能儲存來改善音頻偵測程式的輸出結果。任何與所有這樣的變型及其任意組合，應認定為本發明的實施例的範圍所涵蓋。

在實施例中，可用一機器學習方法來實現對系統200 進行訓練，在該機器學習方法中資料(音頻樣本)會被收集，且人類產生的標籤被附加至每一片段的音頻樣本中。在這方面，圖2中的運算系統200的學習引擎212經配置以接收訓練的音頻訊號、運算訓練的音訊指紋、從該些訓練的音訊指紋擷取出特徵、以及接收人類產生的標籤以附加至供儲存的不同的特徵，以及其他方面。如所示，學習引擎212可存取一資料儲存252。資料儲存252經配置以儲存資訊，該資訊有關於音訊指紋、音訊指紋特徵、經定義的情緒、或相關於音訊指紋及特徵的情緒狀態及類似者中的至少一者。在實施例中，資料儲存252經配置為可搜尋一或多個有關於該資料儲存的已存項目。該領域的習知技藝者應可認知或理解的是，有關於該資料儲存的已存資訊為可設定的，並可包括，僅舉例而言，任何與音訊指紋、音訊指紋特徵、經定義的情緒及類似者相關的資訊。這些資訊的內容與大小並非以任何方式來限制本發明的實施例的範圍。此外，資料儲存252可為一單一的、獨立的元件(如所示)或複數個儲存裝置，例如一資料庫叢集，資料儲存252的某些部分可位於有關於學習引擎212、使用者運算裝置210、另一外部運算裝置(未圖示)及/或其任意組合。

如所示，學習引擎214包括一音頻訊號接收元件 244、一音訊指紋運算元件246、一特徵擷取元件248、及一訓練/建模元件250。音頻訊號接收元件244經配置以接收複數個訓練的音頻訊號(人類談話)，以作為原始音頻位元組或作為預先運算出的指紋。值得注意的是，若學習引擎212接收的音頻為預先運算出的指紋(通常為進行無關於學習引擎212的帶外(out-of-band)運算)時，則學習引擎214可省略掉音訊指紋運算元件246。

該音訊指紋運算元件246經配置以從該些訓練的音頻訊號運算出關聯於每一訓練的音頻訊號的一音訊指紋。從音頻樣本中運算出的每個運算出的音訊指紋，對於音頻樣本均為獨一無二的。特徵擷取元件248經配置以從該些音訊指紋中擷取關聯於該音訊指紋的特徵。這些特徵可包括，例如但非限於，頻率-時間展現、以振幅區分的談話差異、以詞語速度區分的談話差異、零交越率、基礎估計及其衍生物、音頻訊號的頻譜分佈、談話中的有聲/無聲訊號的比率、以及談話的抑揚頓挫。該領域的習知技藝者應可理解的是，音訊指紋可經由帶外運算，並如前所述由音頻訊號接收元件244接收。在這些例子中，在處理所提到的音頻訊號的一或多個階段的期間，可省略掉音訊指紋運算元件246或使其保持休眠。

學習引擎212的訓練/建模元件250經配置以檢查從個別的音頻樣本的該些音訊指紋中所擷取出的特徵，並將該些擷取出的特徵與人類產生的標籤進行關聯，每一標籤係代表由該特徵的集合所表現的一或多個情緒。換言之，這些標籤係為該音頻訊號的講者的可能情緒或多個情緒的代表，而從該音頻訊號可運算出或擷取出該音訊指紋及對應的音頻特徵。

接下來，該擷取到的、運算出的、及已標籤的資訊會儲存於有關於一資料儲存，如資料儲存252，以當即時接收到音頻訊號時可提供作比較。在實施例中，訓練與建模是一連續的程序，藉此使資訊的資料儲存會不斷地被改進，以助於在評估一音頻訊號樣本時能確保最佳可能準確性。

使用者運算裝置210經配置以偵測音頻訊號、針對已知情緒的一資料儲存將偵測出的該些音頻訊號進行分類、及將該講者的一或多個可能的情緒與偵測出的該些音頻訊號進行關聯，以及其他方面。使用者運算裝置210可包括任意類型的運算裝置，例如參照圖1所描述的運算裝置100。如所示，使用者運算裝置210包括一麥克風216及一情緒識別引擎218。該麥克風經配置以即時偵測從人類談話而得到的音頻訊號。在這方面，該麥克風可為一「始終開啟的」裝置，而當未偵測到音頻訊號時能以低電源狀態而運作，並且當偵測到音頻訊號時可快速地開啟電源。在實施例中，一感應器如一語音訊框偵測元件(如圖3所示)可與麥克風216聯合運作以感應音頻訊號，並指示麥克風216以開始進行音頻訊號的偵測。換言之，在實施例中，一語音訊框偵測元件(如圖3所示)，可感應到一音頻訊號的出現，並指示麥克風216以開始偵測該音頻訊號的本質，以使其音訊指紋可被運算出來並可從該音訊指紋擷取出特徵，如以下更加詳述。

情緒識別引擎218經配置以將與已知情緒的一資料儲存相符的已接收的音頻訊號進行分類，以嘗試確定一已接收的音頻訊號的講者的情緒狀態，除此之外還有其他方面。在這方面，情緒識別引擎218包括一音頻訊號接收元件222、一音訊指紋運算元件224、一特徵擷取元件226、一評分元件228、一比對元件230、一措施啟動元件232、一講者識別元件234、以及一附加訊號接收元件236。

音頻訊號接收元件222經配置以(如從麥克風216) 接收一偵測出的音頻訊號。音訊指紋運算元件224經配置以從該被接收的音頻訊號運算一音訊指紋。所運算出的音訊指紋，係隨著時間的一音壓的表徵，且對於每一音頻訊號均為獨一無二的。特徵擷取元件226經配置以從該音訊指紋擷取一或多個特徵，以產生某些特定的音頻訊號的屬性的一數位摘要。例示性特徵包括，舉例而言但非限定，如頻率-時間展現、以振幅區分的談話差異、以詞語速度區分的談話差異、零交越率、基礎估計及其衍生物、音頻訊號的頻譜分佈、談話中的有聲/無聲訊號的比率、以及談話的抑揚頓挫。

情緒識別引擎218的評分元件228經配置以判定對於複數個經定義的情緒的信賴評分，如前所述，該評分元件可為應用特定的或實施例特定的。在這方面，評分元件228包括一比較子元件238、一運算子元件240、及一底限判定子元件242。比較子元件238經配置以將從該音頻訊號(透過特徵擷取元件226)所擷取的特徵與關聯於複數個經定義的情緒的已知特徵進行比較，該些關聯於複數個經定義的情緒的已知特徵係儲存於一資料儲存(資料儲存220，如所示)中。該複數個經定義的情緒中的每一特定情緒，包括了由其特徵所代表的不同的特色。一音頻訊號若包括越多的與一特定情緒相同的該些定義的特徵，該音頻訊號的講者則越有可能感受到該特定情緒。根據比較子元件238所進行的比較，運算子元件240運算出對於該複數個經定義的情緒中的一或多個情緒的一信賴評分。雖然在本發明的實施例中以任何數量的方式定義出規模，在一極簡化的實施例中，對於該複數個經定義的情緒中的一或多個特定情緒的該信賴評分越高，該音頻訊號的講者則越有可能感受到該特定情緒或多個情緒。

一些數量的情緒有可能會具有至少一部分的與其他情緒相同的情緒中的對應特徵。如此，一些數量的情緒有可能會具有超過由情緒識別引擎218的評分元件228的運算子元件240運算出的中間值的一信賴評分。也有可能，不同的講者在他們的特徵登記中會具有差異非常大的情緒。因此，評分元件228的底限判定子元件242經配置以判定關聯於該複數個經定義的情緒中的任一者的運算的信賴評分(由運算子元件240運算出的)是否超過一底限值。底限值可依據來自複數個講者的整體的音訊指紋，當該些講者正感受該特定情緒時，從該些講者搜集音頻樣本，或者，底限值對於其音頻訊號被接收的個別講者而言是特定的。任何與所有這樣的變型及其任意組合，應認定為本發明的實施例的範圍所涵蓋。

比對元件230經配置以根據運算出的該些信賴評分，且不論是否達到或超過一或多個信賴評分底限，將一或多個情緒與該音頻訊號進行關聯。與該音頻訊號關聯的一情緒，表示當該音頻訊號被說出時該音頻訊號的講者極可能正感受該相關的情緒。在實施例中，多於一個情緒可被關聯於一單一音頻輸入(如，疲倦的與易怒的)。

措施啟動元件232經配置以啟動任一數量的不同措施，以對於關連於一音頻訊號的一或多個情緒作出回應。例如，一講者的可能的情緒狀態可能會傳播給正在與該講者互動的其他人(如，即時通訊息對話的另一方或類似者)。在此例中，對於正與之交談的某個人的情緒狀態的瞭解，有助於減少一些可能會出現的溝通挑戰，如當多方在相互交談時，而無法從交談過程中所產生的非語義的訊號獲知其意時。再另一例中，某人可能在對另一方口述一電子郵件訊息，而系統200將一「生氣」的情緒與他/她口述的語調進行關聯。當他準備要傳送訊息時，系統200會以「你確定嗎？」的類型的訊息提示該講者，或較被動地以延遲傳送的方式來幫助該講者確認其是否真正想發出這個在他或她處於生氣狀態下所編寫的訊息。

在另一例中，若系統200將一情緒與某個人的悲傷進行關聯，則在與她有關的運算裝置上的色彩主題及/或虛擬角色會自動改變以反應出她的心情。或者，根據他或她的被察覺到的心情，而向某個人推薦具有能平靜或鼓勵效果的曲目中的歌曲。具有經常性憂鬱或感到壓力的人，可由他們的運算裝置來監測以提供過於激動的情緒狀態的指示。潛在的生意夥伴當談及他們的提案的一特定部分時會變得緊張，這些緊張情緒可被該系統偵測出來並傳回給該使用者。從聽者/講者的觀眾而來的一般性反饋可被整合，並接著提供給一簡報以提供有用的資訊，該些資訊可在下一次的簡報進行時被納入。

很明顯的，可能性幾乎是無限的。本發明的實施例容允非語義的反饋，不然的話只會有能傳遞出極少量資訊的語義反饋。這種非語義的反饋提供極大的機會以改變人類行為，而去考慮到這些非語義的反饋。可藉由措施啟動元件232所啟動的措施，僅受到編程使用者的想像力的限制。

如前所述，信賴評分底限可依據複數個講者的一個整體，或可特定於一特定講者。因此，若發出音頻訊號的講者的身分為已知，則可預期能提高系統200的準確性。因此，假設在適當的允許下，講者識別元件234經配置以比較從一已接收的音頻訊號(藉由該音訊指紋運算元件)運算出的該音訊指紋，且將該音訊指紋與複數個已知的音訊指紋(例如，儲存在有關於資料儲存220)進行比較，以判定講者的身分識別是否可被決定。若講者的身分可被決定，如前所述，則特定於講者的底限可用來當作信賴評分。

提高系統200的準確性的另一方法是考慮外部因素，亦即，可從講者的內容中搜集到的非音頻訊號。例如，暫時的訊號、地理空間的訊號、或地球物理的訊號(如，季節、天氣、地點、溫度、GPS資料等)會影響一講者的情緒狀態。以一或多個這些非音頻訊號來增強情緒識別引擎218，會大幅地提高準確性以辨識出講者的一可能情緒。

值得注意的是，本發明的實施例可均等地應用於移動運算裝置以及可接受手勢輸入、觸控輸入、或語音輸入的裝置。任何與所有這樣的變型及其任意組合，應認定為本發明的實施例的範圍所涵蓋。更值得注意的是，在當連線至一資訊網路或未連線至一資訊網路時，均可應用本發明的實施例。若未連線時，使用者運算裝置210包括用來從接收到的音頻訊號辨識情緒的所有必要的元件。若在非連線的一運算裝置上進行本地執行時，可使用一特定功能的矽晶片在一低電量的狀態下持續運作，且裝置不需連線以處於主動式狀態。在實施例中，該特定功能的矽晶片可具有與此所述實施方式相符的從音頻訊號偵測情緒的單一的目的，並且當該情緒/輸入改變時，該特定功能的矽晶片可輸出一訊號以指示出固定的情緒狀態集中的一或多個情緒。該訊號會接著變成在一般運算環境下可取用的，以供其他程式執行而能利用該情緒資訊的輸出。

接著參照圖3，係圖示了與本發明的實施相符的一例示性情緒偵測應用300的方塊圖。在「連續收聽迴圈」中係一第一或上方流程線及一第二或下方流程線。該上方流程線表示出本發明實施例的進行訓練的態樣。該領域的習知技藝者應可認知並理解，本發明的實施例可進行離線的系統訓練，而非主動式適配以嘗試向使用者學習而為如所示的一連續學習迴圈的一部分。在這樣的實施例中，可在系統300中省略該上方流程線。

首先，進行情緒(語音)登入，亦即接收用來訓練該系統的音頻樣本。這些樣本代表著可為一整合的語料庫或為特定於使用者的該些音頻樣本。從這些樣本中運算出音訊指紋，並擷取出如所述的特徵。系統300會接著被訓練/建模以創建或更新情緒模型。該些特徵及相關的已標籤的情緒會儲存於已知情緒的資料庫中，以及儲存於該裝置本身的模型(資料庫)中。

該第二或下方流程線呈現出用來作為經定義的情緒的代表的音頻訊號的即時偵測及分類。首先，音頻(語音)訊號會被接收。這會觸發一「語音訊框偵測」感應器，以使相關的麥克風知道要準備開始偵測音頻訊號。訊號的偵測、音訊指紋的運算、以及特徵的擷取，均如以上所詳述。接著，將該些特徵與已知情緒的資料庫(包括該「裝置上的模型」)的其中一者或兩者中所含的資訊進行比對，且運算出信賴評分，該信賴評分代表當該音頻訊號被說出時，該已接收的音頻訊號的講者正感受一或多個特定的經定義的情緒的個別的可能性。接著會將該些信賴評分與在標明「配對決定」的方框中的一或多個情緒進行比對，該情緒或多個情緒係與有限數量(數量N)的經定義的情緒進行配對。(該標明「其他訊號」的方框係提供以將會影響一講者的情緒狀態的非音頻訊號列入考慮，將詳述如下)。

值得注意的是，當在一裝置上進行非連線狀態的本地執行時，僅該第二或下方流程線需顯示於該裝置上，包括該「裝置上的模型」的資料儲存。當提高了關聯於一輸入的音頻訊號的情緒的準確性，標明「其他訊號」的方框則為非必要的，且當該裝置處於未連線狀態時可能無法取得。

接著參照圖4，圖示了與本發明的實施相符的用於辨識音頻訊號中的情緒的一例示性方法(400)的一流程圖。如方塊410所顯示，一音頻訊號(如，人類談話及/或從人類談話而得到的音頻訊號)會透過例如圖2的使用者運算裝置210的麥克風216而被偵測出。如方塊412所顯示，會從偵測出的該音頻訊號運算出一音訊指紋(例如，利用圖2的情緒識別引擎218的音訊指紋運算元件224)。如方塊414所顯示，根據該運算出的音訊指紋，對於一或多個經定義的情緒的信賴評分被運算出來。這可藉由例如利用圖2的情緒識別引擎218的評分元件228來達成。如方塊416所顯示，根據運算出的該些信賴評分而將一或多個情緒與該音頻訊號，例如利用圖2的情緒識別引擎218的比對元件230來進行關聯。

參照圖5，圖示了與本發明的實施相符的用於辨識音頻訊號中的情緒的另一例示性方法(500)的一流程圖。如方塊510所顯示，一音頻訊號會例如利用圖2的使用者運算裝置210的麥克風216而被偵測出來。一音訊指紋會例如利用圖2的情緒識別引擎218的音訊指紋運算元件224而從偵測出的該音頻訊號運算出來。此顯示於方塊512中。

從該運算出的音訊指紋，如利用圖2的情緒識別引擎218的特徵擷取元件226擷取出至少一特徵。此顯示於方塊514中。如方塊516所顯示，將擷取出的該特徵與關連於複數個經定義的情緒的特徵進行比較，以判定相對的相似度。這可藉由例如利用圖2的情緒識別引擎218的評分元件228的比較子元件來達成。如方塊518所顯示，根據判定出的相對的相似度，對於該複數個經定義的情緒運算出信賴評分。這可藉由例如利用圖2的情緒識別引擎218的評分元件228的運算子元件240來達成。

接著，例如藉由圖2的情緒識別引擎218的評分元件228的底限判定子元件242，會判定出對於該些經定義的情緒中的一或多個特定情緒所運算出的信賴評分超過一信賴評分底限。此顯示於方塊520中。將該些經定義的情緒中的一或多個特定情緒與該音頻訊號，例如利用圖2的情緒識別引擎218的比對元件230來進行關聯。此顯示於方塊522中。

參照圖6，圖示了與本發明的實施相符的用於辨識音頻訊號中的情緒的又一例示性方法(600)的一流程圖。如方塊610所顯示，從一麥克風(如，圖2的麥克風216)，例如，藉由圖2的情緒識別引擎218的音頻訊號接收元件222接收偵測出的一音頻訊號。如方塊612所顯示，一音訊指紋會從被接收的該音頻訊號運算出來。這可藉由例如例用圖2的使用者運算裝置210的情緒識別引擎218的音訊指紋運算元件224來達成。如方塊614所顯示，根據運算出的該音訊指紋以及至少一部分的有關於一資料儲存的已存資料，如，圖2的使用者運算裝置210的資料儲存220，判定出對於複數個經定義的情緒中的一或多個情緒的信賴評分。這可藉由例如利用圖2的情緒識別引擎218的評分元件228來達成。接著會根據運算出的該些信賴評分，將一或多個情緒與該音頻訊號，例如利用圖2的情緒識別引擎218的比對元件230來進行關聯。此顯示於方塊616中。

如可理解的，本發明的實施例提供了用於即時辨識音頻訊號中的情緒的系統、方法、電腦可讀取儲存媒體以及其他方面。在一使用者的運算裝置(如，移動運算裝置)中，偵測一音頻訊號(如，人類談話及/或從人類談話而得到的音頻訊號)並運算一快速音訊指紋。從該音訊指紋擷取出一或多個特徵，並將該些特徵與關聯於經定義的情緒的特徵進行比較，以判定相對的相似度。根據該相對的相似度，對於該經定義的情緒運算出信賴評分，且判定對於該些經定義的情緒中的一或多個特定情緒的一信賴評分是否超過一底限信賴評分。若判定出對於該些情緒中的一或多個特定情緒的信賴評分係超過一底限，則將該特定情緒或多個情緒與該音頻訊號進行關聯。接著依需求，根據關聯於該音頻訊號的該情緒或多個情緒啟動不同的措施。

本發明已描述有關特定的實施例，其旨在各方面是說明性的而非限制性的。在本發明所屬的範圍而不脫離其範圍的替代的實施例對該領域的習知技藝者而言將是顯而易見的。

雖然本發明容許各種修改和替代架構，那些說明性實施例已圖示於附圖中並已詳細描述如上。然而，應可理解的是，其並非刻意將本發明侷限於所揭露的特定形式，但相反地，是希望能涵蓋所有的變型、替代架構、以及落於本發明之精神與範圍的均等物。

對於該領域的習知技藝者而言應可理解的是，圖4 的方法400、圖5的方法500、及圖6的方法600中所示的步驟的順序，並非以任何方式來限定本案的範圍。事實上，該些步驟在本案的實施例中可具有各種不同的順序。任何及所有的變化型及其任意組合，應認定為本案的實施例的範圍所涵蓋。