TWI753576B - 用於音訊辨識的模型建構方法 - Google Patents

用於音訊辨識的模型建構方法 Download PDF

Info

Publication number
TWI753576B
TWI753576B TW109132502A TW109132502A TWI753576B TW I753576 B TWI753576 B TW I753576B TW 109132502 A TW109132502 A TW 109132502A TW 109132502 A TW109132502 A TW 109132502A TW I753576 B TWI753576 B TW I753576B
Authority
TW
Taiwan
Prior art keywords
audio data
audio
classification model
prompt message
target segment
Prior art date
Application number
TW109132502A
Other languages
English (en)
Other versions
TW202213152A (zh
Inventor
陳建芳
易萬 吳
許桓瑞
李建明
Original Assignee
亞旭電腦股份有限公司
大陸商亞旭電子科技(江蘇)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 亞旭電腦股份有限公司, 大陸商亞旭電子科技(江蘇)有限公司 filed Critical 亞旭電腦股份有限公司
Priority to TW109132502A priority Critical patent/TWI753576B/zh
Priority to US17/197,050 priority patent/US20220093089A1/en
Application granted granted Critical
Publication of TWI753576B publication Critical patent/TWI753576B/zh
Publication of TW202213152A publication Critical patent/TW202213152A/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本發明實施例提供一種用於音訊辨識的模型建構方法。在此方法中。取得音訊資料。利用分類模型決定音訊資料的預測結果,此分類模型是基於機器學習演算法所訓練,且此預測結果包括此分類模型所定義的標籤。依據預測結果的損失程度提供提示訊息,此損失程度相關於預測結果與對應的實際結果之間的差異,且提示訊息用於詢問音訊資料與標籤的相關性。依據提示訊息的確認回應修正分類模型,且此確認回應相關於確認音訊資料與標籤的相關性。藉此,可提升標記效率及預測正確性。

Description

用於音訊辨識的模型建構方法
本發明是有關於一種機器學習(machine learning)技術,且特別是有關於一種用於音訊辨識的模型建構方法。
機器學習演算法可透過分析大量資料以推論這些資料的規律,從而對未知資料進行預測。近年來,機器學習已廣泛應用在影像辨識、自然語言處理、醫療診斷、或語音辨識等領域上。
值得注意的是,針對語音或其他音訊類型的辨識技術,在其模型的訓練過程中,操作人員會標記(labeling)聲音內容的類型(例如,女聲、嬰兒聲、警鈴聲等),以產生訓練資料中的正確輸出結果,其中聲音內容作為訓練資料中的輸入資料。若是標記影像,操作人員可在短時間內認出物件,即可提供對應標籤。然而,針對聲音標籤,操作人員可能需要聽一長段聲音檔才能開始標記,且聲音檔可能受雜訊干擾而難以辨識內容。由此可知,現今訓練作業對於操作人員而言是相當沒有效率的。
有鑑於此,本發明實施例提供一種用於音訊辨識的模型建構方法,提供簡易的詢問提示,以方便操作人員標記。
本發明實施例的用於音訊辨識的模型建構方法包括(但不僅限於)下列步驟:取得音訊資料。利用分類模型決定音訊資料的預測結果,此分類模型是基於機器學習演算法所訓練,且此預測結果包括此分類模型所定義的標籤(label)。依據預測結果的損失(loss)程度提供提示訊息,此損失程度相關於預測結果與對應的實際結果之間的差異,且提示訊息用於詢問音訊資料與標籤的相關性。依據提示訊息的確認回應修正分類模型,且此確認回應相關於確認音訊資料與標籤的相關性。
基於上述,本發明實施例的用於音訊辨識的模型建構方法,可判斷已訓練的分類模型所得出的預測結果與實際結果的差異,並依據此差異提供簡易的提示訊息給操作人員。而操作人員僅需對此提示訊息回應即可完成標記,並據以進一步修正分類模型,從而提升分類模型的辨識準確性及操作人員的標記效率。
為讓本發明的上述特徵和優點能更明顯易懂,下文特舉實施例,並配合所附圖式作詳細說明如下。
S110~S170、S210~S230、S310~S350、S510~S530、S610~S630、S810~S870、S910~S980:步驟
710:輸入層
730:隱藏層
750:輸出層
10:雲端伺服器
30:訓練伺服器
50:智慧門鈴
51:麥克風
33、53:記憶體
31:通訊介面
35:處理器
圖1是依據本發明一實施例的用於音訊辨識的模型建構方法的流程圖。
圖2是依據本發明一實施例的音訊處理的流程圖。
圖3是依據本發明一實施例的雜訊消除的流程圖。
圖4A是一範例說明原始音訊資料的波形圖。
圖4B是一範例說明本質模態函數(Intrinsic Mode Function,IMF)的波形圖。
圖4C是一範例說明經雜訊消除的音訊資料的波形圖。
圖5是依據本發明一實施例的音訊分段的流程圖。
圖6是依據本發明一實施例的模型訓練的流程圖。
圖7是依據本發明一實施例的神經網路(Neural Network)的示意圖。
圖8是依據本發明一實施例的更新模型的流程圖。
圖9是依據本發明一實施例的智慧門鈴應用的流程示意圖。
圖10是依據本發明一實施例的伺服器的元件方塊圖。
圖1是依據本發明一實施例的用於音訊辨識的模型建構方法的流程圖。請參照圖1,伺服器取得音訊資料(步驟S110)。具體而言,音訊資料是指對對聲波(例如,人聲、環境聲、機器運作聲等音源所產生)收音而轉換為類比或數位形式的聲音訊號,或是透過處理器(例如,中央處理器(Central Processing Unit,CPU)、特 殊應用積體電路(Application Specific Integrated Circuit,ASIC)、或數位訊號處理器(Digital Signal Processor,DSP)等)設定聲音的振福、頻率、音色、節奏及/或旋律所產生的聲音訊號。換句而言,音訊資料可以是透過麥克風錄製或電腦編輯所產生。例如,透過智慧型手機錄製嬰兒哭聲,或者使用者在電腦上以音樂軟體編輯音軌。在一實施例中,音訊資料可以是經網路下載、無線或有線傳輸(例如,低功耗藍芽(Bluetooth Low Energy,BLE)、Wi-Fi、光纖網路等)以即時性或非即時性的封包或串流模式傳遞、或者存取外部或內建儲存媒介(例如,隨身碟、光碟、外接硬碟、記憶體等)從而取得音訊資料並供後續模型建構使用。例如,音訊資料儲存在雲端伺服器,而訓練伺服器經由FTS下載音訊資料。
在一實施例中,音訊資料是對原始音訊資料(其實施態樣及類型可參酌音訊資料)經音訊處理後所得。圖2是依據本發明一實施例的音訊處理的流程圖。請參照圖2,伺服器可對原始音訊資料消除其雜訊分量(步驟S210),並對音訊資料分段(步驟S230)。換句而言,原始音訊資料經雜訊消除及/或音訊分段即可取得音訊資料。在一些實施例中,雜訊消除及音訊分段的順序可能依據實據需求而變更。
針對音訊的雜訊消除方法有很多種。在一實施例中,伺服器可分析原始音訊資料的特性以決定原始音訊資料的雜訊分量(即,對訊號的干擾)。音訊相關特性例如是振幅、頻率、能量或其他物理特性上的變化,且雜訊分量通常具有特定特性。
舉例而言,圖3是依據本發明一實施例的雜訊消除的流程圖。請參照圖3,特性包括數個本質模態函數(IMF)。而滿足以下條件的資料可被稱為本質模態函數:第一,局部極大值(local maxima)及局部極小值(local minima)的數量總和與過零(zero crossing)的數量相等或是至多相差一;第二,在任何時間點,局部最大值的上包絡線(upper envelope)與局部極小值的下包絡線的平均接近零。伺服器可分解原始音訊資料(即,模態分解)(步驟S310),以產生原始音訊資料的數個模態分量(作為基本(fundamental)訊號)。而各模態分量即對應到一個本質模態函數。
在一實施例中,原始音訊資料可透過經驗模態分解(Empirical Mode Decomposition,EMD)或其他依據時間尺度特徵的訊號分解,即可取得對應的本質模態函數分量(即,模態分量)。而模態分量包括原始音訊資料在時域的波形上不同時間尺度的局部特徵訊號。
舉例而言,圖4A是一範例說明原始音訊資料的波形圖,且圖4B是一範例說明本質模態函數(IMF)的波形圖。請參照圖4A及圖4B,圖4A的波形透過經驗模態分解可得出圖4B所示的七個不同本質模態函數及一個剩餘分量。
須說明的是,在一些實施例中,各本質模態函數可再經希爾伯特-黃轉換(Hilbert-Huang Transform,HHT)以取得對應瞬時頻率及/或振幅。
伺服器可進一步決定各模態分量的自相關性(步驟S330)。 例如,去趨勢波動分析(Detrended Fluctuation Analysis,DFA)可用於判斷訊號的統計自相似性質(即,自相關性),並透過最小平方法(least square method)線性擬合得到各模態分量的斜率。又例如,對各模態分量進行自相關(autocorrelation)運算。
伺服器可依據那些模態分量的自相關性選擇一個或更多個模態分量作為原始音訊資料的雜訊分量。以去趨勢波動分析所得出的斜率為例,若第一模態分量的斜率小於斜率門檻值(例如,0.5或其他數值),則第一模態分量為反相關(anti-correlated)並被作為雜訊分量;若第二模態分量的斜率未小於斜率門檻值,則第二模態分量為相關(correlated)且不會被作為雜訊分量。
在其他實施例中,針對其他類型的自相關性分析,若第三模態分量的自相關最小、次小或較小,則第三模態分量也可能作為雜訊分量。
決定雜訊分量之後,伺服器可對原始音訊資料消除雜訊分量以產生音訊資料。以模態分解為例,請參照圖3,伺服器可依據模態分量的自相關性消除作為雜訊分量的模態分量,並依據非雜訊分量的模態分量產生去雜訊音訊資料(步驟S350)。換句而言,伺服器依據原始音訊資料中雜訊分量以外的非雜訊分量重建訊號,並據以產生去雜訊的音訊資料。其中,雜訊分量可被移除或刪除。
圖4C是一範例說明經雜訊消除的音訊資料的波形圖。請參照圖4A及圖4C,與圖4A相比,圖4C的波形已消除雜訊分量。
須說明的是,對音訊的雜訊消除不限於前述模態及自相 關性分析,在其他實施例中也可能應用其他雜訊消除技術。例如,經組態特定或可變門檻值的濾波器、或頻譜消去(spectral subtraction)等。
另一方面,針對音訊的音訊分段方法有很多種。圖5是依據本發明一實施例的音訊分段的流程圖。請參照圖5,在一實施例中,伺服器可對音訊資料(例如,原始音訊資料或去雜訊的音訊資料)擷取聲音特徵(步驟S510)。具體而言,聲音特徵可以是振幅、頻率、音色、能量或前述至少一者的變化。例如,聲音特徵是短時距能量(Short Time Energy)及/或過零率(Zero Crossing Rate)。短時距能量是假設聲音訊號在短時距(或稱視窗(window))內的變化較為緩慢甚至不變,並將短時距內的能量作為聲音訊號的特徵代表,其中不同能量區間對應到不同類型的聲音,甚至可用於區分有聲與無聲的片段。而過零率相關於聲音訊號的振幅由正數變成負數及/或由負數變成正數的統計數量,其中數量的多寡對應到聲音訊號的頻率。在一些實施例中,譜通量(Spectral flux)、線性預測係數(Linear Predictive Coefficient,LPC)、或帶週期性(Band Periodicity)分析等方式也能取得聲音特徵。
取得聲音特徵之後,伺服器可依據聲音特徵決定音訊資料中的目標片段及非目標片段(步驟S530)。具體而言,目標片段代表受指定一種或更多種聲音類型的聲音片段,而非目標片段代表前述指定聲音類型以外的類型的聲音片段。聲音類型例如是音樂、環境聲、語音、或無聲等。而聲音特徵對應數值可對應到特定 聲音類型。以過零率為例,語音的過零率大概為0.15,音樂的過零率大概為0.05,且環境聲的過零率變化劇烈。此外,以短時距能量為例,語音的能量大概為0.15至0.3,音樂的能量大概為0至0.15,且無聲的能量為0。須說明的是,不同類型的聲音特徵所用評斷聲音類型的數值及區段可能不同,且前述數值也僅是用於作為範例說明。
在一實施例中,假設目標片段為語音內容(即,聲音類型為語音),且非目標片段不為語音內容(例如,環境聲、或音樂聲等)。伺服器可依據音訊資料的短時距能量及過零率決定目標片段在音訊資料中的兩端點。例如,音訊資料的聲音訊號的過零率低於過零門檻值者被視為語音,且聲音訊號的能量超過能量門檻值者被視為語音。而過零率低於過零門檻值或能量超過能量門檻值的聲音片段即是目標片段。此外,一筆目標片段在時域上的頭尾兩端點即是其邊界,且邊界以外的聲音片段可能是非目標片段。例如,先利用短時距能量偵測大致判斷出有聲語音結尾處,再利用過零率偵測出語音片段之真正的開頭跟結尾處。
在一實施例中,伺服器可對原始音訊資料或經去雜訊的音訊資料保留目標片段,並移除非目標片段,以作為最終聲音資料。換句而言,一筆聲音資料包括一筆或更多筆目標片段,且不存在非目標片段。以語音內容的目標片段為例,若播放經音訊分段的音訊資料,則僅能聽到人類講話聲。
須說明的是,在其他實施例中,圖2中步驟S210和S230 中的任一者或兩者也可能省略。
請參照圖1,伺服器可利用分類模型決定音訊資料的預測結果(步驟S130)。具體而言,分類模型是基於機器學習(machine learning)演算法所訓練。機器學習演算法例如是基本神經網路(Neural Network,NN)、遞歸神經網路(Recurrent Neural Network,RNN)、長短期記憶模型(Long Short-Term Memory,LSTM)或其他音訊辨識相關演算法。伺服器可事先訓練分類模型或直接取得已初步訓練的分類模型。
圖6是依據本發明一實施例的模型訓練的流程圖。請參照圖6,針對事先訓練,伺服器可依據目標片段提供初始提示訊息(步驟S610)。此初始提示訊息用於要求對目標片段賦予標籤。在一實施例中,伺服器可透過喇叭播放目標片段,並透過顯示器或喇叭提供視覺或聽覺的訊息內容。例如,是否為哭聲。操作人員可對初始提示訊息提供初始確認回應(即,標記)。例如,操作人員透過鍵盤、滑鼠或觸控面板選擇“是”或“否”中的一者。又例如,伺服器提供哭聲、笑聲、及尖叫聲等選項(即,標籤),而操作人員選擇其中一個選項。
待所有目標片段都標記後,伺服器可依據初始提示訊息的初始確認回應訓練分類模型(步驟S630)。而此初始確認回應包括目標片段對應的標籤。即,將目標片段作為訓練資料中的輸入資料,且將對應標籤作為訓練資料中的輸出/預測結果。
伺服器可使用預設或經使用者挑選的機器學習演算法。 例如,圖7是依據本發明一實施例的神經網路的示意圖。請參照圖7,神經網路的結構主要包括三個部分:輸入層(Input layer)710、隱藏層(Hidden layer)730及輸出層(Output layer)750。在輸入層710中,眾多神經元(Neuron)接收大量非線性輸入訊息。在隱藏層730中,眾多神經元和連結可能組成一或更多層面,且各層面包括線性組合及非線性的激勵(activation)函數。在一些實施例中,例如是遞歸神經網路會將隱藏層730中某一層面的輸出作為另一層面的輸入。訊息在神經元連結中傳輸、分析、及/或權衡後即可在輸出層750形成預測結果。而分類模型之訓練即是找出隱藏層730中的參數(例如,權重、偏值(bias)等)及連結。
分類模型經訓練後,若將音訊資料輸入至分類模型即可推論出預測結果。預測結果包括分類模型所定義的一個或更多個標籤(label)。標籤例如是女聲、男聲、嬰兒聲、哭聲、笑聲、特定人物聲、警鈴聲等,且標籤可視應用者的需求而變更。在一些實施例中,預測結果可更包括預測各標籤的機率。
請參照圖1,伺服器可依據預測結果的損失(loss)程度提供提示訊息(步驟S150)。具體而言,損失程度相關於預測結果與對應的實際結果之間的差異。例如,可透過均方誤差(Mean-Square Error,MSE)、平均絕對值誤差(Mean Absolute Error,MAE)或交叉熵(Cross Entropy)決定損失程度。若損失程度未超過損失門檻值,則分類模型可維持不變或不用重新訓練。而若損失程度超過損失門檻值,則可能需要對分類模型重新訓練或修正。
在本發明實施例中,伺服器將可進一步對操作人員提供提示訊息。提示訊息用於詢問音訊資料與標籤的相關性。在一實施例中,提示訊息包括音訊資料及問題內容,且問題內容是詢問音訊資料是否屬於標籤(或是否相關於標籤)。伺服器可透過喇叭播放音訊資料,並透過喇叭播放或顯示器顯示以提供問題內容。例如,顯示器呈現是否為嬰兒哭聲的選項。而操作人員僅需從“是”及“否”選項中選擇一者即可。此外,若音訊資料已受如圖2所介紹的音訊處理,則操作人員僅需聆聽目標片段或去雜訊的聲音,且勢必能提升標記效率。
須說明的是,在一些實施例中,提示訊息還可能是訊問複數種標籤的選項。例如,“嬰兒哭聲或成人哭聲?”的訊息內容。
伺服器可依據提示訊息的確認回應修正分類模型(步驟S170)。具體而言,確認回應相關於確認音訊資料與標籤的相關性。相關性例如是屬於、不屬於或相關程度值。在一實施例中,伺服器可透過輸入裝置(例如,滑鼠、鍵盤、觸控面板或按鍵等)接收操作人員的輸入操作(例如,按壓、或點擊等)。此輸入操作對應於問題內容的選項,且這選項是音訊資料屬於標籤、或音訊資料不屬於標籤。例如,提示訊息呈現在顯示器上並提供“是”及“否”兩選項,而操作人員聽完目標片段之後,可透過對應於“是”的按鍵選擇“是”的選項。
在其他實施例中,伺服器也可透過諸如預設關鍵字辨識、預設聲學特徵比對等其他語音辨識手段來產生確認回應。
若相關性是音訊資料屬於所詢問的標籤或其相關程度值大於程度門檻值,則可確認預測結果為正確(即,預測結果等同於實際結果)。另一方面,若相關性是資訊資料不屬於所詢問的標籤或其相關程度值小於程度門檻值,則可確認預測結果為不正確(即,預測結果不同於實際結果)。
圖8是依據本發明一實施例的更新模型的流程圖。請參照圖8,伺服器判斷預測結果是否正確(步驟S810)。若預測結果為正確,則表示當前分類模型的預測能力符合期待,且不用更新或修正分類模型(步驟S820)。另一方面,若預測結果為不正確(即,確認回應認為預測結果對應的標籤有誤),則伺服器可修正不正確資料(步驟S830)。例如,將“是”的選項修正為“否”的選項。接著,伺服器可使用修正後的資料作為訓練資料,並重新訓練分類模型(步驟S850)。在一些實施例中,若確認回應已指定特定標籤,則伺服器可將確認回應對應的標籤與音訊資料作為分類模型的訓練資料,並據以重新訓練分類模型。重新訓練之後,伺服器即可更新分類模型(步驟S870)。例如,將重新訓練的分類模型取代現有儲存的分類模型。
由此可知,本發明實施例透過損失程度及確認回應的兩階段評估分類模型的預測能力是否符合預期或是否需要修正,從而提升訓練效率及預測正確性。
除此之外,伺服器還能提供分類模型給其他裝置使用。舉例而言,圖9是依據本發明一實施例的智慧門鈴50應用的流程示 意圖。請參照圖9,訓練伺服器30自雲端伺服器10下載音訊資料(步驟S910)。訓練伺服器30可訓練分類模型(步驟S920),並儲存訓練好的分類模型(步驟S930)。訓練伺服器30可架設資料提供平台(例如,作為檔案傳輸協定(File Transfer Protocol,FTS)伺服器或網站伺服器),並可提供分類模型經由網路傳輸給其他裝置。以智慧門鈴50為例,智慧門鈴50可透過FTS下載分類模型(步驟S940),並儲存於自身記憶體53中以供後續使用(步驟S950)。另一方面,智慧門鈴50可透過麥克風51對外界收音並接收語音輸入(步驟S960)。語音輸入例如是人類講話、人類叫聲、或人類哭聲等。或者,智慧門鈴50可透過物聯網(IoT)無線技術(例如,LE、Zigbee、或Z-wave等)收集來自其他遠端裝置的聲音資訊,這聲音資訊可即時串流並以無線傳輸方式送至智慧門鈴50。智慧門鈴50接收後可解析聲音資訊並作為語音輸入。智慧門鈴50可自其記憶體53載入透過網路所取得的分類模型以對接收的語音輸入辨識,並據以決定預測/辨識結果(步驟S970)。智慧門鈴50可進一步依據語音輸入的辨識結果提供事件通知(步驟S980)。例如,辨識結果是男主人的呼叫,則智慧門鈴50發出音樂聲的聽覺事件通知。又例如,辨識結果是外送人員或其他非家庭成員的呼叫,則智慧門鈴50呈現門前影像的視覺事件通知。
圖10是依據本發明一實施例的訓練伺服器30的元件方塊圖。請參照圖10,訓練伺服器30可以是執行圖1、圖2、圖3、圖5、圖6及圖8所述實施例的伺服器,並可以是工作站、個人電 腦、智慧型手機、平板電腦等運算裝置。訓練伺服器30包括(但不僅限於)通訊介面31、記憶體33及處理器35。
通訊介面31可以支援光纖網路、乙太網路、或纜線等有線網路,也可能支援Wi-Fi、行動網路、藍芽(例如,BLE、第五代、或更後世代)、Zigbee、Z-Wave等無線網路。在一實施例中,通訊介面31用以傳送或接收資料。例如,接收音訊資料,或傳送分類模型。
記憶體33可以是任何型態的固定或可移動隨機存取記憶體(Radom Access Memory,RAM)、唯讀記憶體(Read Only Memory,ROM)、快閃記憶體(flash memory)或類似元件,並用以記錄程式碼、軟體模組、音訊資料、分類模型及其相關參數及其他資料或檔案。
處理器35耦接通訊介面31及儲存器33,處理器35並可以是中央處理單元(Central Processing Unit,CPU),或是其他可程式化之一般用途或特殊用途的微處理器(Microprocessor)、數位信號處理器(Digital Signal Processing,DSP)、可程式化控制器、特殊應用積體電路(Application-Specific Integrated Circuit,ASIC)或其他類似元件或上述元件的組合。在本發明實施例中,處理器35用以執行伺服器30的所有或部分作業。例如,訓練分類模型、音訊處理、或修正資料等。
綜上所述,在本發明實施例的用於音訊辨識的模型建構方法中,依據分類模型所得出的預測結果與實際結果之間相差的損失程度提供提示訊息,並依據對應的確認回應修正分類模型。對 於操作人員而言,僅需對提示訊息回應即可輕鬆完成標記。此外,原始音訊資料可經雜訊消除及音訊分段等處理,以方便操作人員聆聽。藉此,可提升分類模型的辨識正確性及操作人員的標記效率。
雖然本發明已以實施例揭露如上,然其並非用以限定本發明,任何所屬技術領域中具有通常知識者,在不脫離本發明的精神和範圍內,當可作些許的更動與潤飾,故本發明的保護範圍當視後附的申請專利範圍所界定者為準。
S110~S170:步驟

Claims (10)

  1. 一種用於音訊辨識的模型建構方法,包括: 取得一音訊資料; 利用一分類模型決定該音訊資料的預測結果,其中該分類模型是基於一機器學習(machine learning)演算法所訓練,且該預測結果包括該分類模型所定義的一標籤(label); 依據該預測結果的一損失(loss)程度提供一提示訊息,其中該損失程度相關於該預測結果與對應的實際結果之間的差異,且該提示訊息用於詢問該音訊資料與該標籤的相關性;以及 依據該提示訊息的一確認回應修正該分類模型,其中該確認回應相關於確認該音訊資料與該標籤的相關性。
  2. 如請求項1所述的用於音訊辨識的模型建構方法,其中該提示訊息包括該音訊資料及一問題內容,該問題內容是詢問該音訊資料是否屬於該標籤,且提供該提示訊息的步驟包括: 播放該音訊資料並提供該問題內容。
  3. 如請求項2所述的用於音訊辨識的模型建構方法,其中依據該提示訊息的該確認回應修正該分類模型的步驟包括: 接收一輸入操作,其中該輸入操作對應於該問題內容的一選項,且該選項是該音訊資料屬於該標籤、或該音訊資料不屬於該標籤;以及 依據該輸入操作決定該確認回應。
  4. 如請求項1所述的用於音訊辨識的模型建構方法,其中依據該提示訊息的該確認回應修正該分類模型的步驟包括: 將該確認回應對應的標籤與該音訊資料作為該分類模型的訓練資料,並據以重新訓練該分類模型。
  5. 如請求項1所述的用於音訊辨識的模型建構方法,其中取得該音訊資料的步驟包括: 分析一原始音訊資料的特性,以決定該原始音訊資料的雜訊分量;以及 對該原始音訊資料消除該雜訊分量以產生該音訊資料。
  6. 如請求項5所述的用於音訊辨識的模型建構方法,其中該特性包括多個本質模態函數(Intrinsic Mode Function,IMF),且決定該音訊資料的雜訊分量的步驟包括: 分解該原始音訊資料,以產生該原始音訊資料的多個模態分量,其中每一該模態分量對應到一該本質模態函數; 決定每一該模態分量的自相關性;以及 依據該些模態分量的自相關性選擇一該模態分量作為該雜訊分量。
  7. 如請求項1或請求項5所述的用於音訊辨識的模型建構方法,其中取得該音訊資料的步驟包括: 對該音訊資料擷取一聲音特徵; 依據該聲音特徵決定該音訊資料中的一目標片段及一非目標片段;以及 保留該目標片段,並移除該非目標片段。
  8. 如請求項7所述的用於音訊辨識的模型建構方法,其中該目標片段為一語音內容,該非目標片段不為該語音內容,該聲音特徵包括一短時距能量(Short Time Energy)及一過零率(Zero Crossing Rate),且對該音訊資料擷取該聲音特徵的步驟包括: 依據該音訊資料的該短時距能量及該過零率決定該目標片段在該音訊資料中的二端點,其中該二端點相關於該目標片段在時域上的邊界。
  9. 如請求項7所述的用於音訊辨識的模型建構方法,更包括: 依據該目標片段提供一第二提示訊息,其中該第二提示訊息用於要求對該目標片段賦予該標籤;以及 依據該第二提示訊息的一第二確認回應訓練該分類模型,其中該第二確認回應包括該目標片段對應的該標籤。
  10. 如請求項1所述的用於音訊辨識的模型建構方法,更包括: 提供該分類模型經由一網路傳輸; 載入透過該網路所取得的該分類模型以對一語音輸入辨識;以及 依據該語音輸入的辨識結果提供一事件通知。
TW109132502A 2020-09-21 2020-09-21 用於音訊辨識的模型建構方法 TWI753576B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
TW109132502A TWI753576B (zh) 2020-09-21 2020-09-21 用於音訊辨識的模型建構方法
US17/197,050 US20220093089A1 (en) 2020-09-21 2021-03-10 Model constructing method for audio recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW109132502A TWI753576B (zh) 2020-09-21 2020-09-21 用於音訊辨識的模型建構方法

Publications (2)

Publication Number Publication Date
TWI753576B true TWI753576B (zh) 2022-01-21
TW202213152A TW202213152A (zh) 2022-04-01

Family

ID=80739399

Family Applications (1)

Application Number Title Priority Date Filing Date
TW109132502A TWI753576B (zh) 2020-09-21 2020-09-21 用於音訊辨識的模型建構方法

Country Status (2)

Country Link
US (1) US20220093089A1 (zh)
TW (1) TWI753576B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189681B (zh) * 2023-05-04 2023-09-26 北京水晶石数字科技股份有限公司 一种智能语音交互系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050022252A1 (en) * 2002-06-04 2005-01-27 Tong Shen System for multimedia recognition, analysis, and indexing, using text, audio, and digital video
TW200715146A (en) * 2005-10-04 2007-04-16 Ind Tech Res Inst System and method for detecting the recognizability of inputted speech signals
TWI312002B (zh) * 2004-07-13 2009-07-11 Hitachi Chemical Co Ltd
TW200933391A (en) * 2008-01-24 2009-08-01 Delta Electronics Inc Network information search method applying speech recognition and sysrem thereof
CN101923857A (zh) * 2009-06-17 2010-12-22 复旦大学 一种人机交互的可扩展语音识别方法
TWI456477B (zh) * 2007-03-15 2014-10-11 Microsoft Corp 用於語音辨識的電腦實施介面、方法與電腦可讀取儲存媒體
EP3203380A1 (en) * 2012-10-15 2017-08-09 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US10140515B1 (en) * 2016-06-24 2018-11-27 A9.Com, Inc. Image recognition and classification techniques for selecting image and audio data
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质
CN110476150A (zh) * 2017-03-28 2019-11-19 三星电子株式会社 用于操作语音辨识服务的方法和支持其的电子装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010357B2 (en) * 2004-03-02 2011-08-30 At&T Intellectual Property Ii, L.P. Combining active and semi-supervised learning for spoken language understanding
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US9031243B2 (en) * 2009-09-28 2015-05-12 iZotope, Inc. Automatic labeling and control of audio algorithms by audio recognition
KR102550932B1 (ko) * 2017-12-29 2023-07-04 삼성전자주식회사 음성 인식 모델의 개인화 방법 및 장치
US11132623B2 (en) * 2018-10-15 2021-09-28 International Business Machines Corporation User adapted data presentation for data labeling

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050022252A1 (en) * 2002-06-04 2005-01-27 Tong Shen System for multimedia recognition, analysis, and indexing, using text, audio, and digital video
TWI312002B (zh) * 2004-07-13 2009-07-11 Hitachi Chemical Co Ltd
TW200715146A (en) * 2005-10-04 2007-04-16 Ind Tech Res Inst System and method for detecting the recognizability of inputted speech signals
TWI456477B (zh) * 2007-03-15 2014-10-11 Microsoft Corp 用於語音辨識的電腦實施介面、方法與電腦可讀取儲存媒體
TW200933391A (en) * 2008-01-24 2009-08-01 Delta Electronics Inc Network information search method applying speech recognition and sysrem thereof
CN101923857A (zh) * 2009-06-17 2010-12-22 复旦大学 一种人机交互的可扩展语音识别方法
EP3203380A1 (en) * 2012-10-15 2017-08-09 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
US10140515B1 (en) * 2016-06-24 2018-11-27 A9.Com, Inc. Image recognition and classification techniques for selecting image and audio data
CN110476150A (zh) * 2017-03-28 2019-11-19 三星电子株式会社 用于操作语音辨识服务的方法和支持其的电子装置
CN110047510A (zh) * 2019-04-15 2019-07-23 北京达佳互联信息技术有限公司 音频识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
TW202213152A (zh) 2022-04-01
US20220093089A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
US11024307B2 (en) Method and apparatus to provide comprehensive smart assistant services
JP6876752B2 (ja) 応答方法及び装置
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
WO2017084360A1 (zh) 一种用于语音识别方法及系统
WO2019109787A1 (zh) 音频分类方法、装置、智能设备和存储介质
US10452352B2 (en) Voice interaction apparatus, its processing method, and program
CN107810529A (zh) 语言模型语音端点确定
WO2020237769A1 (zh) 一种伴奏纯净度评估方法以及相关设备
US11348601B1 (en) Natural language understanding using voice characteristics
WO2019137392A1 (zh) 文件分类处理方法、装置及终端、服务器、存储介质
CN108091323B (zh) 用于自语音中识别情感的方法与装置
WO2023222088A1 (zh) 语音识别与分类方法和装置
US10854182B1 (en) Singing assisting system, singing assisting method, and non-transitory computer-readable medium comprising instructions for executing the same
WO2023245389A1 (zh) 歌曲生成方法、装置、电子设备和存储介质
JP2015184378A (ja) パターン識別装置、パターン識別方法およびプログラム
JP2020064253A (ja) 学習装置、検出装置、学習方法、学習プログラム、検出方法、および検出プログラム
CN110827853A (zh) 语音特征信息提取方法、终端及可读存储介质
TWI753576B (zh) 用於音訊辨識的模型建構方法
US10923113B1 (en) Speechlet recommendation based on updating a confidence value
JP2018005122A (ja) 検出装置、検出方法及び検出プログラム
US20240071408A1 (en) Acoustic event detection
WO2020043110A1 (zh) 语音处理方法、信息装置与计算机程序产品
Hajihashemi et al. Novel time-frequency based scheme for detecting sound events from sound background in audio segments
Nigro et al. Multimodal system for audio scene source counting and analysis
Banga et al. Indian EmoSpeech Command Dataset: A dataset for emotion based speech recognition in the wild