CN113223511B - 用于语音识别的音频处理装置 - Google Patents
用于语音识别的音频处理装置 Download PDFInfo
- Publication number
- CN113223511B CN113223511B CN202010071503.3A CN202010071503A CN113223511B CN 113223511 B CN113223511 B CN 113223511B CN 202010071503 A CN202010071503 A CN 202010071503A CN 113223511 B CN113223511 B CN 113223511B
- Authority
- CN
- China
- Prior art keywords
- circuit
- memory circuit
- parameters
- mel
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001228 spectrum Methods 0.000 claims abstract description 104
- 238000006243 chemical reaction Methods 0.000 claims abstract description 91
- 230000003595 spectral effect Effects 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 39
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000007906 compression Methods 0.000 claims abstract description 10
- 230000006835 compression Effects 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000010586 diagram Methods 0.000 description 6
- 101000802640 Homo sapiens Lactosylceramide 4-alpha-galactosyltransferase Proteins 0.000 description 2
- 102100035838 Lactosylceramide 4-alpha-galactosyltransferase Human genes 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/285—Memory allocation or algorithm optimisation to reduce hardware requirements
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于语音识别的音频处理装置,其包括存储器电路、功率谱转换电路,以及特征提取电路。功率谱转换电路耦接存储器电路,自存储器电路读取一时域音频取样数据的多个频谱系数,依据频谱系数进行功率谱转换以及压缩处理以产生多个经压缩功率参数,并将经压缩功率参数写入存储器电路。特征提取电路耦接存储器电路,自存储器电路读取经压缩功率参数,依据经压缩功率参数进行梅尔滤波处理以及频率时间变换处理以产生音频特征向量。经压缩功率参数的位宽小于频谱系数的位宽。
Description
技术领域
本发明是有关于一种音频处理装置,且特别是有关于一种用于语音识别的音频处理装置。
背景技术
随着科技的进步,越来越多的电子装置开始使用语音控制,语音控制今后将成为大多数电子装置常用的使用者界面。由此可知,语音识别(Speech Recognition)的辨识率将直接影响使用者使用电子装置的使用者体验。在语音辨识的实现中,语音特征提取为重要的一环节。像是,目前最常用到的语音特征之一就是梅尔倒频谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)。梅尔倒频谱系数模拟了人耳的听觉特性,能够反映人对语音的感知特性,在语音辨识实际应用中取得了较高的辨识率。语音特征提取的各个步骤可由多个硬件电路模块来实现,像是用以产生梅尔倒频谱系数的梅尔滤波器可由多个三角带通滤波器来实现。可知的,用以实现语音特征提取得这些硬件电路的操作方式将直接影响制造成本、电路面积与电路效能等等。因而,随着语音辨识的应用越来越广,如何设计符合需求的语音特征提取电路为本领域技术人员关心的重要议题之一。
发明内容
有鉴于此,本发明提出一种用于语音识别的音频处理装置,其可节省存储器空间并降低存储器位宽,进而降低硬件成本。
本发明实施例提供一种用于语音识别的音频处理装置,其包括存储器电路、功率对数电路、梅尔滤波器电路,以及频率时间变换电路。功率对数电路耦接存储器电路,自存储器电路读取时域音频取样数据的多个频谱系数,依据频谱系数产生多个功率谱参数。功率对数电路对功率谱参数进行对数转换处理而产生多个经压缩功率参数,并将经压缩功率参数写入该存储器电路。梅尔滤波器电路耦接存储器电路,并自存储器电路读取经压缩功率参数。梅尔滤波器电路对经压缩功率参数进行梅尔滤波处理而产生多个梅尔频谱参数,并将梅尔频谱参数写入存储器电路。频率时间变换电路耦接存储器电路,自存储器电路读取梅尔频谱参数,对梅尔频谱参数进行频率时间变换处理而产生音频特征向量。
本发明实施例提供一种用于语音识别的音频处理装置,其包括存储器电路、功率谱转换电路,以及特征提取电路。功率谱转换电路耦接存储器电路,自存储器电路读取一时域音频取样数据的多个频谱系数,依据频谱系数进行功率谱转换以及压缩处理以产生多个经压缩功率参数,并将经压缩功率参数写入存储器电路。特征提取电路耦接存储器电路,自存储器电路读取经压缩功率参数,依据经压缩功率参数进行梅尔滤波处理以产生音频特征向量。经压缩功率参数的位宽小于频谱系数的位宽。
基于上述,于本发明的实施例中,用于语音识别的音频处理装置可包括存储器电路与多个电路模块,这些电路模块用以对音频数据进行语音特征提取且分别于不同时段依序处于工作状态。藉此,这些电路模块可共享同一存储器电路且分时重复使用此存储器电路,进而节省存储器电路的硬件成本。此外,透过由电路模块其中之一执行功率谱转换与压缩处理后再将经压缩功率参数写入存储器电路,可使得用于语音特征提取的存储器电路的最大需求位宽降低。
为让本发明之上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。
附图说明
图1是依照本发明一实施例所绘示的用于语音识别的音频处理装置的示意图。
图2是依照本发明一实施例所绘示的用于语音识别的音频处理装置的示意图。
图3是依照本发明一实施例所绘示的用于语音识别的音频处理装置的示意图。
附图标记说明
10、30:音频处理装置
110:存储器电路
120:功率谱转换电路
130:特征提取电路
a1:频谱系数
a2:经压缩功率参数
fv1:音频特征向量
ip1、ip2、ip2-1、ip2-2:输入端口
131:梅尔滤波器电路
132:频率时间变换电路
a3:梅尔频谱参数
141:预处理电路
142:时间频率变换电路
122:功率对数电路
s1:时域音频取样数据
a4:经预处理数据
具体实施方式
本发明的部分实施例接下来将会配合附图来详细描述,以下的描述所引用的元件符号,当不同附图出现相同的元件符号将视为相同或相似的元件。这些实施例只是本发明的一部分,并未揭示所有本发明的可实施方式。更确切的说,这些实施例只是本发明的专利申请范围中的装置的范例。
图1是依照本发明一实施例的用于语音识别的音频处理装置的示意图。请参照图1,用于语音识别的音频处理装置10包括存储器电路110、功率谱转换电路120,以及特征提取电路130。于一实施例中,音频处理装置10可实作为具有语音辨识功能的一音频处理芯片。
存储器电路110,用以缓存进行语音特征提取时的数据,可以是静态随机存取存储器(static random-access memory,SRAM),但不以此为限制。存储器电路110可经由内部总线耦接功率谱转换电路120以及特征提取电路130,功率谱转换电路120以及特征提取电路130可透过内部总线与存储器电路110相互传输数据。
功率谱转换电路120可自存储器电路110读取时域(time-domain)音频取样数据的多个频谱系数a1,并依据这些频谱系数a1进行功率谱转换以及压缩处理以产生多个经压缩功率参数a2。详细而言,时域音频取样数据是对类比音频讯号进行取样而产生,而取样频率例如是8K赫兹或16K赫兹等等。频谱系数a1是透过对一取样时段(亦即一音框)内的时域音频取样数据进行时间频率变换处理而产生,上述时间频率变换处理例如为快速傅立叶转换(Fast Fourier Transformation,FFT),而各取样点的频谱系数a1包括实部(Real)成份与虚部(Imaginary)成份。
功率谱转换电路120可对这些频谱系数a1进行功率谱转换取得频谱特征,亦即计算频谱系数a1的实部系数平方与频谱系数a1的虚部系数平方的总和。由此可知,功率谱转换后所产生的数据的位宽(Bit Width)将有大幅度的增长。因此,于本实施例中,功率谱转换电路120还可进一步进行压缩处理而产生多个经压缩功率参数a2,从而达到压缩将写入至存储器电路110的数据的位宽的目的。上述压缩处理例如是取对数处理。换言之,经压缩功率参数a2的位宽小于频谱系数a1的位宽。接着,功率谱转换电路120才将经压缩功率参数a2写入存储器电路110。
特征提取电路130可自存储器电路110读取经压缩功率参数a2,并依据经压缩功率参数a2进行梅尔滤波处理以产生音频特征向量fv1。于一实施例中,特征提取电路130可利用梅尔滤波处理与频率时间变换处理取得多个音频特征参数(亦称为梅尔倒频谱系数(MelFrequency Cepstral Coefficient,MFCC)),而获得一个多维度的音频特征向量fv1。或者,于另一实施例中,特征提取电路130可利用梅尔滤波处理取得多个梅尔频谱参数并将这些梅尔频谱参数作为音频特征向量fv1。于此,特征提取电路130可由软件模块、硬件模块或其组合实作而得,在此不加以限制。上述软件模块可以是储存于记录媒体中的编程码或指令等等。上述硬件模块可以为实现于集成电路(integrated circuit)上的逻辑电路。举例而言,可利用编程语言(programming languages)来实现特征提取电路130的频率时间变换处理。此外,特征提取电路130的梅尔滤波处理与/或频率时间变换处理也可以利用硬件描述语言(hardware description languages或其他合适的编程语言来实现为硬件模块,因而可包括一或多个微处理器、专用集成电路(Application-specific integrated circuit,ASIC)、现场可编程逻辑门阵列(Field Programmable Gate Array,FPGA)或其他类型硬件电路。
于一实施例中,音频特征向量fv1可用于与预设声学模型进行匹配或提供给机器学习模型,以达到语音辨识的目的。于另一实施例中,音频特征向量fv1可再经过其他运算处理后才与预设声学模型进行匹配或提供给机器学习模型。于此,功率谱转换电路120与特征提取电路130是依序被致能来处于工作状态,并且功率谱转换电路120与特征提取电路130可分时共享存储器电路110的相同储存空间。换句话说,于一实施例中,这些用以产生音频特征向量fv1的多个电路依序分别于不同的多个时段存取存储器电路110,亦即存储器电路110于同一特定时段只供单一电路模块存取。值得一提的是,存储器电路110的最大需求位宽是依据特征提取电路130所输出的音频特征向量fv1的位宽而决定。
于此,功率谱转换电路120经由功率谱转换电路120的输入端口ip1连接至存储器电路110,以经由功率谱转换电路120的输入端口ip1存取存储器电路110。特征提取电路130经由特征提取电路130的输入端口ip2连接至存储器电路110,以经由特征提取电路130的输入端口ip2存取存储器电路110。需说明的是,于一实施例中,由于功率谱转换电路120已经进行压缩处理,因此特征提取电路130可不进行取对数运算。此外,于一实施例中,功率谱转换电路120是透过输入端口ip1自存储器电路110读取频谱系数a1,而特征提取电路130是自存储器电路110透过输入端口ip2依序读取经压缩功率参数a2。基此,在经压缩功率参数a2的位宽小于频谱系数a1的位宽的情况下,特征提取电路130的输入端口ip2的最大需求位宽小于功率谱转换电路120的输入端口ip1的最大需求位宽。
图2是依照本发明一实施例所绘示的用于语音识别的音频处理装置的示意图。请参照图2,于本实施例中,特征提取电路130可包括梅尔滤波器电路131以及频率时间变换电路132。梅尔滤波器电路131以及频率时间变换电路132可经由内部总线而分别耦接至存储器电路110。
功率谱转换电路120自存储器电路110读取时域音频取样数据的多个频谱系数a1,依据频谱系数a1进行功率谱转换以及压缩处理以产生多个经压缩功率参数a2,并将经压缩功率参数a2写入存储器电路110。于本实施例中,压缩处理可为取对数处理。亦即,功率谱转换电路120可依据频谱系数a1产生多个功率谱参数,并对功率谱参数进行对数转换处理以产生经压缩功率参数a2。针对一音框里的各取样点,功率谱参数可透过计算频谱系数a1的实部系数平方与频谱系数a1的虚部系数平方的总和而产生。
于本实施例中,梅尔滤波器电路131例如可包括一组19个非线性分布的三角带通滤波器(Triangular Bandpass Filters)。梅尔滤波器电路131自存储器电路110读取经压缩功率参数a2,对经压缩功率参数a2进行梅尔滤波处理而产生多个梅尔频谱参数a3。接着,梅尔滤波器电路131将梅尔频谱参数a3写入存储器电路110。具体而言,梅尔滤波器电路131可依据经压缩功率参数a2取得每一个三角带通滤波器所输出的对数能量,并将这些对数能量写入存储器电路110。接着,频率时间变换电路132自存储器电路110读取梅尔频谱参数a3,并对梅尔频谱参数a3进行频率时间变换处理而产生音频特征向量fv1,以取得一音框的梅尔倒频谱系数(MFCC)。频率时间变换处理可以是离散余弦变换(Discrete cosinetransform,DCT)处理。
请参照图2,存储器电路110将依序于不同时期被功率谱转换电路120、梅尔滤波器电路131,以及频率时间变换电路132读写,因此存储器电路110的最大需求位宽即为功率谱转换电路120、梅尔滤波器电路131,以及频率时间变换电路132所输出的三种数据(即频谱系数a1、经压缩功率参数a2、梅尔频谱参数a3)的位宽的最大值。换句话说,存储器电路110的最大需求位宽即为功率谱转换电路120的输入端口ip1的位宽、梅尔滤波器电路131的输入端口ip2-1的位宽、频率时间变换电路132的输入端口ip2-2的位宽三者其中的最大值。其中,由于功率谱转电路120有进行取对数处理,因而功率谱转电路120的输入端口ip1的位宽会大于梅尔滤波器电路131的输入端口ip2-1的位宽。此外,在以软件实现频率时间变换电路132的频率时间变换处理的本实施例中,梅尔频谱参数a3的位宽会大于等于频谱系数a1的位宽,因此,于一实施例中,存储器电路110的最大需求位宽是依据梅尔滤波器电路131所输出的梅尔频谱参数a3的位宽而决定。然而,需说明的是,在以硬件实现频率时间变换电路132的频率时间变换处理的其他实施例中,频率时间变换电路132会将运算过程中的中途数据写入存储器电路110,因此存储器电路110的最大需求位宽是依据梅尔滤波器电路131所输出的梅尔频谱参数a3的位宽或频率时间变换电路132所输出的数据的位宽而决定。
图3是依照本发明一实施例所绘示的用于语音识别的音频处理装置的示意图。请参照图3,用于语音识别的音频处理装置30包括存储器电路110、预处理电路141、时间频率变换电路142、功率对数电路122、梅尔滤波器电路131,以及频率时间变换电路132。预处理电路141、时间频率变换电路142、功率对数电路122、梅尔滤波器电路131,以及频率时间变换电路132分别经由内部总线耦接存储器电路110,以对存储器电路110进行读写操作。
预处理电路141接收时域音频取样数据s1,并对时域音频取样数据s1进行音频预处理而产生经预处理数据a4。音频预处理可包括预加重(Pre-emphasis)处理、音框化(Frame blocking)处理,以及加窗处理等等。详细而言,预处理电路141可接收对类比音频讯号取样后的时域音频取样数据s1,并藉由将时域音频取样数据s1通过高通滤波器来进行预加重处理。接着,预处理电路141可藉由将N个取样数据组为一个音框(Frame)来进行音框化处理,其中相邻音框具有重叠的取样数据,且预处理电路141可藉由将每一个音框乘上汉明窗(Hamming window)来进行加窗处理。完成所有的音频预处理之后,预处理电路141将经预处理数据a4写入存储器电路110。
在存储器电路110缓存有足够的预处理数据a4之后(例如一个音框内512个取样数据的预处理数据a4),时间频率变换电路142自存储器电路110读取经预处理数据a4,对经预处理数据a4进行时间频率变换处理而产生频谱系数a1。于本实施例中,时间频率变换电路142可对经预处理数据a4进行FFT处理而产生包括实部系数与虚部系数的频谱系数a1。举例而言,时间频率变换电路142可以执行512点FFT运算而产生频谱系数a1,但本发明不限制于此。时间频率变换电路142将这些频谱系数a1写入存储器电路110。
功率对数电路122自存储器电路110读取时域音频取样数据s1的多个频谱系数a1,依据频谱系数a1产生多个功率谱参数。针对一音框里各取样点,功率谱参数可透过计算频谱系数a1的实部系数平方与频谱系数a1的虚部系数平方的总和而产生。功率对数电路122对功率谱参数进行对数转换处理而产生多个经压缩功率参数a2,并将经压缩功率参数a2写入存储器电路110。
于一实施例中,基于下列式(1)至式(10)的推导可知,功率对数电路122可对频谱系数a1的实部系数平方进行取对数处理而产生第一对数值,并对频谱系数a1的虚部系数平方进行取对数处理而产生第二对数值。功率对数电路122藉由比较第一对数值与第二对数值来产生经压缩功率参数a2。
P(k)=Re2+Im2 式(1)
ln(P(k))=ln(Re2+Im2)=ln(x+y) 式(2)
其中,P(k)为功率谱参数;Re为频谱系数a1的实部系数;Im为频谱系数a1的虚部系数;x为实部系数的平方;而y为虚部系数的平方。
承上,如果ln(x)≧ln(y):
另一方面,如果ln(x)<ln(y):
其中,ln(x)代表第一对数值,而ln(y)代表第二对数值。基此,透过比较第一对数值与第二对数值,功率对数电路122可依据式(6)与式(10)的推导结果计算出经压缩功率参数a2。并且,在式(6)与式(10),ln(1+e(-p))可透过查找事先建立的查找表而获取,因此功率对数电路122实际上计算出ln(x)与ln(y)的数值就可取得经压缩功率参数a2。需注意的是,ln(x)=ln(Re2)=2ln(Re)且ln(y)=ln(Im2)=2ln(Im)。由于功率对数电路122是取功率谱参数后直接进行取对数处理,因此,透过对频谱系数a1的实部系数进行取对数处理再乘以2或对频谱系数a1的虚部系数进行取对数处理再乘以2,功率对数电路122就可产生经压缩功率参数a2。
基此,相较于在计算出取功率谱参数后就将功率谱参数写入存储器电路的一种传统设计而言,本实施例可避免出现将具备较大位宽的功率谱参数写入存储器电路的需求,而达到降低存储器电路的最大需求位宽的功效。换言之,透过进行取对数处理后再进行梅尔滤波,避免了要将大位宽的功率谱参数写入存储器电路的状况。
之后,梅尔滤波器电路131自存储器电路110读取经压缩功率参数a2。梅尔滤波器电路131对经压缩功率参数a2进行梅尔滤波处理而产生多个梅尔频谱参数a3,并将梅尔频谱参数a3写入存储器电路110。频率时间变换电路132自存储器电路110读取梅尔频谱参数a3,对梅尔频谱参数a3进行频率时间变换处理而产生音频特征向量fv1。梅尔滤波器电路131与频率时间变换电路132的操作相似于图2实施例的说明,于此不再赘述。存储器电路110的最大需求位宽依据梅尔滤波器电路131所输出的梅尔频谱参数a3而决定。
需说明的是,于本实施例中,预处理电路141、时间频率变换电路142、功率对数电路122、梅尔滤波器电路131,以及频率时间变换电路132分别依序操作于不同的多个时段。藉此,预处理电路141、时间频率变换电路142、功率对数电路122、梅尔滤波器电路131,以及频率时间变换电路132可分时共享存储器电路110,而无须于这些电路模块之间分别设置存储器电路,从而可大幅降低存储器电路所需耗费的硬件成本且缩小电路面积。
举例而言,请参照图3,假设取样频率为16k赫兹,时域音频取样数据s1的位宽可为16比特(bit)。经预处理数据a4的位宽可为24比特。频谱系数a1的位宽可为24比特。经压缩功率参数a2的位宽可为19比特。梅尔频谱参数a3的位宽可为24比特。音频特征向量fv1的位宽可为32比特。在此种情况中,存储器电路110所需的最大需求位宽为24比特。
此外,于一实施例中,存储器电路110的存储器尺寸为最大需求位宽乘上数据组数,而数据组数为时间频率变换电路142的运算点数加上二。具体而言,当时间频率变换电路142的运算点数为M时,时间频率变换电路142会输出M个复数结果,这些复数结果分别包括虚部系数与实部系数。因此,时间频率变换电路142实际上会产生M*2组计算数据。然而,根据这些复数结果具有共轭对称性质,因此实际上只须保存(M*2/2)+2组数据,所以存储器电路110需要(M+2)个存储器地址。对应的,存储器电路110的存储器尺寸则为(M+2)乘上最大需求位宽。举例而言,假设时间频率变换电路142进行512点FFT运算且最大需求位宽为24比特,则存储器电路110的存储器尺寸为514乘上24。
综上所述,于本发明的实施例中,存储器电路可在音频特征提取过程中被多个电路模块依序重复使用,因此可以达到节省存储器空间的效果。除此之外,透过先进行取对数处理后再进行梅尔滤波,避免了要将大位宽的功率谱参数写入存储器电路的状况,可使得用于语音特征提取的存储器电路的最大需求位宽降低,一并达到缩小电路面积与硬件成本的功效。
虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视后附的权利要求所界定者为准。
Claims (11)
1.一种用于语音识别的音频处理装置,其特征在于,包括:
一存储器电路;
一功率对数电路,耦接该存储器电路,自该存储器电路读取一时域音频取样数据的多个频谱系数,依据该些频谱系数产生多个功率谱参数,对该些功率谱参数进行对数转换处理而产生多个经压缩功率参数,并将该些经压缩功率参数写入该存储器电路;
一梅尔滤波器电路,耦接该存储器电路,自该存储器电路读取该些经压缩功率参数,对该些经压缩功率参数进行梅尔滤波处理而产生多个梅尔频谱参数,并将该些梅尔频谱参数写入该存储器电路;以及
一频率时间变换电路,耦接该存储器电路,自该存储器电路读取该些梅尔频谱参数,对该些梅尔频谱参数进行频率时间变换处理而产生音频特征向量,
其中该些频谱系数各自包括的实部系数与虚部系数,该功率对数电路对该实部系数平方进行取对数处理而产生第一对数值,对该虚部系数平方进行取对数处理而产生第二对数值,并藉由比较该第一对数值与该第二对数值来产生该些经压缩功率参数。
2.如权利要求1所述的用于语音识别的音频处理装置,其特征在于,更包括:
一预处理电路,耦接该存储器电路,接收该时域音频取样数据,对该时域音频取样数据进行音频预处理而产生经预处理数据,并将该经预处理数据写入该存储器电路;以及
一时间频率变换电路,耦接该存储器电路,自该存储器电路读取该经预处理数据,对该经预处理数据进行时间频率变换处理而产生该些频谱系数,并将该些频谱系数写入该存储器电路。
3.如权利要求2所述的用于语音识别的音频处理装置,其特征在于,该预处理电路、该时间频率变换电路、该功率对数电路、该梅尔滤波器电路,以及该频率时间变换电路分别依序操作于不同的多个时段,以分别于不同的所述多个时段存取该存储器电路。
4.如权利要求2所述的用于语音识别的音频处理装置,其特征在于,该存储器电路的最大需求位宽依据该梅尔滤波器电路所输出的该些梅尔频谱参数或该频率时间变换电路所输出的数据而决定。
5.如权利要求4所述的用于语音识别的音频处理装置,其特征在于,该存储器电路的存储器尺寸为最大需求位宽乘上数据组数,而该数据组数为该时间频率变换电路的运算点数加上二。
6.如权利要求2所述的用于语音识别的音频处理装置,其特征在于,该时间频率变换处理为快速傅立叶转换处理,而该频率时间变换处理为离散余弦变换处理。
7.一种用于语音识别的音频处理装置,其特征在于,包括:
一存储器电路;
一功率谱转换电路,耦接该存储器电路,自该存储器电路读取一时域音频取样数据的多个频谱系数,依据该些频谱系数进行功率谱转换以及压缩处理以产生多个经压缩功率参数,并将该些经压缩功率参数写入该存储器电路;以及
一特征提取电路,耦接该存储器电路,自该存储器电路读取该些经压缩功率参数,依据该些经压缩功率参数进行梅尔滤波处理以产生音频特征向量,
其中该些经压缩功率参数的位宽小于该些频谱系数的位宽,
该功率谱转换电路依据该些频谱系数产生多个功率谱参数,并对该些功率谱参数进行对数转换处理以产生该些经压缩功率参数,
该些频谱系数各自包括的实部系数与虚部系数,该功率谱转换电路对该实部系数平方进行取对数处理而产生第一对数值,对该虚部系数平方进行取对数处理而产生第二对数值,并藉由比较该第一对数值与该第二对数值来产生该些经压缩功率参数。
8.如权利要求7所述的用于语音识别的音频处理装置,其特征在于,该特征提取电路包括:
一梅尔滤波器电路,耦接该存储器电路,自该存储器电路读取该些经压缩功率参数,对该些经压缩功率参数进行梅尔滤波处理而产生多个梅尔频谱参数,并将该些梅尔频谱参数作为该音频特征向量而写入该存储器电路。
9.如权利要求7所述的用于语音识别的音频处理装置,其特征在于,该特征提取电路包括:
一梅尔滤波器电路,耦接该存储器电路,自该存储器电路读取该些经压缩功率参数,对该些经压缩功率参数进行梅尔滤波处理而产生多个梅尔频谱参数,并将该些梅尔频谱参数而写入该存储器电路;以及
一频率时间变换电路,耦接该存储器电路,自该存储器电路读取该些梅尔频谱参数,对该些梅尔频谱参数进行频率时间变换处理而产生该音频特征向量。
10.如权利要求7所述的用于语音识别的音频处理装置,其特征在于,该特征提取电路不进行取对数运算。
11.如权利要求7所述的用于语音识别的音频处理装置,其特征在于,该特征提取电路的输入端口的最大需求位宽小于该功率谱转换电路的输入端口的最大需求位宽,
其中该特征提取电路经由该特征提取电路的输入端口连接至该存储器电路,以经由该特征提取电路的输入端口存取该存储器电路,
其中该功率谱转换电路经由该功率谱转换电路的输入端口连接至该存储器电路,以经由该功率谱转换电路的输入端口存取该存储器电路。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071503.3A CN113223511B (zh) | 2020-01-21 | 2020-01-21 | 用于语音识别的音频处理装置 |
US16/867,571 US11404046B2 (en) | 2020-01-21 | 2020-05-06 | Audio processing device for speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010071503.3A CN113223511B (zh) | 2020-01-21 | 2020-01-21 | 用于语音识别的音频处理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223511A CN113223511A (zh) | 2021-08-06 |
CN113223511B true CN113223511B (zh) | 2024-04-16 |
Family
ID=76857265
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010071503.3A Active CN113223511B (zh) | 2020-01-21 | 2020-01-21 | 用于语音识别的音频处理装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11404046B2 (zh) |
CN (1) | CN113223511B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11881904B2 (en) * | 2022-03-31 | 2024-01-23 | Dell Products, L.P. | Power detection in the time domain on a periodic basis with statistical counters |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191252A (ja) * | 2009-02-19 | 2010-09-02 | Toyota Motor Corp | 音声認識装置、音声認識方法 |
WO2014153800A1 (zh) * | 2013-03-29 | 2014-10-02 | 京东方科技集团股份有限公司 | 语音识别系统 |
CN108899032A (zh) * | 2018-06-06 | 2018-11-27 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN109166591A (zh) * | 2018-08-29 | 2019-01-08 | 昆明理工大学 | 一种基于音频特征信号的分类方法 |
WO2019232846A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6845359B2 (en) * | 2001-03-22 | 2005-01-18 | Motorola, Inc. | FFT based sine wave synthesis method for parametric vocoders |
US6772315B1 (en) * | 2001-05-24 | 2004-08-03 | Rambus Inc | Translation lookaside buffer extended to provide physical and main-memory addresses |
SG140445A1 (en) * | 2003-07-28 | 2008-03-28 | Sony Corp | Method and apparatus for automatically recognizing audio data |
JP5223786B2 (ja) * | 2009-06-10 | 2013-06-26 | 富士通株式会社 | 音声帯域拡張装置、音声帯域拡張方法及び音声帯域拡張用コンピュータプログラムならびに電話機 |
CN202615783U (zh) | 2012-05-23 | 2012-12-19 | 西北师范大学 | 一种基于FPGA的Mel倒谱分析合成仪 |
US20150154980A1 (en) * | 2012-06-15 | 2015-06-04 | Jemardator Ab | Cepstral separation difference |
US10719115B2 (en) * | 2014-12-30 | 2020-07-21 | Avago Technologies International Sales Pte. Limited | Isolated word training and detection using generated phoneme concatenation models of audio inputs |
US11004461B2 (en) * | 2017-09-01 | 2021-05-11 | Newton Howard | Real-time vocal features extraction for automated emotional or mental state assessment |
CN111210806B (zh) * | 2020-01-10 | 2022-06-17 | 东南大学 | 一种基于串行fft的低功耗mfcc语音特征提取电路 |
-
2020
- 2020-01-21 CN CN202010071503.3A patent/CN113223511B/zh active Active
- 2020-05-06 US US16/867,571 patent/US11404046B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010191252A (ja) * | 2009-02-19 | 2010-09-02 | Toyota Motor Corp | 音声認識装置、音声認識方法 |
WO2014153800A1 (zh) * | 2013-03-29 | 2014-10-02 | 京东方科技集团股份有限公司 | 语音识别系统 |
WO2019232846A1 (zh) * | 2018-06-04 | 2019-12-12 | 平安科技(深圳)有限公司 | 语音区分方法、装置、计算机设备及存储介质 |
CN108899032A (zh) * | 2018-06-06 | 2018-11-27 | 平安科技(深圳)有限公司 | 声纹识别方法、装置、计算机设备及存储介质 |
CN109166591A (zh) * | 2018-08-29 | 2019-01-08 | 昆明理工大学 | 一种基于音频特征信号的分类方法 |
Also Published As
Publication number | Publication date |
---|---|
US20210225360A1 (en) | 2021-07-22 |
CN113223511A (zh) | 2021-08-06 |
US11404046B2 (en) | 2022-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021086154A (ja) | 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
US11183177B2 (en) | Real-time voice recognition apparatus equipped with ASIC chip and smartphone | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
TW200306526A (en) | Method for robust voice recognition by analyzing redundant features of source signal | |
CN111433847A (zh) | 语音转换的方法及训练方法、智能装置和存储介质 | |
CN109256138A (zh) | 身份验证方法、终端设备及计算机可读存储介质 | |
Vu et al. | Implementation of the MFCC front-end for low-cost speech recognition systems | |
CN113223511B (zh) | 用于语音识别的音频处理装置 | |
KR102194194B1 (ko) | 암묵 신호 분리를 위한 방법, 장치 및 전자 장치 | |
CN115565550A (zh) | 基于特征图轻量卷积变换的婴儿哭声情感识别方法 | |
Zhang et al. | Temporal Transformer Networks for Acoustic Scene Classification. | |
Helali et al. | Real time speech recognition based on PWP thresholding and MFCC using SVM | |
CN113555031B (zh) | 语音增强模型的训练方法及装置、语音增强方法及装置 | |
Ren et al. | Recalibrated bandpass filtering on temporal waveform for audio spoof detection | |
Joy et al. | Deep scattering power spectrum features for robust speech recognition | |
CN112397086A (zh) | 语音关键词检测方法、装置、终端设备和存储介质 | |
CN202615783U (zh) | 一种基于FPGA的Mel倒谱分析合成仪 | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 | |
CN111462770A (zh) | 一种基于lstm的后期混响抑制方法及系统 | |
Ernawan et al. | Efficient discrete tchebichef on spectrum analysis of speech recognition | |
Pardede et al. | Generalized-log spectral mean normalization for speech recognition | |
Hu et al. | A light-weight full-band speech enhancement model | |
TWI748587B (zh) | 聲音事件偵測系統及方法 | |
Li et al. | Dual-stream speech dereverberation network using long-term and short-term cues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |