CN107112011A - 用于音频特征提取的倒谱方差归一化 - Google Patents
用于音频特征提取的倒谱方差归一化 Download PDFInfo
- Publication number
- CN107112011A CN107112011A CN201480083583.7A CN201480083583A CN107112011A CN 107112011 A CN107112011 A CN 107112011A CN 201480083583 A CN201480083583 A CN 201480083583A CN 107112011 A CN107112011 A CN 107112011A
- Authority
- CN
- China
- Prior art keywords
- characteristic vector
- variance
- frame
- current
- determined
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title abstract description 8
- 239000013598 vector Substances 0.000 claims abstract description 165
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000004891 communication Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 9
- 230000015654 memory Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 241000209140 Triticum Species 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- GIYXAJPCNFJEHY-UHFFFAOYSA-N N-methyl-3-phenyl-3-[4-(trifluoromethyl)phenoxy]-1-propanamine hydrochloride (1:1) Chemical compound Cl.C=1C=CC=CC=1C(CCNC)OC1=CC=C(C(F)(F)F)C=C1 GIYXAJPCNFJEHY-UHFFFAOYSA-N 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
描述了用于音频特征提取的倒谱方差归一化。在一些实施例中,一种方法包括:接收来自麦克风的数字化音频的帧序列;确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定;使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值;使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差;确定针对所述帧序列中的每个后续帧的下一个特征向量;在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和将所确定的特征向量发送到音频处理流水线的识别级。
Description
技术领域
本说明书涉及音频处理,并且尤其涉及确定用于倒谱系数特征向量的统计值。
背景技术
话音或语音识别越来越多地被用作许多不同类型的计算设备中的用户接口的一部分。许多蜂窝电话允许用户按下按钮并对麦克风说话以执行查询并执行各种不同的命令。便携式和台式计算机执行类似的功能。这些系统还可以将语音转换为文本,并将其用作对于约会、消息或存储文档的文本输入。这些系统中的一些系统在设备中本地处理用户语音,但是许多系统将语音的记录发送到远程服务器。汽车还可以接收话音命令以及查询以操作导航系统或车辆中的包括进行呼叫和发送消息的其他功能。话音或语音识别也用于识别、登录和其他目的。
用户更喜欢快速响应话音输入;然而,可能需要大量的处理资源来完成语音或任何其他音频的准确分析。此外,许多语音分析技术被设计为接收完整的话语,并且然后将完整的话语整体地进行分析。这要求系统等待用户停止说话,并且然后开始使用整个话语进行处理。这种固有的等待时间可能令人烦恼,特别是与键盘和鼠标输入的即时性相比而言。对于某些系统,可能没有足够的可用存储器来对话语进行缓冲,使得语音分析是不可能的。
用于语音识别的一种技术是分析针对梅尔频率倒谱系数(MFCC)的语音。将MFCC与用于自动语音识别(ASR)和说话者识别的参考进行比较。为了改进MFCC的准确性和可靠性,将倒谱均值减法(CMS)与倒谱方差归一化(CVN)结合使用。CVN可以被认为是噪声归一化,因为减去了信号的均值,这导致移除了平稳噪声。这些技术允许系统不仅用于对于用户输入的目的产生良好效果,而且还用于对用户验证和登录密码产生良好效果。
附图说明
实施例在附图中通过示例而非限制的方式被图示出,其中相似的参考标记表示相似的元件。
图1是根据实施例的针对音频流水线中的音频采样流的特征向量计算的图。
图2是根据实施例的针对音频采样的流的特征向量确定的过程流程图。
图3是根据实施例的语音识别系统的框图。
图4是根据实施例的并入音频处理的计算设备的框图。
具体实施方式
描述了一种用于倒谱方差归一化的技术,其可以在小型、便携式或固定设备中本地实时地执行,以用于验证说话者的身份,理解命令以及用于其他应用。
为了在MFCC(梅尔频率倒谱系数)中执行CMS(倒谱均值减法)和CVN(倒谱方差归一化),在完整的音频文件上估计MFCC的均值和方差。然后,将估计用来在音频文件上按帧应用归一化。如本文所述,由于音频是逐个采样地接收的,所以可以执行CVN。这可以在没有任何缓冲的情况下完成。使用所描述的技术,识别的准确性通过无需归一化的实时特征提取而被大大地改进,并且与取证分析中执行的离线特征提取的准确性类似。
下面可以以方程式的形式陈述用于使用整个音频文件离线确定CMS和CVN的典型技术。
方程式1
其中x i 表示在时间步长i上的语音信号,f(x i )表示特征提取函数,μ表示所有特征的估计的均值,σ表示估计的方差,在归一化之前需要μ和σ。但是,这需要对音频文件的所有特征进行预处理。如所示,通过采取针对每个帧的特征、减去均值并除以方差来对特征进行归一化。这些针对话语的总值进行求和。
所有帧上的均值μ的确定可以如下进行:
方程式2
其中N表示帧数。
类似地确定了μ,则均值的方差σ可以如下确定:
方程式3
N表示帧数。
为了在不首先确定均值和方差的情况下确定有用的特征值,方程式1可以被改变如下:
方程式4
在这种情况下,均值和方差值被替换为至今为止所确定的并包括最近帧的中间均值和方差。针对每个新的帧x i 更新这些值μ i-1 和σ i-1 。在每个采样之后的均值和方差如下确定:
方程式5
方程式6。
如所示,每个新的均值μ i 通过使用由参数α进行因子运算的先前值μ i-1 来确定并通过特征f(x i )的因子运算的当前值进行调整。同样的方法可以与方差一起使用,其中当前方差通过使用由参数a进行因子运算的先前值来确定,并且由特征f(x i )的因子运算的当前值进行调整。
相关性参数a越高,越多的重点被放在当前正在处理的实际帧即第i帧上。用于在线实时归一化的这种技术不会引入任何等待时间或延迟,因为估计的均值μ和估计的方差σ利用每个后续帧而被更新。估计的均值和方差仅依赖于系统在接收到音频时它处理音频时已经看到的帧。不需要前瞻性。这在图1中描绘。此外,存储器要求非常小,因为仅使用针对最后一帧的两个值,并且对于每一帧更新这些。
图1是用于指示在接收到音频时可以如何确定特征向量的特征向量计算的图。特征向量从右抵达到左,右边是最近接收到的特征向量。当前均值112和当前方差114用于确定传入特征向量116。当特征向量向左移动时,传入特征向量116变为当前特征向量104。然后使用当前特征向量104来更新先前均值110以确定当前均值112。类似地,先前方差114与新的当前均值112一起使用以确定当前方差114。然后将当前均值和方差插入到确定或处理即将到来的未使用的特征向量116中。
随着当前特征向量104向左移动、并且未看见的特征向量106变为当前特征向量104、并且然后变成已经看见的特征向量102,已经看见的特征向量102增加。可以在生成特征向量时对特征向量进行求和或进行分析使得在话语结束后几乎可以立即完成分析。
方程式4、5和6中阐述的相同原则也可以用伪代码来表达。在下面的示例中,“feat”表示特征向量,
如所示,不需要读取和缓冲整个音频文件。避免了来自缓冲整个音频流的存储器需求等待时间。这对于使用说话者识别进行登录和进行语音认证尤其有价值。
所描述的CVN可以用于改进在线特征提取系统。可以在不引入任何等待时间的情况下执行所描述的在线CMS和CVN。 CVN不需要任何离线处理,并基于已经看到的数据来估计方差。在运行时间期间,利用每个新的特征帧来更新方差。
在线CVN提供了与常规离线技术相似的语音识别中的性能而不需要任何形式的特征缓冲并且不产生等待时间,因为系统不需要对未来特征帧的任何知识。
本文中的在线技术可以仅与CMS一起使用或者CMS可以与CVN组合。可以通过在开始处理之前将均值μ和方差σ初始化为某个值来进行进一步的修改。可以通过使用类似的硬件从经验上估计适当的值来指定用于均值和方差的初始值。这可以为确定早期特征提供显著的改进。然而,随着接收到更多的特征向量,初始值的优点将减小。
图2是当音频帧到达时在线或实时确定CMS和CVN的过程流程图。系统基于从麦克风或其他源接收音频帧开始。可以以各种不同的方式中的任何方式来处理或格式化音频。典型地,音频是以数字采样格式。在202处,可选地初始化CMS(μ)值,并且在204处,可选地初始化CVN(σ)值。这些可以被初始化为零,初始化为中间值,或者初始化为对于特定类型的音频和正在接收音频的硬件系统而言的典型值的一些精确估计。
在206处,针对接收到的音频中的第一帧确定特征向量。这可以如在方程式4的上下文中所描述的那样来完成。202的均值和方差的初始化是可选的。如果没有初始化,那么可以使用来自第一帧的特征向量的值。换句话说,将均值μ设置为等于特征值并且方差将为零--因为只有一个均值。对于下一帧,来自第一帧的特征向量的相同值可以再次用作针对前一帧的值。作为另一替代,如果没有初始化,那么对于μ可以使用0,并且对于σ可以使用1。然后第二帧将使用来自第一帧的值。可以在接收到最后一帧之前执行第一帧的特征向量的确定。一旦接收到第一帧,特征向量处理就可以开始。
在208处使用确定的特征向量来更新μ。如果没有初始化并且这是第一帧,那么更新μ对应于使用针对第一帧的特征值在第一实例中建立μ。在210处使用更新的μ和确定的特征向量来更新σ。如果μ和σ被初始化,那么初始值可以包括在该更新过程中。示例更新过程在方程式5和6中阐述。如果没有初始化值,那么可以将第一帧的值用作初始值,例如,μ=(特征向量)和σ=(特征向量)*(特征向量)。因此方程式5和6将用针对第一帧的这些初始值进行处理。如果改为根本没有初始值,也就是说,如果没有当前值μ和σ要被更新,那么将针对第一帧去掉方程式5和6中的第一项。
在212处,使用更新的μ和σ值确定针对下一帧的特征向量。更新μ和σ以及确定特征向量的这个过程继续进行,直到整个话语都被处理。在214处,确定是否存在下一帧。这些操作将继续进行,直到所有的帧都被处理。在那个时刻将特征向量发送到识别级(216),并且过程结束。
图3是可以使用如本文所述确定的特征向量和CMS和CVN值的语音识别系统300的框图。虽然实施例是在语音识别系统的上下文中进行描述,但是在本文中以及在图3的上下文中描述的方法并不限于语音识别,而是也可以与说话者识别或认证、语言识别、说话者分割与聚类(speaker diarization)等一起使用。在模数转换器(A/D)310处接收诸如来自麦克风的语音的输入信号。特征提取器或频谱分析单元320从A/D接收数字化的语音帧。解码器330将从特征提取器接收的提取的特征与连接的声学模型340以及连接的语言模型350进行比较,并产生识别的语音360或命令作为输出。
输入信号305表示输入语音或一些其他音频。首先使用A/D 310对其进行数字化。然后,在A/D或特征提取器中将数字信号切割成典型地为10、15或20 ms的帧。然后将信号的每一帧转换成用于表征输入信号的频谱特性的相应特征向量。
特征向量可以具有一个或多个维度并且可以包括一个或多个不同的分量。这些分量可以包括例如MFCC分量、delta MFCC和delta-delta MFCC。然后将由特征提取单元320生成的特征向量提交到解码器330中,解码器330确定语音是否以足够准确度匹配经认证的用户。可替代地,假定由特征向量表征的声学事件,则可以确定具有最高概率的句子或单词序列。这可以使用各种不同模型340、350或分析中的任何一个来完成。然后可以将识别的语音360提供以用于储存、执行或与其他人的通信。
图4图示了根据一个实现的计算设备100。计算设备100容纳系统板2。板2可以包括多个组件,包括但不限于处理器4和至少一个通信封装6。通信封装耦合到一个或多个天线16。处理器4物理地和电气地耦合到板2。
取决于其应用,计算设备100可以包括可以或可以不物理地和电气地耦合到板2的其他组件。这些其他组件包括但不限于易失性存储器(例如DRAM)8、非易失性存储器(例如ROM)9,闪存存储器(未示出)、图形处理器12、数字信号处理器(未示出)、密码处理器(未示出)、芯片组14、天线16、诸如触摸屏显示器的显示器18、触摸屏控制器20、电池22、音频编解码器(未示出)、视频编解码器(未示出)、功率放大器24、全球定位系统(GPS)设备26、罗盘28、加速度计(未示出)、陀螺仪(未示出)、扬声器30、相机32、麦克风阵列34、和大容量存储设备(诸如硬盘驱动器)10、光盘(CD)(未示出)、数字万用盘(DVD)(未示出)等等)。这些组件可以连接到系统板2、安装到系统板或与任何其他组件组合。
通信封装6使得能够实现用于向和从计算设备100传送数据的无线和/或有线通信。术语“无线”及其衍生词可以用于描述可以通过使用通过非固体介质的经调制的电磁辐射来传递数据的电路、设备、系统、方法、技术、通信信道等。所述术语并不意味着相关联的设备不包含任何导线,尽管在一些实施例中它们可能不包括。通信封装6可以实现多种无线或有线标准或协议中的任何一种,包括但不限于Wi-Fi(IEEE 802.11家族)、WiMAX(IEEE802.16家族)、IEEE 802.20、长期演进(LTE)、Ev-DO、HSPA+、HSDPA+、HSUPA+、EDGE、GSM、GPRS、CDMA、TDMA、DECT、蓝牙、其以太网衍生物以及被指定为3G、4G、5G及以上的任何其它无线和有线协议。计算设备100可以包括多个通信封装6。例如,第一通信封装6可以专用于诸如Wi-Fi和蓝牙的较短程无线通信,并且第二通信封装6可以专用于较长程无线通信,诸如GPS、EDGE、GPRS、CDMA、WiMAX、LTE、Ev-DO、以及其他。
麦克风34和扬声器30耦合到一个或多个音频芯片36以执行如本文所述的数字转换、特征提取、编码和解码、以及基于帧的处理。处理器4通过音频前端耦合到音频芯片,例如以利用中断来驱动该过程、设置参数、以及控制音频芯片的操作。可以在音频芯片中或者在通信封装6中执行基于帧的处理。功率管理功能可以由耦合到电池22的处理器执行,或者可以使用单独的功率管理芯片。
在各种实现中,计算设备100可以是膝上型计算机、上网本、笔记本、超极本、智能电话、可穿戴设备、平板计算机、个人数字助理(PDA)、超移动PC、移动电话、台式计算机、服务器、打印机、扫描仪、监视器、机顶盒、娱乐控制单元、数字相机、便携式音乐播放器、或数字视频记录器。所述计算设备可以是固定的、便携式的、或可穿戴的。在另外的实现中,计算设备100可以是对数据进行处理的任何其他电子设备。
实施例可以实现为使用母板、专用集成电路(ASIC)、和/或现场可编程门阵列(FPGA)互连的一个或多个存储器芯片、控制器、CPU(中央处理单元)、微芯片或集成电路的一部分。
对“一个实施例”、“实施例”、“示例实施例”、“各个实施例”等的引用指示这样描述的(一个或多个)实施例可以包括特定特征、结构、或特性,但并不是每个实施例必定包括所述特定特征、结构、或特性。此外,某些实施例可具有针对其他实施例所描述的特征的一部分、全部、或不具有任何所述特征。
在以下说明书和权利要求书中,可以使用术语“耦合”及其衍生词。“耦合”用于指示两个或更多个元件彼此协作或相互作用,但是它们之间可以具有或不具有介入物理或电气组件。
如权利要求书中所使用的,除非另有说明,否则使用序数形容词“第一”、“第二”、“第三”等来描述公共元素仅仅指示相同元素的不同实例被提及,并且不旨在暗示如此描述的元件必须在或者时间上、空间上、排名上、或以任何其它方式处于给定序列中。
附图和前述描述给出了实施例的示例。本领域技术人员将理解,所描述的元件中的一个或多个可以被很好地组合成单个功能元件。可替代地,某些元件可以分成多个功能元件。来自一个实施例的元件可以被添加到另一个实施例。例如,本文描述的过程的顺序可以改变并且不限于本文所述的方式。而且,任何流程图的所述动作无需以示出的顺序来实现;也不一定必须执行所述动作的全部。此外,不依赖于其他动作的那些动作可以与其他动作并行地执行。实施例的范围决不限于这些特定示例。无论是否在说明书中明确给出,诸如材料的结构、尺寸和使用上的差异的许多变化都是可能的。实施例的范围至少与所附权利要求给出的一样宽。
下面的示例涉及进一步的实施例。不同实施例的各种特征可以与包括的一些特征和排除的其他特征进行各种组合以适应各种不同的应用。一些实施例涉及一种方法,所述方法包括:接收来自麦克风的数字化音频的帧序列;确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定;使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值;使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差;确定针对所述帧序列中的每个后续帧的下一个特征向量;在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和将所确定的特征向量发送到音频处理流水线的识别级。
进一步的实施例包括将所述初始均值和方差设置为针对所述数字化音频的估计值。
在进一步的实施例中,基于针对所述第一帧所确定的特征向量来设置所述初始均值和方差。
在进一步的实施例中,确定特征向量包括确定梅尔频率倒谱系数。
在进一步的实施例中,所述当前均值包括倒谱均值,并且所述当前方差包括倒谱方差。
在进一步的实施例中,确定下一个特征向量包括使用倒谱均值减法和倒谱方差归一化来确定下一个特征向量。
在进一步的实施例中,所述数字化音频是语音。
在进一步的实施例中,所述识别级包括解码器,所述方法还包括在所述解码器处接收所确定的特征向量,并在所述解码器处确定所述数字化语音是否与经认证的用户匹配。
在进一步的实施例中,在每个下一个特征向量之后仅使用对应的下一个特征向量和所述帧序列的较早帧的特征向量来确定下一个当前均值。
在进一步的实施例中,在每个下一特征向量之后仅使用相应的下一个当前均值来确定所述下一个当前方差。
一些实施例涉及一种在其上具有指令的机器可读介质,所述指令当由机器执行时使所述机器执行操作,所述操作包括:接收来自麦克风的数字化音频的帧序列;确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定;使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值;使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差;确定针对所述帧序列中的每个后续帧的下一个特征向量;在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和将所确定的特征向量发送到音频处理流水线的识别级。
在进一步的实施例中,确定特征向量包括确定梅尔频率倒谱系数。
在进一步的实施例中,所述当前均值包括倒谱均值,并且所述当前方差包括倒谱方差。
在进一步的实施例中,确定下一个特征向量包括使用倒谱均值减法和倒谱方差归一化来确定下一个特征向量。
在进一步的实施例中,在每个下一个特征向量之后仅使用对应的下一个特征向量和所述帧序列的较早帧的特征向量来确定下一个当前均值。
在进一步的实施例中,在每个下一特征向量之后仅使用相应的下一个当前均值来确定所述下一个当前方差。
一些实施例涉及一种装备,其包括特征提取器,用于通过模数转换器接收来自麦克风的数字化音频的帧序列,用于确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定,用于使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值,用于使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差,用于确定针对所述帧序列中的每个后续帧的下一个特征向量,用于在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差,以及用于识别所提取的特征向量的识别级。
在进一步的实施例中,所述数字化音频是语音。
在进一步的实施例中,所述识别级包括解码器,所述解码器接收所确定的特征向量并确定所述数字化语音是否与认证的用户匹配。
在进一步的实施例中,在每个下一个特征向量之后,仅使用对应的下一个特征向量和所述帧序列的较早帧的特征向量来确定下一个当前均值。
一些实施例涉及一种装备,其包括用于接收来自麦克风的数字化音频的帧序列的装置;用于确定针对所述帧序列的第一帧的特征向量的装置,所述特征向量使用初始均值和初始方差来确定;用于使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值的装置;用于使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差的装置;装置,用于确定针对所述帧序列中的每个后续帧的下一个特征向量,用于在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和用于将所确定的特征向量发送到音频处理流水线的识别级的装置。
在进一步的实施例中,基于针对所述第一帧所确定的特征向量来设置所述初始均值和方差。
在进一步的实施例中,确定特征向量包括确定梅尔频率倒谱系数。
在进一步的实施例中,所述当前均值包括倒谱均值,并且所述当前方差包括倒谱方差。
在进一步的实施例中,确定下一个特征向量包括使用倒谱均值减法和倒谱方差归一化来确定下一个特征向量。
在进一步的实施例中,识别级包括用于解码的装置,所述用于解码的装置确定所述数字化语音是否与经认证的用户匹配。
一些实施例涉及一种计算系统,包括:用于接收语音的多个麦克风,用于将语音转换为数字化音频的帧序列的模数转换器,特征提取器,用于从模数转换器接收数字化音频的帧序列,用于确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定,用于使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值,用于使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差,用于确定针对所述帧序列中的每个后续帧的下一个特征向量,用于将帧序列的后续帧的每一个随后的帧更新为下一个当前均值,用于在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差,以及用于识别所提取的特征向量的识别级。
在进一步的实施例解码器中,所述解码器接收所确定的特征向量并确定所述数字化语音是否与经认证的用户匹配。
Claims (26)
1.一种方法,包括:
接收来自麦克风的数字化音频的帧序列;
确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定;
使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值;
使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差;
确定针对所述帧序列中的每个后续帧的下一个特征向量;
在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和
将所确定的特征向量发送到音频处理流水线的识别级。
2.根据权利要求1所述的方法,还包括:将所述初始均值和方差设置为针对所述数字化音频的估计值。
3.根据权利要求1或2所述的方法,其中,基于针对所述第一帧所确定的特征向量来设置所述初始均值和方差。
4.根据上述权利要求中任一项或多项所述的方法,其中,确定特征向量包括确定梅尔频率倒谱系数。
5.根据权利要求4所述的方法,其中,所述当前均值包括倒谱均值,并且所述当前方差包括倒谱方差。
6.根据权利要求5所述的方法,其中,确定下一个特征向量包括使用倒谱均值减法和倒谱方差归一化来确定下一个特征向量。
7.根据上述权利要求中任一项或多项所述的方法,其中,所述数字化音频是语音。
8.根据上述权利要求中任一项或多项所述的方法,其中,所述识别级包括解码器,所述方法还包括在所述解码器处接收所确定的特征向量,并在所述解码器处确定所述数字化语音是否与经认证的用户匹配。
9.根据上述权利要求中任一项或多项所述的方法,其中,在每个下一个特征向量之后仅使用对应的下一个特征向量和所述帧序列的较早帧的特征向量来确定下一个当前均值。
10.根据权利要求9所述的方法,其中,在每个下一特征向量之后仅使用相应的下一个当前均值来确定所述下一个当前方差。
11.一种在其上具有指令的机器可读介质,所述指令当由机器执行时使所述机器执行操作,所述操作包括:
接收来自麦克风的数字化音频的帧序列;
确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定;
使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值;
使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差;
确定针对所述帧序列中的每个后续帧的下一个特征向量;
在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和
将所确定的特征向量发送到音频处理流水线的识别级。
12.根据权利要求11所述的介质,其中确定特征向量包括确定梅尔频率倒谱系数。
13.如权利要求12所述的介质,其中,所述当前均值包括倒谱均值,并且所述当前方差包括倒谱方差。
14.根据权利要求13所述的介质,其中,确定下一特征向量包括使用倒谱均值减法和倒谱方差归一化来确定下一个特征向量。
15.根据权利要求1-14中任一项或多项所述的介质,其中,在每个下一个特征向量之后仅使用对应的下一个特征向量和所述帧序列的较早帧的特征向量来确定下一个当前均值。
16.根据权利要求15所述的介质,其中,在每个下一个特征向量之后,仅使用相应的下一个当前均值来确定下一个当前方差。
17.一种装备,包括:
特征提取器,用于通过模数转换器接收来自麦克风的数字化音频的帧序列,用于确定针对所述帧序列的第一帧的特征向量,所述特征向量使用初始均值和初始方差来确定,用于使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值,用于使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差,用于确定针对所述帧序列中的每个后续帧的下一个特征向量,用于在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和
识别级,用于识别所提取的特征向量。
18.根据权利要求17所述的装备,其中,所述数字化音频是语音。
19.根据权利要求17或18所述的装备,其中,所述识别级包括解码器,所述解码器接收所确定的特征向量并确定所述数字化语音是否与经认证的用户匹配。
20.根据权利要求17、18或19所述的装备,其中,在每个下一个特征向量之后仅使用对应的下一个特征向量和所述帧序列的较早帧的特征向量来确定下一个当前均值。
21.一种装备,包括:
用于接收来自麦克风的数字化音频的帧序列的装置;
用于确定针对所述帧序列的第一帧的特征向量的装置,所述特征向量使用初始均值和初始方差来确定;
用于使用针对所述第一帧的所确定的特征向量来将所述初始均值更新为当前均值的装置;
用于使用所述当前均值和针对所述第一帧的所确定的特征向量来将所述方差更新为当前方差的装置;
装置,用于确定针对所述帧序列中的每个后续帧的下一个特征向量,用于在确定针对每个后续帧的下一个特征向量之后,将所述当前均值更新为下一个当前均值并将所述当前方差更新为下一个当前方差,并且其中确定针对后续帧的特征向量包括使用所述下一个当前均值和所述下一个当前方差;和
用于将所确定的特征向量发送到音频处理流水线的识别级的装置。
22.根据权利要求21所述的装备,其中,基于针对所述第一帧所确定的特征向量来设置所述初始均值和方差。
23.根据权利要求21或22所述的装备,其中,确定特征向量包括确定梅尔频率倒谱系数。
24.根据权利要求23所述的装备,其中,所述当前均值包括倒谱均值,并且所述当前方差包括倒谱方差。
25.根据权利要求24所述的装备,其中确定下一个特征向量包括使用倒谱均值减法和倒谱方差归一化来确定下一个特征向量。
26.根据权利要求21至25中任一项或多项所述的装备,其中所述识别级包括用于解码的装置,所述用于解码的装置确定所述数字化语音是否与经认证的用户匹配。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/PL2014/000151 WO2016105216A1 (en) | 2014-12-22 | 2014-12-22 | Cepstral variance normalization for audio feature extraction |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107112011A true CN107112011A (zh) | 2017-08-29 |
CN107112011B CN107112011B (zh) | 2021-11-09 |
Family
ID=52434926
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480083583.7A Active CN107112011B (zh) | 2014-12-22 | 2014-12-22 | 用于音频特征提取的倒谱方差归一化 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10629184B2 (zh) |
CN (1) | CN107112011B (zh) |
WO (1) | WO2016105216A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN111462762A (zh) * | 2020-03-25 | 2020-07-28 | 清华大学 | 一种说话人向量正则化方法、装置、电子设备和存储介质 |
CN113077787A (zh) * | 2020-12-22 | 2021-07-06 | 珠海市杰理科技股份有限公司 | 语音数据的识别方法、装置、芯片及可读存储介质 |
CN117011922A (zh) * | 2023-09-26 | 2023-11-07 | 荣耀终端有限公司 | 人脸识别方法、设备和存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020253941A1 (en) * | 2019-06-17 | 2020-12-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
CN112509598B (zh) * | 2020-11-20 | 2024-06-18 | 北京小米松果电子有限公司 | 音频检测方法及装置、存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0865033A2 (en) * | 1997-03-13 | 1998-09-16 | Canon Kabushiki Kaisha | Normalization of speech signals |
CN1264892A (zh) * | 1999-02-23 | 2000-08-30 | 摩托罗拉公司 | 语音识别系统及其方法 |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
CN1839427A (zh) * | 2003-08-22 | 2006-09-27 | 夏普株式会社 | 信号分析装置、信号处理装置、语音识别装置、信号分析程序、信号处理程序、语音识别程序、记录介质和电子设备 |
CN101572090A (zh) * | 2008-04-30 | 2009-11-04 | 向为 | 一种自适应多速率窄带编码方法及编码器 |
US7907688B2 (en) * | 2005-05-31 | 2011-03-15 | Intel Corporation | Open loop MIMO receiver and method using hard decision feedback |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
WO2013147634A1 (en) * | 2012-03-30 | 2013-10-03 | Intel Corporation | Receiver with improved noise variance estimation |
CN103621034A (zh) * | 2011-06-30 | 2014-03-05 | 英特尔公司 | 噪声估计滤波器 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602005026949D1 (de) * | 2004-01-12 | 2011-04-28 | Voice Signal Technologies Inc | Normierung von cepstralen Merkmalen für die Spracherkennung |
US7707029B2 (en) * | 2005-02-08 | 2010-04-27 | Microsoft Corporation | Training wideband acoustic models in the cepstral domain using mixed-bandwidth training data for speech recognition |
US7930178B2 (en) * | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
EP2189976B1 (en) * | 2008-11-21 | 2012-10-24 | Nuance Communications, Inc. | Method for adapting a codebook for speech recognition |
US9653070B2 (en) * | 2012-12-31 | 2017-05-16 | Intel Corporation | Flexible architecture for acoustic signal processing engine |
US9378729B1 (en) * | 2013-03-12 | 2016-06-28 | Amazon Technologies, Inc. | Maximum likelihood channel normalization |
-
2014
- 2014-12-22 WO PCT/PL2014/000151 patent/WO2016105216A1/en active Application Filing
- 2014-12-22 US US15/528,068 patent/US10629184B2/en active Active
- 2014-12-22 CN CN201480083583.7A patent/CN107112011B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0865033A2 (en) * | 1997-03-13 | 1998-09-16 | Canon Kabushiki Kaisha | Normalization of speech signals |
CN1264892A (zh) * | 1999-02-23 | 2000-08-30 | 摩托罗拉公司 | 语音识别系统及其方法 |
US6999926B2 (en) * | 2000-11-16 | 2006-02-14 | International Business Machines Corporation | Unsupervised incremental adaptation using maximum likelihood spectral transformation |
CN1839427A (zh) * | 2003-08-22 | 2006-09-27 | 夏普株式会社 | 信号分析装置、信号处理装置、语音识别装置、信号分析程序、信号处理程序、语音识别程序、记录介质和电子设备 |
US7907688B2 (en) * | 2005-05-31 | 2011-03-15 | Intel Corporation | Open loop MIMO receiver and method using hard decision feedback |
CN101572090A (zh) * | 2008-04-30 | 2009-11-04 | 向为 | 一种自适应多速率窄带编码方法及编码器 |
CN103621034A (zh) * | 2011-06-30 | 2014-03-05 | 英特尔公司 | 噪声估计滤波器 |
WO2013147634A1 (en) * | 2012-03-30 | 2013-10-03 | Intel Corporation | Receiver with improved noise variance estimation |
CN103280220A (zh) * | 2013-04-25 | 2013-09-04 | 北京大学深圳研究生院 | 一种实时的婴儿啼哭声识别方法 |
Non-Patent Citations (2)
Title |
---|
CONG-THANH DO ET AL.: ""COMBINING CEPSTRAL NORMALIZATION AND COCHLEAR IMPLANT-LIKE SPEECH"", 《2012 IEEE SPOKEN LANGUAGE TECHNOLOGY WORKSHOP(SLT)》 * |
PERE PUJOL.ET AL: ""ON REAL-TIME MEAN-AND-VARIANCE NORMALIZATION OF SPEECH RECOGNITION FEATURES"", 《2006 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS SPEECH AND SIGNAL PROCESSING PROCEEDINGS》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108922556A (zh) * | 2018-07-16 | 2018-11-30 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN108922556B (zh) * | 2018-07-16 | 2019-08-27 | 百度在线网络技术(北京)有限公司 | 声音处理方法、装置及设备 |
CN111462762A (zh) * | 2020-03-25 | 2020-07-28 | 清华大学 | 一种说话人向量正则化方法、装置、电子设备和存储介质 |
CN111462762B (zh) * | 2020-03-25 | 2023-02-24 | 清华大学 | 一种说话人向量正则化方法、装置、电子设备和存储介质 |
CN113077787A (zh) * | 2020-12-22 | 2021-07-06 | 珠海市杰理科技股份有限公司 | 语音数据的识别方法、装置、芯片及可读存储介质 |
CN117011922A (zh) * | 2023-09-26 | 2023-11-07 | 荣耀终端有限公司 | 人脸识别方法、设备和存储介质 |
CN117011922B (zh) * | 2023-09-26 | 2024-03-08 | 荣耀终端有限公司 | 人脸识别方法、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2016105216A1 (en) | 2016-06-30 |
US10629184B2 (en) | 2020-04-21 |
CN107112011B (zh) | 2021-11-09 |
US20180322863A1 (en) | 2018-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20240038218A1 (en) | Speech model personalization via ambient context harvesting | |
US10469967B2 (en) | Utilizing digital microphones for low power keyword detection and noise suppression | |
US10381004B2 (en) | Display apparatus and method for registration of user command | |
US10325590B2 (en) | Language model modification for local speech recognition systems using remote sources | |
CN107112011A (zh) | 用于音频特征提取的倒谱方差归一化 | |
US9953634B1 (en) | Passive training for automatic speech recognition | |
US20240021202A1 (en) | Method and apparatus for recognizing voice, electronic device and medium | |
CN107112006A (zh) | 基于神经网络的语音处理 | |
US20160365096A1 (en) | Training classifiers using selected cohort sample subsets | |
US9947323B2 (en) | Synthetic oversampling to enhance speaker identification or verification | |
US11200903B2 (en) | Systems and methods for speaker verification using summarized extracted features | |
KR20180025634A (ko) | 음성 인식 장치 및 방법 | |
US20190362709A1 (en) | Offline Voice Enrollment | |
KR20190093962A (ko) | 화자 인식을 수행하기 위한 음성 신호 처리 방법 및 그에 따른 전자 장치 | |
WO2020140609A1 (zh) | 一种语音识别方法、设备及计算机可读存储介质 | |
US20180366127A1 (en) | Speaker recognition based on discriminant analysis | |
WO2020003413A1 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN115699170A (zh) | 文本回声消除 | |
US10540990B2 (en) | Processing of speech signals | |
US12002475B2 (en) | Electronic device performing speaker recognition and control method thereof | |
JP7291099B2 (ja) | 音声認識方法及び装置 | |
US20190378496A1 (en) | Recognition device, method and storage medium | |
CN110895929B (zh) | 语音识别方法及装置 | |
JP7287442B2 (ja) | 情報処理装置、制御方法、及びプログラム | |
CN108417208A (zh) | 一种语音输入方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |