CN1653519A - 通过分析源信号的冗余特征进行稳健话音识别的方法 - Google Patents
通过分析源信号的冗余特征进行稳健话音识别的方法 Download PDFInfo
- Publication number
- CN1653519A CN1653519A CNA038106914A CN03810691A CN1653519A CN 1653519 A CN1653519 A CN 1653519A CN A038106914 A CNA038106914 A CN A038106914A CN 03810691 A CN03810691 A CN 03810691A CN 1653519 A CN1653519 A CN 1653519A
- Authority
- CN
- China
- Prior art keywords
- features
- signal
- primary features
- transformation
- input speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000009466 transformation Effects 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000006870 function Effects 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 230000003595 spectral effect Effects 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 7
- 238000012986 modification Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 description 43
- 238000005516 engineering process Methods 0.000 description 11
- 230000008901 benefit Effects 0.000 description 7
- 241001014642 Rasta Species 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 238000007796 conventional method Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000012925 reference material Substances 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
通过分析冗余特征对数字化语音信号进行处理以提供更稳健的话音识别的方法。对源语音信号应用初级变换,从中提取初级特征。对所述源语音信号或对所提取的初级特征应用至少一个次级变换的每一个,以得到至少一组和所述初级特征统计上相关的次级特征。然后至少应用一个预先确定的函数对所述初级特征和所述次级特征进行联合。通过对这一联合和预先确定的话音识别模板进行模式匹配产生识别答案。
Description
背景
1.发明领域
本发明涉及话音识别技术和电路,尤其涉及通过分析源信号的冗余特征进行更准确和容噪的稳健话音识别的系统。
2.有关技术的描述
为了识别语音的根本内容,已经开发了多种信号处理技术对数字化语音信号进行分析。一旦被识别,这个内容就可以用来控制手持电话、计算机、家用电器或其他设备。一些已知技术使用语音信号的短时傅立叶谱或“谱图”,使用加窗傅立叶变换算出它们,在Rabiner等人的《语音识别基础》(Fundamentals of SpeechRecognition)中对此有更完整的说明,整体引用在此作为参考。
图1说明一种已知的用于谱分析的谱特征提取器100,包括加窗102、FFT 104、MEL/BARK滤波106、对数108和RASTA滤波110几个阶段。数字化输入语音信号101输到加窗阶段102,在这里把输入信号分隔成较小尺寸的有合适时长的片段,比如20毫秒。FFT阶段104对阶段102输出的加窗片段进行快速傅立叶变换。MEL/BARK阶段106把线性频谱刻度缩放到不同的比例,使较低频率的分辨率比较高频率的分辨率高。在听觉范围内从低频到高频,频率缩放的分辨率逐渐变粗。MEL缩放和BARK缩放是两种已知的导致上述频率伸缩的变换。这两种缩放(以及一些变体)在语音识别中得到广泛使用。对数阶段108对输入数值取对数,更具体地说,对每个MEL/BARK变换后的谱值进行对数运算。在多种已知的出版物中都描述了上述的阶段102-108,其中一个例子就是上面引用的Rabiner等人的《语音识别基础》一书。
RASTA阶段110用预先定义的带通滤波器对对数阶段108的输出进行滤波。例如,如果有16个BARK数值,就会有16个滤波器对每个BARK带进行操作。RASTA阶段110可以用任何已知的RASTA处理技术实现,其中一个例子在Hermansky等人的标题为“Auditory Model for Parameterization of Speech(语音参数化的听觉模型)”的美国专利第5450522号中有描述,整体引用在此。
谱特征提取器100的输出是谱输出信号111,然后用各种后续技术(没有示出)对它进行处理,得到给出输入语音信号的预测内容的“识别答案”。基于这种谱输出信号111的识别答案在低噪声环境下提供很高的准确度。更有利的是,信噪比下降导致的准确度缓慢地降级。可以进一步以各种方式对谱输出信号进行处理。例如,一种方法还对谱输出信号111做倒谱变换112以得到倒谱输出信号114。例如,倒谱变换112的一种类型使用离散余弦变换(DCT)然后降低维数。一般而言, “倒谱”解释为信号功率谱的对数的傅立叶逆变换,在下面的参考材料中有更多论述,整体引用在此做为参考:A.V.Oppenheim和R.W.Schafer的《离散时间信号处理》(Discrete-Time Signal Processing),J.R.Deller、J.G.Proakis和J.H.L.Hansen的《语音信号的离散时间处理》(Discrete-Time Processing of Speech Signals),L.R.Rabiner和R.W.Schafer的《语音信号的数字处理》(Digital Processing ofSpeech Signals)。
在计算倒谱114的系统中,使用统计建模技术对倒谱(而不是谱111)进行处理以得到识别答案。把识别答案基于倒谱输出信号114的一个好处是它们在噪声电平较低时提供更准确的话音识别。但是,对这些系统而言,随着噪声上升,错误率上升很快。因此,谱和倒谱话音识别对于可能遇到宽噪声电平范围的应用来说都不是完全足够的。
发明内容
一般而言,本发明涉及处理数字化语音信号以进行话音识别的方法。常规方法通过在识别前先去掉输入语音的冗余特征而寻求简洁和简单,本发明却与之不同,本发明有目的地保留并分析源信号的冗余特征,以便在多种声学环境里进行准确的语音识别。对数字化源语音信号应用初级变换,从中提取初级特征。一个例子是应用谱变换以提取谱特征。对所述源语音信号或所提取的谱特征应用至少一个次级变换的每一个,得到至少一组次级特征。每个次级变换都设计成产生包含有在所提取的初级特征中已经有的一些信息的数据。然后,使用至少一个预先确定的函数把所述初级特征和所述次级特征进行联合。通过对这一联合和一组预先确定的话音识别模板进行模式匹配而产生识别答案。
本发明给其用户提供了很多不同的优势。首先,本发明在不牺牲低噪声环境下的性能的同时,在噪声电平上升时提供准确的话音识别。这一点和常规的倒谱话音识别系统不同,常规倒谱话音识别系统的性能随着噪声上升下降得很快,和常规的谱话音识别系统也不同,常规的谱话音识别系统的性能随着噪声上升下降较慢,但却牺牲了低噪声环境下的部分性能。本发明还给用户提供了很多其他优势和益处,这些优势和益处在本发明下面的描述中将变得清楚。
附图简述
图1是已知的谱和倒谱处理系统的硬件元件及其互连的方框图。
图2是话音识别系统的一个实施例的硬件元件及其互连的方框图。
图3是数字数据处理机的方框图。
图4示出了一种示例性的信号承载媒介。
图5示出了一种示例性的无线电话。
图6是使用语音的冗余特征进行话音识别的操作顺序的流程图。
发明详述
结合附图理解下面的详细描述,本发明的特性、目的和优势对本领域的熟练技术人员将变得更清楚。
硬件元件及其互连
总体结构
本发明的一个方面涉及话音识别系统,该系统可以在多种硬件元件及其互连中实施,一个例子由图2所示的话音识别系统200描述。系统200用来处理输入语音信号201,即数字化语音信号。可选择的是,系统200可以包括一个数模转换器(DAC)来对模拟输入语音信号进行数字化。所述输入语音信号201输入到谱特征提取器202,谱特征提取器202是从输入语音信号201中提取谱特征的电路。作为一个例子,提取器202可以用类似于图1所示的谱特征提取器100那样的元件实施。
提取器202的输出202a是一个或多个谱输出信号,例如谱特征矢量。输出202a输入到次级变换模块204。次级变换模块204应用一个预先确定的函数以提供次级输出204a。在图示例子中,模块204应用倒谱变换,其中次级输出204a是一组倒谱矢量。模块204的次级特征信号204a输入到特征联合模块206。上述实施例中次级变换模块204接收提取器202的输出202a,作为其替代,模块204也可以接收原始输入语音信号201。在又一实施例中,可以有多个次级变换模块204,每个都对输入语音信号201或谱输出202a应用不同的函数。
在任一情况下,上述对谱和倒谱特征的描述只是示例性的,但是本发明的范围构想很多不同的初级变换和次级变换(不限于谱和倒谱)。例如,谱特征提取器202和其谱特征202a可以用任何执行一次或较高次变换以产生输入语音信号的时频表征的合适的初级特征提取器202来表征。一些例子包括谱变换、小波变换、调制谱和累积量等等。
每个次级变换都可以通过离散余弦变换(产生倒谱)、主分量变换、或所述初级特征到另一已知的或用户定义的空间的其他投影来实现。次级特征可以数学生成、经验生成或以其他方式生成。无论如何,每组次级特征和所述初级特征“统计上相关”,意味着所述次级特征通过数学函数和所述初级特征有关。换句话说,对所述初级特征应用数学函数就有可能得到所述次级特征。例如,所述次级特征可以通过相关(包括但不限于加、减、乘上因子再加、或其他组合)、非线性处理或其他技术和所述初级特征有关。所述初级特征可以或者不可以从所述次级特征中数学上再生。然后,作为例子,模块204的倒谱特征与提取器202的谱特征统计上相关,而实际上,图示的倒谱矢量是用倒谱对谱矢量进行数学上的变换得到的。因此,输出202a和204a包含有关于输入语音信号201的冗余信息。
在常规方法中,谱或其他初级输出信号除了做进一步下游(串行)处理外不再用得到,本发明与之不同,本发明中谱输出信号202a和它们在次级变换中的使用是分开分析的。即,输出信号202a直接输入到特征联合模块206作分析。
模块206把谱输出信号202a和次级输出信号204a进行联合。这一联合可以以各种方式进行。例如,信号202a和204a可以用串联、线性判别式分析(LDA)、主分量变换(PCT)或其他对两个输入202a和204a一起应用的函数等联合。在一个不同的实施例中,模块206可以包括处理子元件206a和206b,它们分别修改信号202a和204a之一或两者,然后模块206把修改后的信号202a和204a进行联合。如果执行了不止一个次级变换204,那么模块206就可以包括同等数量的元件206b。每个子元件206a和206b都可以执行各种功能,例如用固定或可变的系数对其输入信号进行缩放(即,相乘)、改变输入信号的指数、对输入信号乘上自身一次或多次(自乘)、或其他一个或多个线性或非线性过程。在本实施例中,修改后的信号用前述技术之一进行联合,即串联、LDA、PCT等等。
如上所述,可以有多个次级变换模块204,每个都接收一个诸如输入信号201或提取器202的输出202a这样的输入信号。在这种实施例中,所述特征联合模块206仍然用于把谱特征信号和次级变换输出信号联合,虽然所述次级变换输出信号来自多个不同的模块204。
所述特征联合模块206把其输出输入到统计建模引擎208,后者也称为“识别器”或“模式匹配”单元。引擎208可以通过很多已知的技术来实现,引擎208产生输出,即识别答案210。所述识别答案210组成系统200对输入语音信号210的含义的估计。引擎208包括训练输入208a,用于接收训练引擎208的输入来识别某种模型或样本语音模式。作为特例,引擎208可以把模块206的输出在查找表中交叉对照以得到输入语音信号201所表示的含义,即,它的“答案”。
示例性数字数据处理装置
如上所述,诸如提取器202、次级变换模块204、特征联合模块206、统计建模引擎208等数据处理实体可以以各种形式实现。例如,每个这类元件(或者两个或更多元件一起)都可以用数字数据处理装置实现,就象图3所示的数字数据处理装置300的硬件元件及其互连的例示。
装置300包括耦合到存储器304的处理器302,例如微处理器、个人电脑、工作站或其他处理机。在当前例子中,存储器304包括快速存取存储器306和非易失性存储器308。快速存取存储器306的一个例子是随机存取存储器(“RAM”),用来存储由处理器302所执行的程序指令。非易失性存储器308可以是,例如,电池备份RAM、EEPROM、一个或多个诸如“硬驱”这样的磁性数据存储盘、磁带驱动器或任何其他合适的存储设备。装置300也包括输入/输出310,例如线、总线、电缆、电磁链路或其他使处理器302与装置300外部的其他硬件交换数据的装置。
尽管以上具体的描述,然而本领域的普通技术人员(从本发明获益)会认识到,上面论述的装置可以在不同构造的机器上实现,而不脱离本发明的范围。作为特例,306和308元件之一可以去掉;还有,存储器304、306和/或308可以在处理器302上提供,或者,甚至可以在装置300外部提供。
逻辑电路
和上面论述的数字数据处理装置形成对比,本发明的另一种不同的实施例使用逻辑电路而不是由计算机执行的指令来实现系统200的一个或全部元件。依照应用在速度、费用、工具成本等方面的特别要求,这种逻辑可以通过构造具有成千上万个微集成晶体管的专用集成电路(“ASIC”)来实现。这种ASIC可以用CMOS、TTL、VLSI或其他合适的构件实现。其他替代品包括数字信号处理芯片(“DSP”)、离散电路(例如电阻器、电容器、二极管、电感器和晶体管)、场可编程门阵列(“FPGA”)、可编程逻辑阵列(“PLA”)等等。
无线电话应用
在一个示例性应用中,话音识别系统200可以和无线电话领域已知的其他电路一起在无线电话500(图5)中实现。电话500包括扬声器508、用户接口510、麦克风514、收发器504、天线506和管理器502。管理器502可以用上面结合图3-4论述的电路来实现,它管理元件504、508、510和514之间的操作和信号路由。管理器502包括由系统200实施的话音识别模块502a,用来执行这样的功能:电话500的操作者关于拨号、呼叫管理等等语音命令的解码。
操作
已经描述了本发明的结构特征,现在将描述本发明的操作方面。常规方法通过在分析前去掉输入语音的冗余特征而寻求操作的简洁和简单,本发明与之不同,本发明有目的地分析源信号的冗余特征,以便在多种声学环境里进行准确的话音识别。
信号承载媒介
不论本发明的功能使用一个或多个机器可执行的程序顺序在哪里实现,这些顺序都可以在各种形式的媒介上实施。在图3的情况下,这种信号承载媒介可以是,例如,存储器304或其他信号承载媒介,例如磁性数据存储盘400(图4),由处理器302直接或间接地存取。不论包含在存储器306、磁盘400或其他地方,这些指令都可以被存储在多种机器可读的数据存储媒介上。一些例子包括直接存取存储器(例如,常规的“硬驱”、廉价磁盘冗余阵列(“RAID”)、或其他直接存取存储设备(“DASD”)),诸如磁带或光带这样的串行存取存储器,电子非易失性存储器(例如,ROM、EPROM或EEPROM),电池备份RAM,光学存储器(例如,CD-ROM、WORM、DVD、数字光带),纸“打孔”卡,或其他合适的信号承载媒介,包括模拟或数字传输媒介与模拟通信链路以及无线通信。在本发明的说明性实施例中,机器可读指令可以是从汇编语言或C语言等语言编译得到的软件目标代码。
逻辑电路
和上面论述的信号承载媒介形成对比,可以使用逻辑电路而不是使用指令处理机来实现本发明的部分或全部功能。因此,这些逻辑电路配置成执行能实现本发明方法的操作。这些逻辑电路可以使用上面论述的很多不同类型的电路来实现。
操作的总体顺序
图6显示的顺序600说明了一个示例性的话音识别过程。一般而言,这个顺序用来通过分析冗余特征来处理语音信号提供更加噪声稳健的话音识别。为了解释方便,但没有任何有意的限制,图6的例子在上述话音识别系统200的环境中描述。
所述顺序从步骤602开始,在步骤602进行系统200的训练。在所述训练步骤602中,具有期望特征的输入语音信号201(“训练语音”)输入到谱特征提取器202,而步骤604、606和608(在下面论述)使用这个输入语音信号执行。例如,训练语音可以是模型语音(对于和说话人无关的系统),或是特定人的样本语音(对于和说话人有关的系统)。特征提取模块206的输出形成话音识别模板,通过以下使话音识别模板与训练语音有关:准备训练输入208a(表示训练语音的内容),把输入208a提供给统计建模引擎208,并指示引擎208在将来系统200遇到和训练语音相似的语音的任何时候产生期望的识别答案。例如,如果训练语音信号201是单词“lesson”,就把文本“lesson”输入到和训练语音信号201相关的引擎208。更多对训练的论述可以在很多资料中找到,因为很多训练话音识别系统的不同技术在本领域内是众所周知的。一些示例性的训练方法在如下材料中有论述,每个材料整体引用在此作为参考:(1)1999年2月8日提交的标题为“VoiceRecognition Rejection Scheme(话音识别拒绝方法)”的美国专利申请第09/248513号,(2)1999年1月4日提交的标题为“System and Method forSegmentation and Recognition of Speech Signals(用于语音信号分段和识别的系统和方法)”的美国专利申请第09/225891号,(3)2000年7月13日提交的标题为“Method and Apparatus for Constructing Voice Templates for aSpeaker-Independent Voice Recognition System(为和说话人无关的话音识别系统构建话音模板的方法和装置)”的美国专利申请第09/615572号。按照要求或需要,可以在以后进行附加的训练(没有示出)。
在实施了一些训练602后,把非训练输入语音信号201输入到谱特征提取器202(步骤604)。这个信号201就是要求话音识别的信号。也是在步骤604,提取器202对输入语音信号201进行谱变换,从输入语音信号201中提取谱特征,并且把所提取的谱特征作为输出202a。一个示例性的谱特征提取技术包括线性预测编码(LPC),LPC在标题为“可变速率编码器”的美国专利第5414796号中有论述,整体引用在此做为参考;LPC在上面引用的Rabiner等人的《语音信号数字处理》参考材料中也有论述。
在步骤606中,次级变换模块204对谱输出202a应用次级变换。在示例性例子中,模块204对谱输出202a应用倒谱变换。可选择的是,步骤606也可以和图示变换204并行地执行一个或多个附加的次级变换(倒谱或其他类型)。如上所述,所有次级变换都和步骤604的谱变换在统计上有关,意味着在输出202a和204b中带有一些共同的信息。
在步骤608,模块206把谱输出202a和模块204及任何其他的次级变换模块(如果实现的话)的次级输出204a进行联合。为了论述方便,当前例子仅限于使用单次次级变换的情况。如上所述,步骤608的联合可以以不同方式进行。例如,模块206可以用串联、LDA、PCT或其他函数把信号202a和204a进行联合。在一个不同的实施例中,处理子元件206a和206b首先分开修改一个或多个信号202a和204a,然后模块206把修改后的信号进行联合。每个子元件206a和206b可以执行这样的函数:例如用固定或可变的系数对输入信号进行缩放(即,相乘),改变输入信号的指数,对输入信号乘上自身一次或多次(自乘),或其他一个或多个线性或非线性处理。在本实施例中,被206a和206b修改后的信号用上述技术之一,即串联、LDA、PCT等等,进行联合。
在步骤610,统计建模引擎208产生识别答案,表示输入语音信号201的估计内容。通过对来自模块206的信号和在步骤602中准备的一组预先确定的话音识别模板进行模式匹配,从而执行步骤610。
其他实施例
前面的描述给出了本发明的许多示例性实施例,同时,对本领域的熟练技术人员来说,很明显,在不脱离所附权利要求书中定义的本发明范围内可以进行不同的变化和修改。还有,虽然本发明的元件可能以单数形式描述或申明,但除非特别表明限于单数,否则都构想包括复数形式。另外,本领域的普通技术人员会认识到所述操作顺序为了解释或申明的目的必须以某种特定次序提出,但本发明构想这种特定次序之外的各种变化。
Claims (28)
1.对语音信号进行处理的一种方法,所述方法包括以下操作:
对数字输入语音信号应用初级变换,从中提取初级特征;
对所述输入语音信号和所述初级特征之一应用至少一个次级变换的每一个,以得到和所述初级特征统计上相关的次级特征;
至少应用一个预先确定的函数以形成一个联合信号,包括所述初级特征和所述次级特征的联合;
通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。
2.如权利要求1所述的方法,其特征在于,所述初级变换是谱变换。
3.如权利要求1所述的方法,其特征在于,所述初级变换是输入语音信号的时频表征的产物。
4.如权利要求1所述的方法,其特征在于,所述初级变换是谱变换,而所述次级变换是倒谱变换。
5.如权利要求1所述的方法,其特征在于,所述预先确定的函数包括:
至少使用下面方法中的一种对所述初级特征和所述次级特征进行联合:线性判别式分析,主分量变换,串联。
6.如权利要求1所述的方法,其特征在于,所述预先确定的函数包括:
分别修改一个或多个如下特征:初级特征,次级特征;
至少应用一个预先确定的函数以形成一个联合信号,所述联合信号是包括任何修改的所述初级特征和包括任何修改的所述次级特征的联合。
7.如权利要求6所述的方法,其特征在于,所述分别修改操作的每一个至少包括下面方法中的一种:
缩放,改变功率,自乘,求幂。
8.如权利要求1所述的方法,其特征在于,还包括:
通过对预先确定的训练信号执行每一个所述应用和产生操作而形成话音识别模板。
9.一种确实实施机器可读的指令程序的承载信号的媒介,所述指令可以由数字处理装置执行以执行处理语音信号的操作,所述操作包括:
对数字输入语音信号应用初级变换,从中提取初级特征;
对所述输入语音信号和所述初级特征之一应用至少一个次级变换的每一个,以得到和所述初级特征统计上相关的次级特征;
至少应用一个预先确定的函数以形成一个联合信号,所述联合信号包括所述初级特征和所述次级特征的联合;
通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。
10.如权利要求9所述的媒介,其特征在于,所述初级变换是谱变换。
11.如权利要求9所述的媒介,其特征在于,所述初级变换是输入语音信号的时频表征的产物。
12.如权利要求9所述的媒介,其特征在于,所述初级变换是谱变换,而所述次级变换是倒谱变换。
13.如权利要求9所述的媒介,其特征在于,所述预先确定的函数是:
至少使用下面方法中的一种对所述初级特征和所述次级特征进行联合:线性判别式分析,主成份转移,串联。
14.如权利要求9所述的媒介,其特征在于,所述预先确定的函数包括:
分别修改一个或多个如下特征:初级特征,次级特征;
至少应用一个预先确定的函数以形成一个联合信号,所述联合信号是包括任何修改的所述初级特征和包括任何修改的所述次级特征的联合。
15.如权利要求14所述的媒介,其特征在于,所述分别修改操作的每一个至少包括下面方法中的一种:
缩放,改变功率,自乘,求幂。
16.如权利要求9所述的媒介,其特征在于,还包括:
通过对预先确定的训练信号执行所述应用和产生操作的每一个而形成话音识别模板。
17.配制成执行处理数字信号的操作的多个互连的电导元件的电路,所述操作包括:
对数字输入语音信号应用初级变换,从中提取初级特征;
对所述输入语音信号和所述初级特征之一应用至少一个次级变换的每一个,得到和所述初级特征统计上相关的次级特征;
至少应用一个预先确定的函数以形成一个联合信号,所述联合信号包括所述初级特征和所述次级特征的联合;
通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。
18.如权利要求17所述的电路,其特征在于,所述初级变换是谱变换。
19.如权利要求17所述的电路,其特征在于,所述初级变换是输入语音信号的时频表征的产物。
20.如权利要求17所述的电路,其特征在于,所述初级变换是谱变换,而所述次级变换是倒谱变换。
21.如权利要求17所述的电路,其特征在于,所述预先确定的函数是:
至少使用下面方法中的一种对所述初级特征和所述次级特征进行联合:线性判别式分析,主分量变换,串联。
22.如权利要求17所述的电路,其特征在于,所述预先确定的函数包括:
分别修改一个或多个如下特征:初级特征,次级特征;
至少应用一个预先确定的函数以形成一个联合信号,所述联合信号是包括任何修改的所述初级特征和包括任何修改的所述次级特征的联合。
23.如权利要求22所述的电路,其特征在于,所述分别修改操作的每一个至少包括下面方法中的一种:
缩放,改变功率,自乘,求幂。
24.如权利要求17所述的电路,其特征在于,还包括:
通过对预先确定的训练信号执行所述应用和产生操作的每一个而形成话音识别模板。
25.一种话音识别系统,包括:
初级特征提取器,应用初级函数从数字输入语音信号中提取初级特征;
至少一个次级变换模块,每个都对所述输入语音信号和所述初级特征之一组成的输入应用次级函数,以产生和所述初级特征统计上相关的次级特征;
耦合到所述初级特征提取器和所述次级变换模块的每一个的特征联合模块,应用一个或多个预先确定的函数对所述初级特征和所述次级特征进行联合以形成一个联合信号;
统计建模引擎,耦合到所述特征联合模块,通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。
26.一种话音识别系统,包括:
初级特征提取器装置,应用初级函数从数字输入语音信号中提取初级特征;
次级变换装置,对所述输入语音信号和所述初级特征之一组成的输入应用至少一个次级函数,以产生和所述初级特征统计上相关的次级特征;
特征联合装置,应用一个或多个预先确定的函数对所述初级特征和所述次级特征进行联合以形成一个联合信号;
统计建模装置,通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。
27.一种无线通信设备,包括:
耦合到天线的收发器;
扬声器;
麦克风;
用户接口;
耦合到包括收发器、扬声器、麦克风和用户接口在内元件的用来管理所述元件的操作的管理器,所述管理器包括配置成执行以下操作的话音识别系统:
对数字输入语音信号应用初级变换,从中提取初级特征;
对所述输入语音信号和所述初级特征之一应用至少一个次级变换的每一个,以得到和所述初级特征统计上相关的次级特征;
至少应用一个预先确定的函数以形成一个联合信号,所述联合信号是所述初级特征和所述次级特征的联合;
通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。
28.一种无线通信设备,包括:
耦合到天线的收发器;
扬声器;
麦克风;
用户接口;
用于管理收发器、扬声器、麦克风和用户接口的装置:
所述用于管理的装置还包括执行话音识别的装置,通过:
对数字输入语音信号应用初级变换,从中提取初级特征;
对所述输入语音信号和所述初级特征之一应用至少一个次级变换的每一个,以得到和所述初级特征统计上相关的次级特征;
至少应用一个预先确定的函数以形成一个联合信号,所述联合信号是所述初级特征和所述次级特征的联合;
通过对所述联合信号和预先确定的话音识别模板进行模式匹配而产生识别答案。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/104,178 | 2002-03-20 | ||
US10/104,178 US6957183B2 (en) | 2002-03-20 | 2002-03-20 | Method for robust voice recognition by analyzing redundant features of source signal |
PCT/US2003/008806 WO2003081576A1 (en) | 2002-03-20 | 2003-03-19 | Method for robust voice recognition by analyzing redundant features of source signal |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1653519A true CN1653519A (zh) | 2005-08-10 |
CN1653519B CN1653519B (zh) | 2012-04-04 |
Family
ID=28040524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN038106914A Expired - Fee Related CN1653519B (zh) | 2002-03-20 | 2003-03-19 | 通过分析源信号的冗余特征进行稳健话音识别的方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6957183B2 (zh) |
CN (1) | CN1653519B (zh) |
AU (1) | AU2003225928A1 (zh) |
MX (1) | MXPA04009077A (zh) |
TW (1) | TWI300214B (zh) |
WO (1) | WO2003081576A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102290047A (zh) * | 2011-09-22 | 2011-12-21 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN102646415A (zh) * | 2012-04-10 | 2012-08-22 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
Families Citing this family (113)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
JP2005043666A (ja) * | 2003-07-22 | 2005-02-17 | Renesas Technology Corp | 音声認識装置 |
US6995622B2 (en) * | 2004-01-09 | 2006-02-07 | Robert Bosh Gmbh | Frequency and/or phase compensated microelectromechanical oscillator |
KR100571574B1 (ko) * | 2004-07-26 | 2006-04-17 | 한양대학교 산학협력단 | 비선형 분석을 이용한 유사화자 인식방법 및 그 시스템 |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
CN101292280B (zh) * | 2005-10-17 | 2015-04-22 | 皇家飞利浦电子股份有限公司 | 导出音频输入信号的一个特征集的方法 |
US20070239444A1 (en) * | 2006-03-29 | 2007-10-11 | Motorola, Inc. | Voice signal perturbation for speech recognition |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
WO2011089450A2 (en) | 2010-01-25 | 2011-07-28 | Andrew Peter Nelson Jerram | Apparatuses, methods and systems for a digital conversation management platform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
TWI412019B (zh) | 2010-12-03 | 2013-10-11 | Ind Tech Res Inst | 聲音事件偵測模組及其方法 |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
EP2877992A1 (en) * | 2012-07-24 | 2015-06-03 | Nuance Communications, Inc. | Feature normalization inputs to front end processing for automatic speech recognition |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) * | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
KR101922663B1 (ko) | 2013-06-09 | 2018-11-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1232686A (en) | 1985-01-30 | 1988-02-09 | Northern Telecom Limited | Speech recognition |
US5517558A (en) * | 1990-05-15 | 1996-05-14 | Voice Control Systems, Inc. | Voice-controlled account access over a telephone network |
DK0588932T3 (da) | 1991-06-11 | 2002-03-11 | Qualcomm Inc | Vokoder med variabel hastighed |
US5450522A (en) | 1991-08-19 | 1995-09-12 | U S West Advanced Technologies, Inc. | Auditory model for parametrization of speech |
US5381512A (en) * | 1992-06-24 | 1995-01-10 | Moscom Corporation | Method and apparatus for speech feature recognition based on models of auditory signal processing |
JP2737624B2 (ja) * | 1993-12-27 | 1998-04-08 | 日本電気株式会社 | 音声認識装置 |
JPH08123462A (ja) | 1994-10-27 | 1996-05-17 | Sony Corp | 音声認識装置 |
US6671404B1 (en) * | 1997-02-14 | 2003-12-30 | Hewlett-Packard Development Company, L.P. | Method and apparatus for recognizing patterns |
-
2002
- 2002-03-20 US US10/104,178 patent/US6957183B2/en not_active Expired - Lifetime
-
2003
- 2003-03-19 CN CN038106914A patent/CN1653519B/zh not_active Expired - Fee Related
- 2003-03-19 WO PCT/US2003/008806 patent/WO2003081576A1/en not_active Application Discontinuation
- 2003-03-19 AU AU2003225928A patent/AU2003225928A1/en not_active Abandoned
- 2003-03-19 MX MXPA04009077A patent/MXPA04009077A/es active IP Right Grant
- 2003-03-20 TW TW092106184A patent/TWI300214B/zh active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102290047A (zh) * | 2011-09-22 | 2011-12-21 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN102290047B (zh) * | 2011-09-22 | 2012-12-12 | 哈尔滨工业大学 | 基于稀疏分解与重构的鲁棒语音特征提取方法 |
CN102646415A (zh) * | 2012-04-10 | 2012-08-22 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
CN102646415B (zh) * | 2012-04-10 | 2014-07-23 | 苏州大学 | 一种语音识别中的特征参数提取方法 |
CN103811020A (zh) * | 2014-03-05 | 2014-05-21 | 东北大学 | 一种智能语音处理方法 |
CN103811020B (zh) * | 2014-03-05 | 2016-06-22 | 东北大学 | 一种智能语音处理方法 |
CN105139855A (zh) * | 2014-05-29 | 2015-12-09 | 哈尔滨理工大学 | 一种两阶段稀疏分解的说话人识别方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
TW200306526A (en) | 2003-11-16 |
AU2003225928A1 (en) | 2003-10-08 |
CN1653519B (zh) | 2012-04-04 |
US6957183B2 (en) | 2005-10-18 |
US20030182115A1 (en) | 2003-09-25 |
MXPA04009077A (es) | 2004-12-13 |
TWI300214B (en) | 2008-08-21 |
WO2003081576A1 (en) | 2003-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1653519B (zh) | 通过分析源信号的冗余特征进行稳健话音识别的方法 | |
Chen et al. | MVA processing of speech features | |
CN1188831C (zh) | 具有多个话音识别引擎的话音识别系统和方法 | |
CN101014997B (zh) | 用于生成用于自动语音识别器的训练数据的方法和系统 | |
US6278970B1 (en) | Speech transformation using log energy and orthogonal matrix | |
Sarikaya et al. | High resolution speech feature parametrization for monophone-based stressed speech recognition | |
CN100524463C (zh) | 使用预编程的语音特征的语音转换器 | |
CN1205601C (zh) | 用于与说话者无关的话音识别系统的构造话音模板的方法和设备 | |
CN100527224C (zh) | 有效存储语音识别模型的系统和方法 | |
US20230162758A1 (en) | Systems and methods for speech enhancement using attention masking and end to end neural networks | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
CN1264889A (zh) | 语音识别系统中的特征提取方法 | |
Jaureguiberry et al. | Adaptation of source-specific dictionaries in non-negative matrix factorization for source separation | |
CN1182513C (zh) | 基于局部能量加权的抗噪声语音识别方法 | |
Loweimi et al. | Robust Source-Filter Separation of Speech Signal in the Phase Domain. | |
Sankala | Multi-feature integration for speaker embedding extraction | |
CN1473323A (zh) | 改进噪声环境和频率失谐条件下话音识别性能的系统和方法 | |
CN115938364A (zh) | 一种智能识别控制方法、终端设备及可读存储介质 | |
Kim et al. | Bloom-net: Blockwise optimization for masking networks toward scalable and efficient speech enhancement | |
US20030191640A1 (en) | Method for extracting voice signal features and related voice recognition system | |
Mallidi et al. | Robust speaker recognition using spectro-temporal autoregressive models. | |
Maged et al. | Improving speaker identification system using discrete wavelet transform and AWGN | |
US7260528B2 (en) | System and method for obtaining reliable speech recognition coefficients in noisy environment | |
CN113948088A (zh) | 基于波形模拟的语音识别方法及装置 | |
Ganchev et al. | Speaker verification based on wavelet packets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1080980 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1080980 Country of ref document: HK |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120404 Termination date: 20190319 |