CN1582468A - 有效存储语音识别模型的系统和方法 - Google Patents
有效存储语音识别模型的系统和方法 Download PDFInfo
- Publication number
- CN1582468A CN1582468A CNA028048164A CN02804816A CN1582468A CN 1582468 A CN1582468 A CN 1582468A CN A028048164 A CNA028048164 A CN A028048164A CN 02804816 A CN02804816 A CN 02804816A CN 1582468 A CN1582468 A CN 1582468A
- Authority
- CN
- China
- Prior art keywords
- models
- module
- model
- produce
- expansion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000006835 compression Effects 0.000 claims abstract description 56
- 238000007906 compression Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000008878 coupling Effects 0.000 claims description 24
- 238000010168 coupling process Methods 0.000 claims description 24
- 238000005859 coupling reaction Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 18
- 230000000295 complement effect Effects 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims 3
- 230000000452 restraining effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 10
- 238000001914 filtration Methods 0.000 description 28
- 241001014642 Rasta Species 0.000 description 24
- 230000006870 function Effects 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 10
- 206010038743 Restlessness Diseases 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 239000012634 fragment Substances 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 239000013598 vector Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 206010039203 Road traffic accident Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephonic Communication Services (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Supply And Installment Of Electrical Components (AREA)
Abstract
一种通过改进语音识别(VR)模板的存储而改进语音识别的方法和系统。改进了的存储意味着可在存储器中存储更多VR模型。存储在存储器中的VR模型越多,VR系统更稳健,从而VR系统更精确。有损压缩技术用于压缩VR模型。在一个实施例中,A-律压缩和A-律扩展用于压缩和扩展VR模型。在另一实施例中,μ-律压缩和μ-律扩展用于压缩并扩展VR模型。VR模型在训练过程期间被压缩,且它们在语音识别期间被扩展。
Description
背景
I.领域
本发明一般关于通信领域,且尤其关于用于改进在语音识别系统中的模板存储的系统和方法。
II.背景
语音识别(VR)代表了一种最重要的技术,用于使机器具有模拟智能以识别用户或用户语音的指令,并且便于人类与机器接口。VR还代表了一种人类语言理解的关键技术。采用技术从声学语言信号恢复语言消息的系统被称为语音识别器。这里术语“语音识别器”一般用于意指任何口语用户接口使能的装置。
VR(通常也被称作语言识别)的使用对于安全原因而言变得愈发重要。例如,VR可用于代替在无线电话键区上按键的手动任务。这在用户驾驶汽车时开始打电话时尤其重要。当使用不带有VR的电话时,驾驶员必须从方向盘移出一只手并且在按键以拨号时看着电话键区。这些动作增加了汽车事故的概率。语言使能的电话(即,为语言识别设计的电话)会允许驾驶员安放电话呼叫而却继续注视道路。此外,免提汽车配件系统会允许驾驶员在呼叫始发期间保持两只手都在方向盘上。
语言识别装置被分类为依赖于扬声器的(SD)或独立于扬声器的(SI)装置。依赖于扬声器的装置更为普通,它们被训练成识别来自特定用户的指令。相反,独立于扬声器的装置能够接受来自任意用户的话音指令。为了增加给定VR系统的性能,无论依赖于扬声器的或独立于扬声器的,都需要训练以使系统装备有效参数。换言之,系统在它能最佳工作前需要学习。
免提汽车配件的示例性词汇表包括:键区上的数字;关键字“呼叫”、“发送”、“拨号”、“取消”、“清除”、“添加”、“删除”、“历史”、“程序”、“是”和“否”;以及预定数量的经常呼叫的同事、朋友或家人的姓名。一旦完成训练,用户能通过说出受训的关键字而开始呼叫,VR装置通过将口头发声与前面受训的发声(存储为模板)相比较并且采用最佳匹配而进行识别。例如,如果姓名“John”是受训姓名之一,用户能通过说出短语“呼叫John”而开始向John的呼叫。VR系统会识别词语“呼叫”和“John”,并且会拨打用户先前已输入为John的电话号码的号码。无用信息模板用于表示所有不在词汇表中的词汇。
组合多个VR引擎提供了增强的精确性并使用了输入语言信号内的大量信息。用于组合VR引擎的系统和方法已在下列申请中有所描述:美国专利申请号09/618177(下文中为′177申请、题为“COMBINED ENGINE SYSTEM AND METHOD FORVOICE RECOGNITION”、2000年7月18日提交,以及美国专利申请号09/657760(下文中为’760申请)、题为“SYSTEM AND METHOD FOR AUTOMATIC VOICERECOGNITION USING MAPPING”、2000年9月8日提交,这两个申请被转让给本发明的受让人并通过引用被完全结合于此。
尽管组合VR引擎的VR系统比使用单一VR引擎的VR系统更精确,然而组合VR系统的各VR引擎由于噪声环境而可能包括不准确性。输入语音信号由于背景噪声而可能不被识别。背景噪声可能导致输入语音信号和来自VR系统词汇表的模板的毫不匹配,或者可能引起输入语音信号和来自VR系统词汇表的模板间的失配。当输入语音信号和模板间毫不匹配时,输入语音信号被驳回。当VR系统选择不对应于输入语音信号的模板时,产生失配。由于不正确的模板代替了正确模板,因此失配条件也被称作代替。
期望在背景噪声情况下改进VR精确性的实施例。会引起驳回或失配的背景噪声示例是,蜂窝电话在驾驶时用于话音拨号,且麦克风处接收到的输入语言信号被附加道路噪声破坏。附加道路噪声可能降级语音识别和精确性,并且引起驳回或失配。
会引起驳回或失配的噪声的另一示例是,遮光板上的麦克风或耳机处接收到的语言信号遭受卷积失真。由卷积失真引起的遭受被称作卷积噪声和频率失配。卷积失真取决于许多因素,譬如嘴巴和麦克风之间的距离、麦克风的频率响应、汽车内部的声音属性,等等。这些条件会降级语音识别精确性。
传统上,现有VR系统包括对卷积噪声滤波的RASTA滤波器。然而,背景噪声未由RASTA滤波器滤波。这种滤波器在美国专利号5450522中已作描述。因此,需要一种技术,既滤波卷积噪声,又滤波背景噪声。这种技术会改进VR系统的精确性。
在VR系统中,无论它是依赖于扬声器的或独立于扬声器的系统,可被存储在这两类VR系统内的模板数受到存储器大小的限制。由于可存储的有限模板数,因此存储器的有限大小限制了VR系统的稳健性。所以期望一种能增加可被存储在这些VR系统的存储器内的模板数的系统和方法。
概述
所述实施例针对用于改进模板在语音识别系统内的存储的系统和方法。一方面,语音识别的系统和方法包括:记录多个发声、提取这多个发声的特征以产生多个被提取的发声特性、从多个被提取的发声特性中创建多个VR模型、以及有损压缩这多个VR模型以产生多个经有损压缩的VR模型。一方面,使用了A-律压缩和扩展。另一方面,使用了μ-律压缩和扩展。一方面,VR模型是隐型马尔可夫模型(HMM)。另一方面,VR模型是动态时间回卷(DTW)模型。
一方面,语音识别(VR)系统包括训练模块,用于提取多个发声的特征以产生被提取的发声特征,从被提取的发声特征中创建多个VR模型,以及有损压缩多个VR模型以产生多个经有损压缩的VR模型。一方面,VR系统还包括:特征提取模块,用于提取测试发声的特征以产生被提取的测试发声特征;扩展模块,用于从多个经有损压缩的VR模型扩展一个经有损压缩的VR模型以产生经扩展的VR模型;以及模式匹配模块,用于将被提取的测试发声特征与经扩展的VR模块匹配以产生识别假设。
附图简述
图1示出VR系统中的VR前端;
图2示出语音片段的示例隐型马尔可夫模型(HMM);
图3示出按照一个实施例的VR系统的HMM模块的前端;
图4示出具有μ律压扩方案而非对数压缩的前端;
图5示出具有A律压扩方案而非对数压缩的前端;
图6示出Log10()函数和μ对数函数的定点实现的曲线图,其中C=50;
图7示出按照使用μ律压缩和μ律扩展的实施例的前端;
图8示出按照使用A律压缩和A律扩展的实施例的前端;
图9示出按照一个实施例产生模型的训练过程的输入、处理和输出的框图;
图10示出按照一个实施例的VR系统;以及
图11示出按照在语音识别期间使用压缩受训模型的扩展的实施例的VR系统。
优选实施例的详细描述
VR系统包括为表征语言片段而进行前端处理的前端。图1示出VR系统内的VR前端10。吠声幅度发生模块12将数字化的PCM语言信号s(n)转换成每T毫秒一次的k个吠声幅度。在一个实施例中,T为10毫秒,k为16个吠声幅度。因此,每10毫秒有16个吠声幅度。本领域的技术人员可以理解,k可以是任意正整数。本领域的技术人员还可以理解,T可以使用任意时间周期。
吠声刻度是对应于人类听觉的关键频带的回卷的频率刻度。吠声幅度计算在本领域中已知且在Lawrence Rabiner和Biing-Hwang Juang所著的Fundamentalsof Speech Recognition(1993)中已作描述,该文章通过引用被完全结合于此。
吠声幅度模块12与对数压缩模块14耦合。对数压缩模块14通过取得每个吠声幅度的对数而将吠声幅度变换成log10刻度。对数压缩模块14与倒谱(Cepstral)变换模块16耦合。倒谱变换模块16计算j个静态倒谱系数和j个动态倒谱系数。倒谱变换是本领域熟知的余弦变换。参见如前面所引用的Lawrence Rabiner和Biing-Hwang Juang的著作。在一个实施例中,j为8。本领域的技术人员可以理解,j可以是任意其它正整数。因此,前端模块10每T毫秒产生一次2*j个系数。这些特征由后端模块(未示出)处理,譬如通过将HMM模块与前端特征匹配而进行语音识别的HMM模块。
HMM模块通过在VR前端中计算“j”个静态倒谱参数和“j”个动态倒谱参数而被训练。训练过程收集对应于单一状态的N个帧。然后,训练过程计算这N个帧的均值和方差,产生长度为2j的平均向量和长度为2j的对角协方差。均值和方差向量总称为高斯(Gaussian)混合分量,即简言之“混合”。各状态由N个高斯混合分量表示,其中N是正整数。训练过程还计算转变概率。
在有小存储资源的装置中,N为1或某些其它的小数字。在最小的轨迹VR系统中,即,最小的存储器VR系统,单个高斯混合分量表示一个状态。在较大的VR系统中,多个N个帧用以计算多于一个均值向量和相应的方差向量。例如,如果一组十二个均值和方差被计算,则建立12-高斯混合分量的HMM状态。在分布式语音识别(DVR)系统内的VR服务器中,N可以高达32。
HMM模型是识别输入语音信号的概率性的框架。在HMM模型中,时间和频谱特性都被用来表征语言片段。各HMM模型(完全单词或子单词)由一系列状态和一组转变概率来表示。图2示出语言片段的示例HMM模型。HMM模型会表示一个单词“oh”或者一个单词“Ohio”的一部分。输入语言信号用维特比(Viterbi)解码与多个HMM模型相比较。最佳匹配HMM模型被视作识别假设。示例HMM模型30具有五个状态,开始32、结束34、以及代表三连音素(triphone)的三个状态:状态一36、状态二38和状态三40。在典型的后端中,完全单词模型与小词汇表VR系统一起使用。
在中到大词汇表系统中,使用子单词模型。典型的子单词单元是独立于上下文的(CI)单音和依赖于上下文的(CD)单音。独立于上下文的音素是独立于左边和右边的单音。依赖于上下文的单音又被称为三连音,因为它们依赖于它左边和右边的单音。依赖于上下文的电话又被称为全连音(allophone)。
VR领域内的单音是音素的实现。在VR系统中,独立于上下文的单音模型和依赖于上下文的单音模型用本领域熟知的其它类型的VR模型来构造。音素是给定语言的最小功能性语言片段的抽象。这里,单词“功能性”意指感知到的不同声音。例如,用“b”音代替“cat”内的“k”音在英语中会产生不同的单词。因此,“b”和“k”在英语中是两个不同的音素。
转变aij是从状态i转变至状态j的概率。as1从状态32转变至第一状态36。a12从状态36转变至第二状态38。a23从第二状态38转变至第三状态40。a3E从第三状态40转变至结束状态34。a11从第一状态36转变至第一状态36。a22从第二状态38转变至第二状态38。a33从第三状态40转变至第三状态40。a13从第一状态36转变至第三状态40。
转变概率矩阵可以从所有转变/概率中构造:aij,其中n是HMM模型内的状态数;i=1,2,...,n;j=1,2,...,n。当状态间无转变时,转变/概率为零。来自一个状态的累积转变/概率是一,即,等于1。
图3示出按照一个实施例的VR系统的HMM模块的前端。吠声幅度模块12与对数压缩模块14耦合。对数压缩模块14与RASTA滤波模块18耦合。RASTA滤波模块18与倒谱变换模块16耦合。来自k条信道的每一条的对数吠声幅度用带通滤波器h(i)来滤波。在一个实施例中,RASTA滤波器是中心频率约为4Hz的带通滤波器h(i)。一般说来,语言中每秒有大约四个音节。因此,中心频率约为4Hz的带通滤波器会保持语言状的信号并削弱非语言状的信号。因此,带通滤波器产生背景噪声和频谱失配条件下改进了的识别精确性。本领域的技术人员可以理解,中心频率可以不是4Hz,这取决于任务。
然后,经滤波的对数吠声幅度由倒谱变换模块处理以产生每T毫秒2*j个系数。VR前端中可用的带通滤波器示例为RASTA滤波器,这在美国专利号5450522中已作描述,题为“Auditory Model for Parametrization of Speech”,1995年9月12日提交,通过引用被结合于此。图3所示的前端减少了信道失配条件的效应并改进了VR识别精确性。
图3所述的前端对于背景失配条件而言不很稳健。这个原因之一是对数压缩过程对吠声信道具有非线性的放大效应。对数压缩导致吠声信道上的低幅度区域比高幅度区域被放大得更多。由于背景噪声在吠声信号上典型地处在低幅度区域,VR性能随着信噪比(SNR)的降低而开始降级。因此,期望一种在吠声信道的低幅度区域类似线性而在高幅度区域类似对数的模块。
这通过使用对数压扩方案来有效地实现,譬如G.711对数压扩(压缩和扩展),如International Telecommunication Union(ITU-T) RecommendationG.711(11/88)-Pulse code modulation(PCM)of voice frequencies和在G711.C,G.711 ENCODING/DECODING FUNCTIONS中所述。ITU-T(即国际电信联盟的电信标准部门)是用于促进电信设备和系统的合作标准的主要国际实体。
有两种G.711对数压扩方案:μ-律压扩方案和A-律压扩方案。μ-律压扩方案和A-律压扩方案都是脉冲编码调制(PCM)方法。即,模拟信号被采样,各被采样信号的幅度被量化,即,分配到一个数字值。μ-律和A-律压扩方案都用被采样信号对数曲线的线性近似来对被采样信号进行量化。
μ-律和A-律压扩方案都作用在对数曲线上。因此,对数曲线被分成很多段,其中每个连续段的长度都是前一段长度的两倍。A-律和μ-律压扩方案具有不同的段长度,这是由于μ-律和A-律压扩方案以不同方式计算线性近似。
G.711标准包括μ-律查找表,它如下表1所示逼近μ-律线性近似。在μ-律压扩方案下,模拟信号用总共8159个间隔来近似。
值范围 | 间隔数 | 间隔大小 |
0 | 1 | 1 |
1-16 | 15 | 2 |
17-32 | 16 | 4 |
33-48 | 16 | 8 |
49-64 | 16 | 16 |
65-80 | 16 | 32 |
81-96 | 16 | 64 |
97-112 | 16 | 128 |
113-127 | 16 | 256 |
表1
G.711标准包括A-律查找表,它如下表2所示逼近A-律线性近似。在A-律压扩方案下,模拟信号用总共4096个间隔来近似。
值范围 | 间隔数 | 间隔大小 |
0-32 | 32 | 2 |
33-48 | 16 | 4 |
49-64 | 16 | 8 |
65-80 | 16 | 16 |
81-96 | 16 | 32 |
97-112 | 16 | 64 |
113-127 | 16 | 128 |
表2
G.711标准指定μ-律压扩方案来以每采样8比特表示每采样14比特量化的语言。G.711标准还指定A-律压扩方案来以每采样8比特表示每采样13比特量化的语言。示例性8位数据是语音电话。G.711规范用拉普拉斯概率密度函数(pdf)为诸如语言这样的信号而优化。
本领域的技术人员可以理解,可以使用其它压扩方案。此外,本领域的技术人员可以理解,可以使用其它量化率。
在一个实施例中,如图4所示,使用μ-律压扩方案20而非对数压缩方案。图4示出使用μ-律压缩方案的实施例的前端,即,μ-对数压缩模块20。吠声幅度发生模块12与μ-对数压缩模块20耦合。μ-对数压缩模块20与RASTA滤波模块18耦合。RASTA滤波模块18与倒谱变换模块16耦合。
数字化的语音信号s(n)包括卷积失真,它进入吠声幅度发生模块12。在吠声幅度发生模块12将数字化的PCM语音信号s(n)转变为k个吠声幅度之后,卷积失真变成乘性失真。μ-对数压缩模块20对k个吠声幅度进行μ-对数压缩。μ-对数压缩把乘性失真变成加性。RASTA滤波模块18对任何平稳分量滤波,从而由于卷积失真分量是平衡的,因此除去了卷积失真。倒谱变换模块16从经RASTA滤波的输出中计算j个静态倒谱系数和j个动态倒谱系数。
在另一个实施例中,如图5所示,使用A-律压扩方案21而非对数压缩方案。图5示出使用A-律压缩方案的实施例的前端,即,A-对数压缩模块21。吠声幅度发生模块12与A-对数压缩模块21耦合。A-对数压缩模块20与RASTA滤波模块18耦合。RASTA滤波模块18与倒谱变换模块16耦合。
μ-对数压缩和A-对数压缩都是有损压缩技术。任一有损压缩技术可用来压缩k个吠声幅度。有损压缩的情况是信源的压缩和扩展的结果与信源不相同。有损压缩比无损压缩更有效,这是因为扩展有损压缩的模型比扩展无损模型需要较少时间。此外,有损压缩软件的成本比无损压缩软件低。
使用G.711μ-律压扩的实施例具有两个函数,称为用以压缩吠声幅度的ulaw_compress以及用以扩展滤波输出以产生吠声幅度的mulaw_expand。在一个实施例中,μ-对数压缩模块20用下列公式实现压缩:
Log_Bark(i)={255-mulaw_compress[Bark(i)]}*C,其中C是常数。
C值可被调节以利用定点VR实现中可用的分辨率。
图6示出Log10()函数和μ-对数函数的定点实现曲线,其中C=50。图6示出对于低幅度信号而言,μ-对数函数比Log10()函数更为线性,而对高幅度信号而言,μ-对数函数是对数性的。因此,由于μ-对数函数对待低幅度和高幅度信号不同,因此它是非均匀量化器。
在某些识别方案中,后端作用在吠声信道幅度上,而非在静态和动态的倒谱参数上。在’177申请和’760申请所述的组合引擎方案中,DTW引擎在时间群集和幅度量化后作用在吠声信道幅度上。DTW引擎基于模板匹配。所存储的模板与输入语音信号的特征相匹配。
’177申请和’760申请中所述的DTW引擎对于背景失配条件比对于信道失配条件更稳健。图7说明了对于信道失配条件改进了DTW引擎的实施例前端。图7示出按照一个实施例使用μ-律压缩和μ-律扩展的前端,即,μ-对数压缩模块20和μ-律扩展模块22。吠声幅度模块12与μ-对数压缩模块20耦合。μ-对数压缩模块20与RASTA滤波模块18耦合。RASTA滤波模块18与μ-律扩展模块22耦合。μ-对数压缩模块20对k个吠声幅度进行A-对数压缩。Rasta滤波模块18对来自k个吠声幅度的任何平稳分量进行滤波,从而由于卷积失真是平稳的而除去任何卷积失真。μ-对数扩展模块22对经RASTA滤波的吠声幅度进行μ-对数扩展。
在一个实施例中,μ-对数扩展用下列公式实现:
Bark’(i)=mulaw_expand{255-[R(i)*D]},其中D为常数。
R(i)是RASTA模块的输出,且D=0.02(或1/C)。在一个实施例中,乘数[R(i)*D]在0到127的范围内。μ-对数扩展在吠声幅度范围内输出Bark’(i),信号失配条件的负面效应由RASTA处理消除。
图8说明了对于信道失配条件改进DTW引擎的实施例。图8示出按照使用A-律压缩和A-律扩展的实施例的前端,即,A-对数压缩模块24和A-律扩展模块26。吠声幅度模块12与A-对数压缩模块24耦合。A-对数压缩模块24与RASTA滤波模块18耦合。RASTA滤波模块18与A-律扩展模块26耦合。A-对数压缩模块20对k个吠声幅度进行A-对数压缩。Rasta滤波模块18对来自k个吠声幅度的任意平稳分量进行滤波,从而由于卷积失真是平稳的而除去任何卷积失真。A-对数扩展模块26对经RASTA滤波的吠声幅度进行A-对数扩展。
μ-律和A-律压缩和扩展不仅可用在VR系统的前端中来表征语言片段,而且在一个实施例中,它们用来压缩和扩展VR模型的状态。在一个实施例中,VR系统压缩并扩展HMM模型的均值和方差。在另一实施例中,VR系统压缩并扩展DTW模型的模板。
在HMM VR系统中,词汇表单词由一系列HMM状态表示。各状态包括一组均值、方差、以及到词汇表单词中到其它状态的转变概率。
在其它不基于HMM的VR系统中,譬如DTW VR系统,词汇表单词由从提取训练集的特征而导出的一组均值和/或方差来表示。“训练集”包括由大量用户记录的词汇表单词的多个发声。在一个实施例中,词汇表单词由一组均值表示。在另一实施例中,词汇表单词由一组均值和方差来表示。
图9示出训练过程的输入50、训练模块52和输出模块54的流程图,用于按照一个实施例而产生模块,也称为模板。训练过程涉及为VR词汇表内所有单词计算所有状态分量,包括在识别期间表示词汇表外(OOV)发声的无用信息模型。由要被识别的词汇表单词的多个发声组成的训练集通过记录大量用户而创建。训练集是训练模块52的输入50,训练模块处理训练集以创建训练模块52的输出、词汇表单词的压缩模型以及OOV发声54。训练模块52从训练体创建模型并压缩那些模型。在一个实施例中,训练模块52包括从训练体50创建模型的特征提取模块(未示出)以及压缩那些模型的压缩模块(未示出)。
在一个实施例中,训练模块52创建HMM模型并进行HMM模型的A-律压缩。A-律压缩与为相同量的存储空间(即,存储器)不采取任何压缩方案相比能存储更多模型。在另一实施例中,训练模块52创建DTW模型并对DTW模型进行μ-律压缩。μ-律压缩与为相同量的存储空间(即,存储器)不采取任何压缩方案相比能存储更多模型。因此,无论模型是独立于扬声器的或是依赖于扬声器的,A-律和μ-律压缩都降低了VR系统内的存储器要求。在还有一个实施例中,训练模块使用除A-律和μ-律压缩之外的另一有损压缩技术来压缩模型。本领域的技术人员可以理解,可以用本领域熟知的任意模型VR技术代替HMM和DTW模型。
图10示出按照一个实施例的VR系统。特征提取模块60从测试发声s(n)中提取特征。特征被传递至后端模块,模式匹配模块62。模式匹配模块62将特征与词汇表单词和OOV发声54的模型相比较。在一个实施例中,模式匹配模块62是HMM模块,它将特征与HMM模型相匹配,从而产生识别假设。在另一实施例中,模式匹配模块62是DTW模块,它将特征与DTW模型相匹配并从而产生识别假设。
图11示出按照一个实施例的VR系统,它在语音识别期间对压缩受训的模型进行扩展。特征提取模块70从测试发声s(n)中提取特征。特征被传递至后端模块,模式匹配模块72。模式匹配模块72将特征与已由均值和方差的扩展模块76处理的词汇表单词和OOV发声74的模型相比较。模式匹配模块62用由VR应用(未示出)指定的语法(未示出)获得来自扩展模块76的模型。VR应用一般是服务逻辑,它允许用户用VR系统完成任务。服务逻辑可由处理器在订户单元上执行。服务逻辑是订户单元中用户接口模块(未示出)的分量。
语法用小词汇表VR系统中到单词模型和大词汇表VR系统中的子单词模型指定活动词汇表。典型语法包括7位电话号码、美元数量、以及一组名称中的城市名称。典型语法规范包括OOV条件来表示不能根据输入语言信号作出可靠识别判决的条件。
语法指定句法。句法限制了单词和子单词模型的顺序,使其与所提取的特征相匹配。模式匹配模块72向扩展模块76请求要被扩展的模型。扩展模块76扩展模式匹配模块72请求的已压缩模型72。在一个实施例中,扩展模块76扩展HMM模型。在另一实施例中,扩展模块扩展DTW模型。如果用A-律压缩来压缩模型,则用A-律扩展来扩展模型。如果用μ-律压缩来压缩模型,则用μ-律扩展来扩展模型。
在一个实施例中,模式匹配模块72是HMM模块,它将特征与经扩展的HMM模型相匹配,从而产生识别假设。在另一实施例中,模式匹配模块72是DTW模型,他将特征与经扩展的DTW模型相匹配,从而产生识别假设。
本领域的技术人员可以理解,信息和信号可以用任一各种不同工艺和技术来表示。例如,上述说明中所引用的数据、指令、命令、信息、信号、比特、码元和码片可以用电压、电流、电磁波、磁场或粒子、光场或粒子、或它们的组合来表示。
本领域的技术人员还可以理解,结合这里所揭示的实施例所述的算法步骤可以用电子硬件、计算机软件或它们的组合来实现。为了清楚说明这种硬件和软件的可互换性,上面一般用功能来描述各种说明性的组件、块、模块、电路和步骤。这种功能究竟用硬件还是软件来实现取决于特定应用和总系统上的设计限制。技术人员可以用多种方式为特定应用实现所述功能,但这种实现判决不应被理解为背离本
发明的范围。
作为示例,结合这里所揭示的实施例所述的各种说明性逻辑块、模块和映射可以用一个执行一组固件指令的处理器、专用集成电路(ASIC)、场可编程门阵列(FPGA)或其它可编程逻辑器件、离散门或晶体管逻辑、如寄存器这样的离散硬件组件、任意常规可编程软件模块和处理器来实现或执行、或者它们的任意组合,用以执行这里所述的功能。VR系统组件,譬如吠声幅度发声12、RASTA滤波模块18、μ-对数压缩模块20、A-对数压缩模块21、μ-对数扩展22、A-对数扩展26、倒谱变换模块16、训练模块52、模式匹配模块62和扩展模块76,可以在微处理器内有利地被执行,或者另一方面,吠声幅度发生器12、RASTA滤波模块18、μ-对数压缩模块20、A-对数压缩模块21、μ-对数扩展模块22、A-对数扩展模块26、倒谱变换模块16、训练模块52、模式匹配模块62和扩展模块76可以在任意常规处理器、控制器、微控制器或状态机内有利地被执行。模型/模板可以驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域已知的任意其它形式的存储媒体中。存储器(未示出)可以与任一前述处理器(未示出)集成为整体。处理器(未示出)和存储器(未示出)可以驻留在ASIC(未示出)中。ASIC可以驻留在电话中。
上述优选实施例的描述使本领域的技术人员能制造或使用本发明。这些实施例的各种修改对于本领域的技术人员来说是显而易见的,这里定义的一般原理可以被应用于其它实施例中而不使用创造能力。因此,本发明并不限于这里示出的实施例,而要符合与这里揭示的原理和新颖特征一致的最宽泛的范围。
Claims (22)
1.一种语音识别(VR)的方法,其特征在于包括:
记录多个发声;
提取多个发声的特征以产生多个被提取的发声特征;
从多个被提取的发声特征中产生多个VR模型:以及
有损压缩这多个VR模型以产生多个经有损压缩的VR模型。
2.如权利要求1所述的方法,其特征在于还包括,扩展多个经有损压缩的VR模型以产生多个经扩展的VR模型。
3.如权利要求2所述的方法,其特征在于还包括,将多个经扩展的VR模型之一与测试发声的特征相比较。
4.如权利要求2所述的方法,其特征在于还包括,提取测试发声的特征。
5.如权利要求4所述的方法,其特征在于还包括,将被提取的测试发声特征与多个经扩展的VR模型之一相匹配以产生一个匹配。
6.如权利要求5所述的方法,其特征在于还包括,产生该匹配的假设。
7.如权利要求1所述的方法,其特征在于,有损压缩是对多个VR模型进行A-律压缩以产生多个经A-律压缩的VR模型。
8.如权利要求1所述的方法,其特征在于,有损压缩是对多个VR模型进行μ-律压缩以产生多个经μ-律压缩的VR模型。
9.如权利要求1所述的方法,其特征在于,所创建的多个VR模型是隐型马尔可夫模型(HMM)。
10.如权利要求1所述的方法,其特征在于,所创建的多个VR模型是动态时间回卷(DTW)模型。
11.如权利要求7所述的方法,其特征在于还包括,扩展多个经A-律压缩的VR模型之一以产生经扩展的VR模型。
12.如权利要求8所述的方法,其特征在于还包括,扩展多个经μ-律压缩的VR模型之一以产生经扩展的VR模型。
13.如权利要求11所述的方法,其特征在于还包括,提取测试发声的特征。
14.如权利要求12所述的方法,其特征在于还包括,提取测试发声的特征。
15.如权利要求13所述的方法,其特征在于还包括,将被提取的测试发声特征与多个经扩展的VR模型之一相匹配以产生一个匹配。
16.如权利要求14所述的方法,其特征在于还包括,将被提取的测试发声特征与多个经扩展的VR模型之一相匹配以产生一个匹配。
17.如权利要求15所述的方法,其特征在于还包括,产生该匹配的假设。
18.如权利要求16所述的方法,其特征在于还包括,产生该匹配的假设。
19.一种语音识别(VR)系统,包括一个训练模块,用于提取多个发声的特征以产生被提取的发声特征、从发声经提取的特征中产生多个VR模型、以及有损压缩这多个VR模型以产生多个经有损压缩的VR模型。
20.如权利要求19所述的VR系统,其特征在于还包括:
特征提取模块,用于提取测试发声的特征以产生被提取的测试发声特征;
扩展模块,用于扩展多个经有损压缩的VR模型之一以产生经扩展的VR模型;以及
模式匹配模块,将被提取的测试发声特征与经扩展的VR模型相匹配以产生识别假设。
21.一种语音识别(VR)系统,其特征在于包括:
多个经有损压缩的VR模型;
特征提取模块,用于提取测试发声的特征以产生被提取的测试发声特征;
扩展模块,用于扩展多个经有损压缩的VR模型之一以产生经扩展的VR模型;以及
模式匹配模块,将被提取的测试发声特征与经扩展的VR模型相匹配以产生识别假设。
22.一种语音识别(VR)训练系统,其特征在于包括:
特征提取模块,用于提取多个发声的特征并且为多个被提取的发声特征产生多个VR模型;以及
压缩模块,用于有损压缩这多个VR模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/760,076 | 2001-01-12 | ||
US09/760,076 US6681207B2 (en) | 2001-01-12 | 2001-01-12 | System and method for lossy compression of voice recognition models |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1582468A true CN1582468A (zh) | 2005-02-16 |
CN100527224C CN100527224C (zh) | 2009-08-12 |
Family
ID=25058019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028048164A Expired - Lifetime CN100527224C (zh) | 2001-01-12 | 2002-01-10 | 有效存储语音识别模型的系统和方法 |
Country Status (12)
Country | Link |
---|---|
US (2) | US6681207B2 (zh) |
EP (1) | EP1352389B1 (zh) |
JP (1) | JP2004523788A (zh) |
CN (1) | CN100527224C (zh) |
AT (1) | ATE407421T1 (zh) |
AU (1) | AU2002246992A1 (zh) |
BR (1) | BR0206413A (zh) |
CA (1) | CA2434562A1 (zh) |
DE (1) | DE60228681D1 (zh) |
IL (1) | IL156891A0 (zh) |
TW (1) | TW546632B (zh) |
WO (1) | WO2002059871A2 (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6681207B2 (en) * | 2001-01-12 | 2004-01-20 | Qualcomm Incorporated | System and method for lossy compression of voice recognition models |
US20030004720A1 (en) * | 2001-01-30 | 2003-01-02 | Harinath Garudadri | System and method for computing and transmitting parameters in a distributed voice recognition system |
US7941313B2 (en) * | 2001-05-17 | 2011-05-10 | Qualcomm Incorporated | System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system |
US7203643B2 (en) * | 2001-06-14 | 2007-04-10 | Qualcomm Incorporated | Method and apparatus for transmitting speech activity in distributed voice recognition systems |
US7379868B2 (en) * | 2002-07-18 | 2008-05-27 | Massachusetts Institute Of Technology | Method and apparatus for differential compression of speaker models |
US7333930B2 (en) * | 2003-03-14 | 2008-02-19 | Agere Systems Inc. | Tonal analysis for perceptual audio coding using a compressed spectral representation |
JP4531350B2 (ja) * | 2003-06-04 | 2010-08-25 | アルパイン株式会社 | 音声入力装置および音声認識処理システム |
US7558744B2 (en) * | 2004-01-23 | 2009-07-07 | Razumov Sergey N | Multimedia terminal for product ordering |
US7430328B2 (en) * | 2004-12-01 | 2008-09-30 | Honeywell International Inc. | Rice lossless compression module |
US20060136210A1 (en) * | 2004-12-16 | 2006-06-22 | Sony Corporation | System and method for tying variance vectors for speech recognition |
US7970613B2 (en) | 2005-11-12 | 2011-06-28 | Sony Computer Entertainment Inc. | Method and system for Gaussian probability data bit reduction and computation |
US7778831B2 (en) * | 2006-02-21 | 2010-08-17 | Sony Computer Entertainment Inc. | Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch |
US8010358B2 (en) * | 2006-02-21 | 2011-08-30 | Sony Computer Entertainment Inc. | Voice recognition with parallel gender and age normalization |
US8108205B2 (en) | 2006-12-01 | 2012-01-31 | Microsoft Corporation | Leveraging back-off grammars for authoring context-free grammars |
US20100106269A1 (en) * | 2008-09-26 | 2010-04-29 | Qualcomm Incorporated | Method and apparatus for signal processing using transform-domain log-companding |
FI20086260A (fi) * | 2008-12-31 | 2010-09-02 | Teknillinen Korkeakoulu | Menetelmä hahmon löytämiseksi ja tunnistamiseksi |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8442829B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Automatic computation streaming partition for voice recognition on multiple processors with limited memory |
US8442833B2 (en) * | 2009-02-17 | 2013-05-14 | Sony Computer Entertainment Inc. | Speech processing with source location estimation using signals from two or more microphones |
US8510103B2 (en) * | 2009-10-15 | 2013-08-13 | Paul Angott | System and method for voice recognition |
US9153235B2 (en) | 2012-04-09 | 2015-10-06 | Sony Computer Entertainment Inc. | Text dependent speaker recognition with long-term feature based on functional data analysis |
US9653070B2 (en) * | 2012-12-31 | 2017-05-16 | Intel Corporation | Flexible architecture for acoustic signal processing engine |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0435282B1 (en) * | 1989-12-28 | 1997-04-23 | Sharp Kabushiki Kaisha | Voice recognition apparatus |
JP2524472B2 (ja) * | 1992-09-21 | 1996-08-14 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 電話回線利用の音声認識システムを訓練する方法 |
US5627939A (en) | 1993-09-03 | 1997-05-06 | Microsoft Corporation | Speech recognition system and method employing data compression |
BR9508898A (pt) | 1994-09-07 | 1997-11-25 | Motorola Inc | Sistema para reconhecer sons falados |
US6009387A (en) * | 1997-03-20 | 1999-12-28 | International Business Machines Corporation | System and method of compression/decompressing a speech signal by using split vector quantization and scalar quantization |
US6370504B1 (en) * | 1997-05-29 | 2002-04-09 | University Of Washington | Speech recognition on MPEG/Audio encoded files |
US6044346A (en) * | 1998-03-09 | 2000-03-28 | Lucent Technologies Inc. | System and method for operating a digital voice recognition processor with flash memory storage |
US6463413B1 (en) * | 1999-04-20 | 2002-10-08 | Matsushita Electrical Industrial Co., Ltd. | Speech recognition training for small hardware devices |
DE10043946C2 (de) * | 2000-09-06 | 2002-12-12 | Siemens Ag | Komprimieren von HMM-Prototypen |
US6694294B1 (en) * | 2000-10-31 | 2004-02-17 | Qualcomm Incorporated | System and method of mu-law or A-law compression of bark amplitudes for speech recognition |
US6681207B2 (en) * | 2001-01-12 | 2004-01-20 | Qualcomm Incorporated | System and method for lossy compression of voice recognition models |
-
2001
- 2001-01-12 US US09/760,076 patent/US6681207B2/en not_active Expired - Lifetime
-
2002
- 2002-01-10 DE DE60228681T patent/DE60228681D1/de not_active Expired - Lifetime
- 2002-01-10 CA CA002434562A patent/CA2434562A1/en not_active Abandoned
- 2002-01-10 EP EP02714742A patent/EP1352389B1/en not_active Expired - Lifetime
- 2002-01-10 AT AT02714742T patent/ATE407421T1/de not_active IP Right Cessation
- 2002-01-10 JP JP2002560118A patent/JP2004523788A/ja active Pending
- 2002-01-10 BR BR0206413-8A patent/BR0206413A/pt not_active IP Right Cessation
- 2002-01-10 CN CNB028048164A patent/CN100527224C/zh not_active Expired - Lifetime
- 2002-01-10 IL IL15689102A patent/IL156891A0/xx unknown
- 2002-01-10 WO PCT/US2002/000890 patent/WO2002059871A2/en active Application Filing
- 2002-01-10 AU AU2002246992A patent/AU2002246992A1/en not_active Abandoned
- 2002-01-11 TW TW091100301A patent/TW546632B/zh not_active IP Right Cessation
-
2003
- 2003-11-12 US US10/712,583 patent/US7136815B2/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
IL156891A0 (en) | 2004-02-08 |
TW546632B (en) | 2003-08-11 |
JP2004523788A (ja) | 2004-08-05 |
US6681207B2 (en) | 2004-01-20 |
ATE407421T1 (de) | 2008-09-15 |
US20020133345A1 (en) | 2002-09-19 |
EP1352389B1 (en) | 2008-09-03 |
US20040098258A1 (en) | 2004-05-20 |
WO2002059871A2 (en) | 2002-08-01 |
WO2002059871A3 (en) | 2003-03-13 |
CA2434562A1 (en) | 2002-08-01 |
BR0206413A (pt) | 2004-06-22 |
EP1352389A2 (en) | 2003-10-15 |
AU2002246992A1 (en) | 2002-08-06 |
US7136815B2 (en) | 2006-11-14 |
CN100527224C (zh) | 2009-08-12 |
DE60228681D1 (de) | 2008-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100527224C (zh) | 有效存储语音识别模型的系统和方法 | |
CN1160698C (zh) | 噪声信号中语音的端点定位 | |
CN1228761C (zh) | 用于经噪声补偿的话音识别的系统和方法 | |
CN1205601C (zh) | 用于与说话者无关的话音识别系统的构造话音模板的方法和设备 | |
CN1168070C (zh) | 分布式语音识别系统 | |
CN1188831C (zh) | 具有多个话音识别引擎的话音识别系统和方法 | |
EP1886303B1 (en) | Method of adapting a neural network of an automatic speech recognition device | |
CA2179759C (en) | Distributed voice recognition system | |
US7266494B2 (en) | Method and apparatus for identifying noise environments from noisy signals | |
US20020091515A1 (en) | System and method for voice recognition in a distributed voice recognition system | |
CN1552059A (zh) | 分布式语音识别系统中语音识别的方法和设备 | |
CN1132147C (zh) | 语音识别系统中的特征提取方法 | |
EP1159735A1 (en) | Voice recognition rejection scheme | |
JP3970776B2 (ja) | 雑音環境条件および周波数不一致条件において音声認識を改良するためのシステムおよび方法 | |
Gazi et al. | Wavelet-based, speaker-independent isolated Hindi digit recognition | |
US20060161433A1 (en) | Codec-dependent unit selection for mobile devices | |
Acar et al. | Wireless speech recognition using fixed point mixed excitation linear prediction (MELP) vocoder | |
JP2001249680A (ja) | 音響パラメータ変換方法、音声認識方法および音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1070731 Country of ref document: HK |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: WD Ref document number: 1070731 Country of ref document: HK |
|
CX01 | Expiry of patent term | ||
CX01 | Expiry of patent term |
Granted publication date: 20090812 |