CN101315770A

CN101315770A - 语音识别片上系统及采用其的语音识别方法

Info

Publication number: CN101315770A
Application number: CNA2008101107212A
Authority: CN
Inventors: 廖茂宇; 徐国栋
Original assignee: BEIJING HELIOS-ADSP SCIENCE AND TECHNOLOGY Co Ltd
Current assignee: Beijing Hechengke Technology Co ltd
Priority date: 2008-05-27
Filing date: 2008-05-27
Publication date: 2008-12-03
Anticipated expiration: 2028-05-27
Also published as: CN101315770B

Abstract

本发明提出了一种语音识别片上系统及采用该语音识别系统的语音识别方法，其中，语音识别片上系统包括：放大滤波模块，用于对模拟语音信号进行滤波和放大并将经过滤波和放大的模拟语音信号发送给模数转换模块；模数转换模块，用于将经过滤波和放大的模拟语音信号转换为数字语音信号并将数字语音信号发送给处理模块；以及处理模块，用于根据数字语音信号进行相应的处理；其中，放大滤波模块、模数转换模块、及处理模块均集成在一块芯片上。通过本发明，提供了一颗真正意义上的低成本高集成度的非特定人孤立词语音识别专用芯片，使其可适用于语音对话玩具，家电控制等领域，降低语音识别产品的开发难度，推进语音识别产品的广泛应用。

Description

语音识别片上系统及采用其的语音识别方法

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别片上系统及采用该语音识别片上系统的语音识别方法。

背景技术

语音识别是机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。它是一门交叉学科，是近半个世纪以来发展起来的新兴学科，也是近年来十分活跃的研究领域。语音是人类最直接、最方便的交流方式，是人类进行生产生活的重要基础，同时，因为语音向空间是全方位传输的，在人眼顾及不到的时候或是在人很难进入的狭小或危险场所，通过语音来控制设备的操作有着明显的优势，故语音识别在工业、军事、交通、医学、民用等各方面都具有广阔的应用前景，潜藏着巨大的经济效益，对于残疾人，使用语音控制辅助设备，更会给生活带来极大的便利。

近二十年来，语音识别技术取得显著进步，语音识别技术已经从实验室走向市场。人们预计，未来10年内，语音控制将进入工业、家电、通信、汽车电子等各个领域，是2000年至2010年间电子、信息领域十大科技成果应用之一。这一成果在全国乃至全世界的家电、通信以及工业控制领域将起到相当大的产品换代作用。

目前，世界上的许多公司都已经在电信、服务业和工业生产线上使用了语音识别技术，并创造出一批新颖的语音产品(如语音记事本、声控玩具、语音遥控器、家用服务器)，从而极大的减轻了劳动强度、提高了工作效率，并日益改变着人们的日常生活。因此，语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。

语音识别技术的应用产品主要分为两类，一类是基于PC机上运行的软件；另一类是基于集成电路的嵌入式语音识别芯片。基于PC机的语音识别软件目前主要为微软、IBM、Lucent等国际大公司所垄断，国内仅中科院、清华大学等有限的几家科研机构从事相关的科学研究，尚无实用化系统。目前，嵌入式语音识别芯片主要在国外中小公司之间进行竞争，国外一些大的半导体公司现在也开始设计语音识别芯片，但这些大的半导体公司虽然能够设计语音识别芯片硬件系统，但往往缺少高性能的语音识别算法，因此需要与其它研发机构合作。

随着电子技术的发展，嵌入式设备得到了飞速发展，不但应用到了军事、航空航天、交通运输、工业生产等领域，而且已经走入了人们的日常生活，因此，嵌入式语音识别芯片的应用也越来越广泛。由于芯片集成度的提高，手持设备的体积可以做的越来越小，而输入设备，无论是键盘还是手写屏都限制了手持设备体积的进一步缩小，语音识别技术就可以解决这个问题，它可以简化设备繁杂的菜单，削减大量的按钮。许多场合下人们的双手被占用或不便于操作设备，如车辆驾驶，厨房炒菜等，这时基于语音识别技术的语音控制可以使人免除手的操作，给人们带来了极大的方便。语音控制的用途非常广泛，比如语音拨号，家用电器的控制等，通过语音命令遥控可以大大减轻人的工作强度，方便人的生活。嵌入式语音识别系统还可以用于智能机器人和智能玩具，甚至可以用于要求不高的身份验证。

因为嵌入式语音识别系统针对的目标多为智能玩具、家电控制及工业控制等，通常只需要对几十个词的命令进行识别，属于小词汇量语音识别系统，对此类情况，无需实现大词汇量和连续语音识别，故所应解决的主要问题，是提高识别的准确性与稳健性，同时简化系统的复杂度，降低成本。

目前，国际上嵌入式语音识别专用芯片主要是美国的Sensory公司的RSC-X系列，该系列芯片的功能较为强大，性能较好，但其成本较高，且对中文的适应性不好，不利于在国内市场的推广，而台湾的Kinstar EK5221和GrossField GAH7003等芯片则仅支持特定人(SD)语音识别模式，无法满足越来越广泛的实际应用需求，在国内市场，目前包括上海闻通，深圳捷通等数家语音识别方案提供商多使用SUNPLUS的通用语音芯片，进行语音识别产品开发，开发时间长，开发难度较大，一致性差。

随着微电子技术及IC设计技术的不断提升，通过单颗高度集成的语音识别专用芯片来实现语音识别片上系统，降低语音识别模块及产品的复杂度，具有越来越高的迫切性，而嵌入式语音识别专用芯片的研制也成为当前语音识别研究的一个热点方向。

(一)、语音识别的背景介绍

语音识别是机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。它是一门交叉学科，是近半个世纪以来发展起来的新兴学科，也是近年来十分活跃的研究领域。近二十年来，语音识别技术取得显著进步，语音识别技术已经从实验室走向市场。人们预计，未来10年内，语音控制将进入工业、家电、通信、汽车电子等各个领域，是2000年至2010年间电子、信息领域十大科技成果应用之一。这一成果在全国乃至全世界的家电、通信以及工业控制领域将起到相当大的产品换代作用。

语音是人类最直接、最方便的交流方式，是人类进行生产生活的重要基础，同时，因为语音向空间是全方位传输的，在人眼顾及不到的时候或是在人很难进入的狭小或危险场所，通过语音来控制设备的操作有着明显的优势，故语音识别在工业、军事、交通、医学、民用等各方面都具有广阔的应用前景，潜藏着巨大的经济效益，对于残疾人，使用语音控制辅助设备，更会给生活带来极大的便利。目前，世界上的许多公司都已经在电信、服务业和工业生产线上使用了语音识别技术，并创造出一批新颖的语音产品(如语音记事本、声控玩具、语音遥控器、家用服务器)，从而极大的减轻了劳动强度、提高了工作效率，并日益改变着人们的日常生活。因此，语音识别技术被视为本世纪最有挑战性、最具市场前景的应用技术之一。

因为嵌入式语音识别系统针对的目标多为智能玩具、家电控制及工业控制等，通常只需要对几十个词的命令进行识别，属于小词汇量语音识别系统，对此类情况，无需实现大词汇量和连续语音识别，故所应解决的主要问题，是提高识别的准确性与稳健性，同时简化系统的复杂度，降低成本。随着微电子技术及IC设计技术的不断提升，通过单颗高度集成的语音识别专用芯片来实现语音识别片上系统或准系统，降低语音识别模块及产品的复杂度，具有越来越高的迫切性，而嵌入式语音识别专用芯片的研制也成为当前语音识别研究的一个热点方向。

(二)、嵌入式语音识别技术的发展历史

嵌入式语音识别系统的研究和开发始于80年代初期，根据其技术水平的发展，大致可分为三个阶段：

第一阶段为1981年-1985年。当时，语音识别技术主要表现在LPCC特征参数的提出和DTW匹配算法的应用。特定人、小词表、孤立词识别算法已经开始走向成熟。在这一时期，TI、Intel、NEC、NTT等公司的研究机构，相继展开了对特定人、小词表、孤立词嵌入式语音识别的研究，并开发出识别系统。按照所采用的识别框架可以大致分为LPCC+DTW和模拟特征+简化DP算法两类。这一时期的嵌入式语音识别系统功能较为简单，识别性能较差，在当时系统的成本很高。

第二阶段是从1986年到1991年。在这一时期，非特定人、小词表、孤立词的嵌入式语音识别系统开始出现，这是嵌入式语音识别的突破性进展。由于当时芯片处理能力太弱，嵌入式非特定人识别系统还没有使用基于HMM模型的识别算法，大多采用了简化的算法，识别性能较差，无法实用。特定人嵌入式语音识别系统也进一步完善，在词汇量增大和识别率提高方面，都有了很大的进步。由于电子工业的进步，芯片的处理能力得到大大提高，非特定人识别系统的算法可以更加复杂，甚至可以在单片机上提取MFCC特征。但由于当时硬件成本非常昂贵，导致系统无法推广。

第三阶段是从1991年至现在。进入二十世纪九十年代以后，半导体技术飞速发展，电子设备不断小型化，智能手持设备开始普及，对嵌入式语音识别系统的需求变得更加迫切。由于需求的巨大牵引作用，使得语音识别技术得到快速提高。特定人识别系统已经成熟，一般采用LPCC或MFCC参数作为识别特征参数，识别方法采用改进型DTW算法。特定人识别系统，识别率和识别时间，已经能够满足商用要求，已经投入商业应用，许多手机已经具有特定人拨号功能。非特定人中小词表嵌入式语音识别系统也逐渐成熟，开始走向应用。非特定人语音识别系统一般采用MFCC参数作为识别特征参数，识别算法采用基于整词的HMM算法或基于子词的HMM算法。2003年，Motorola公司推出的带有语音拨号功能的手机，可以实现千词级别的非特定人人名拨号功能。此外，嵌入式语音识别系统在语音玩具、家电控制、语音拨号等多个领域也已经投入商业应用。

(三)、语音识别系统原理

语音识别技术是模式识别的一种，它与人的认知过程是一样的，分为训练和识别两个部分。在训练阶段，语音识别系统对语音样本进行学习，学习结束把学习的内容存储到模板库中。在识别阶段，则把当前输入的语音在模板库中查找最相近的结果。

图1是现有技术的语音识别系统框图。如图1所示，预处理包含A/D采样转换和语音分帧等。模拟的语音信号首先通过A/D转换，转变为数字信号。该语音在进行特征提取前需要经过分帧处理。语音信号的一个重要特点是具有短时稳定性，即在一短段时间间隔内，语音信号会保持相对稳定一致的特征，这段时间一般取为5～50ms。将连续语音切分为多个短段时间序列的过程，称分分帧。

在语音识别的特征提取中，较为常用的特征参数包括线性预测倒谱参数(Linear Prediction Cepstrum Coefficient，LPCC)和Mel频标倒谱参数(Mel Frequency Cepstrum Coefficient，MFCC)以及谐频线性预测参数(Perceptual Linear Predictive，PLP)。

其中LPCC为参数化建模，利用自回归(Auto Regression AR)模型提取短时语音谱的谱包络，运算简单。LPCC特征可以较好的模拟人的声道特性，对元音描述能力很强，但没有考虑人耳的听觉特性，有对辅音描述能力差和抗噪性能差、易受外界噪声干扰的缺点。不过因为是参数化建模，计算量和存储量都很小，故常应用在运行效率有限但不要求精准描述的系统中。

MFCC和PLP两者都需要进行FFT计算，在频域上作听觉特性的模拟，为非参数化建模。它们的性能好于LPCC，抗噪性能也有明显提升，但因为FFT运算量比较大，对于某些低成本系统来说是难以承受的。

训练和识别是一个逆过程。训练阶段，所有的语音样本经特征提取后，通过数学方法，训练成模板，因为该过程处理的是大量语音数据，运算量非常大，故在嵌入式应用中，该过程通常需要借助PC机来完成。识别过程则将待识别语句的特征与模型

语音输入首先经过ADC，转换为数字信号；经过特征提取之后成为特征序列；将所有训练集合的特征序列进行训练，可以形成矢量量化(Vector Quantization VQ)的码本，同时将特征分为许多类，每类用码本中一个码字描述；特征序列经VQ码本量化可得到以矢量标号表示的特征序列，这些特征序列进行模型训练，可输出基于整词的语音识别模型；其后这些特征序列用得到的各模型分别识别，可得到N个识别输出分数用来训练其后的置信度模型；最终通过置信度模型测试判断是否该接受某次输入作为识别结果。在识别阶段，各步骤流程类似，但不对码本或模型作调整，只输出识别结果。在MCU上的部分则只有识别过程，其步骤和PC上一一对应，所用的码本和模型均为在PC上经过定点化后再下载到外部存储器中。

模型选择

语音识别中，目前主要采用的识别算法有三种，分别为动态时间规整(Dynamic Time Warping，DTW)；隐含马尔科夫模型(HiddenMarkov Model，HMM)；人工神经网络(Artificial Neural Network，ANN)。DTW算法模型简单，不需预先训练，计算匹配过程简单易行。但是DTW不引入任何隐含的对语言本身的模型描述，只是从时间上对在词表范围内的词一一进行匹配。而在面向非特定人的应用中，不可能对所有的说话人都一一存储特定词条的模板，因此DTW并不适用。ANN方法的优点是高度的并行处理及容错能力，因而在需要大量限制条件的认知任务中是非常吸引人的，但是ANN在反映语音的动态特性上存在重大缺陷，所以目前ANN通常和DTW或HMM结合使用。例如，Sensory公司就开发过基于ANN的语音识别系统。而HMM是基于大量语音数据的统计性模型，通过待识别语音同这些模型匹配的结果，确认匹配最好的模型，即为所得识别结果。由于HMM算法在训练过程中，统计了大量的语音数据，只要这些数据能够涵盖大部分的情况，就能够获得一个稳健的统计模型，能够适应实际语音中的各种变化情况。因此它获得了广泛的应用。综合考虑，本文决定采用基于HMM的统计模型，以便刻划许多人说同一句话的整体特点。

从模型的状态输出观察矢量的概率分布形式上区分，HMM可分为连续HMM(Continuous HMM)、离散HMM(Discrete HMM)以及介于两者之间的半连续HMM模型(Semi-CHMM)；从识别单元上区分，可以分为整词，音节，半音节模型；从连接关系上区分，可以分为上下文相关的CDHMM和上下文无关的CIHMM。其中CHMM算法用于非特定人识别时算法精度高、识别准确，在基于8位核的硬件平台上实现CHMM算法比较困难，CHMM算法运算量大，识别速度比较缓慢。针对于非特定人、混淆程度不高的小词表到中大词表识别任务，DHMM模型已经可以达到识别精度的要求，它具有具有识别速度快、资源开销小的优点；但是DHMM算法因为采用VQ过程降低模型精度，相对CHMM来讲会带来一定程度的识别率的下降。

(四)、嵌入式语音识别芯片的现状

1).各种结构的嵌入式语音识别系统的比较

嵌入式语音识别系统按使用主芯片的不同分三类：MCU实现，DSP实现和专用语音识别芯片实现。

使用MCU实现的嵌入式语音识别系统一般采用8位，16位或32位MCU实现，其中以8位和1 6位偏多。由于MCU的计算能力和存储空间有限，一般多采用计算量较小的LPCC作为识别特征，识别算法以特定人的DTW和非特定人的DHMM整词识别为主。

DSP是为了适合数字信号处理算法高效运行而专门设计的微运算器，它具有适合数字信号处理运算的结构单元，具有单指令周期的乘法器，它的总线一般采用哈佛结构，程序读取和数据读取可以同时进行，甚至有的DSP处理器具有多条数据总线，可以同时访问多个内存地址。DSP处理器往往都支持专门的寻址模式，这非常适合数字信号处理算法的执行。嵌入式语音识别系统一般选用定点DSP芯片作为主处理器，定点处理器成本较低，功耗较小，运算速度和运算精度适中，比较适合用于语音识别。在识别要求较高，不计成本的场合也可以选有浮点DSP芯片。以DSP实现的嵌入式语音识别系统通常使用MFCC作为识别特征，以CHMM为识别模型，常用维特比译码为识别解码算法。

专用的语音识别芯片一般为一个MCU单元结合一个DSP单元或一个专门的运算器件。专用的语音识别芯片根据语音识别算法优化了运算单元，为降低成本，简化了一些DSP的结构。专用的语音识别芯片合理配置了外设接口，使其更加适合语音应用的。比如配置了合适的ADC和DAC，集成了模拟音频放大电路，去除了一些用处不大的接口，如USB接口，网络接口等。总之，专用的语音识别芯片是为语音识别应用量身订做的，从性能和成本上更加适合了语音识别的应用。专用的语音识别芯片片内集成度高，使得芯片的外围电路很少，方便了用户对语音识别系统的设计和应用。专用的语音识别芯片和MCU、DSP相比也有缺点，它过于倾向于语音应用，牺牲了应用方向的灵活性。

经比较，MCU性能信号处理能力差，只能完成简单的应用，但成本最低，实现电路简单；DSP功能强大，处理能力强，适合多种应用，价格也比较昂贵。DSP一般不集成ADC、DAC和音频放大电路，而且对电源要求严格，一般还需要专门的电源芯片，由DSP芯片搭建的系统，外围电路比较复杂，总体成本会很高。目前技术发展可以在MCU的基础上，嵌入一个专用处理硬件提升MCU处理能力，实现高性能语音处理。这就是专用的语音芯片的设计思路，这样的芯片处理能力处于MCU和DSP之间，具有一定优势。专用的语音芯片计算能力完全能够满足特定的语音识别算法，集成了全面的语音处理的输入输出外设，实现系统总体成本较低，因此从性价比上讲专用语音识别芯片用于语音识别是最优的。

2).典型的专用语音识别芯片介绍

语音识别芯片已经出现多年，下面介绍两款比较典型的芯片。

(1)Unispeech

图2是现有技术的一种典型的语音芯片的框图。如图2所示，Unispeech是德国Infineon开发的专用语音芯片，它内部集成了一个16位DSP核(OAK)和一个八位MCU核(M8051)。该芯片集成了两路12bit的ADC和两路11bit的DAC，104KB的SRAM以及高灵活性的MMU等器件。其中DSP最高工作频率可达100MHz，MCU最高工作频率为50MHz。芯片上的两个处理器核是完全独立工作的，具有独立的寄存器空间和存储器空间，它们通过双核通信队列(FIFO)协同工作。为了充分利用存储空间和方便数据交换，Unispeech包含一个内存管理单元(MMU)，使得单片机核和DSP核可以非常方便的共享系统内存。

由于采用了SoC结构，构成系统的芯片数量少，系统的集成度和稳定性高。因此该芯片非常适合于开发带有语音识别功能的遥控器等应用。

Unispeech芯片结构

Unispeech的系统性能较高，应用灵活性也很强，但成本也较高。

RSC-4x

RSC-4x是美国Sensory公司最新一代(第4代)的语音识别产品，是2004年开发的，这是一款集成度很高的语音识别及语音合成处理器系列，针对的是消费类、手持类及车载类产品。RSC-4X系列芯片已为适用SENSORY语音识别7.0技术进行了优化设计，7.0技术是一套具有多种功能的高性能的语音识别和合成软件，如多词汇非特定人语音识别，多词汇特定人语音识别，连续语音中关键词捕获，说话人身份校验，语音与音乐合成等。RSC-4x内部集成了多个适合语音识别和合成应用的部件，包括一个8bit的微控制器，一个带有双向直接存储器(Twin-DMA)的向量加速器，16位A/D转换器，10位D/A转换器，片内集成4.8K字节RAM(其中256字节可供用户使用)，带自动增益控制的麦克风前置放大器，PWM扬声器驱动电路，计时器加单独的看门狗电路，4个比较器输入，2种省电模式及24个I/O口。RSC-4x系列的主要区别是内部ROM集成的数量。其中RSC-4000没有内部ROM，RSC-4128集成128KbyteROM，RSC-4256集成256Kbyte ROM。

RSC-4x系列芯片的语音识别技术基于HMM和人工神经网络，非特定人识别率高于97％，特定人识别率高于99％，识别的词条数量只和存储器大小有关。连续语音关键词检测最多可以检测10个非特定人关键词或4个特定人关键词。RSC-4x可以实现高质量的3.7-7.8kbps速率的合成语音。RSC-4x的大批量量产的供货价格最低可达3.5美元。

图3是现有技术的另一种典型的语音识别芯片的框图。如图3所示，RSC-4x芯片结构框图，RSC-4x是通过低成本，低性能微处理器(4MIPS)加专用运算处理器件实现非特定人语音识别技术的典型代表，它成本低，功耗小，性能较好。该芯片适合纯应用性的开发，不需要开发人员具有语音识别技术，但是该芯片也存在缺点。它的语音识别和合成技术是通过软件打包的方式提供的。该芯片不是开放式的，用户不能接触到具体运算代码，也不能访问和使用专用计算器件，应用的灵活性受到很大限制。由于该芯片的处理能力较弱，只能完成语音识别和合成功能，在实际应用时，一般只能在其他芯片的协助下工作，难以开发单芯片系统。

目前，嵌入式语音识别系统的需求很大，尤其在低端产品中需求很大。市场需要性能较好且成本较低的嵌入式语音识别系统，以语音识别专用芯片来实现是最佳选择。

当前语音识别技术及市面存在的语音识别芯片的缺点有：

1).开发难度大，普通客户无法自行开发。市面出现的语音识别芯片，需要使用者具备良好的语音识别技术的功底，这对于普通客户，是非常困难的。因为语音识别算法的复杂性，目前语音识别产品通常是由专门的方案提供公司来实现，客户需要寻找此类公司，进行个案开发。方案公司通常会收取高额的开发费用，且开发出的产品不具备通用性，修改和升级都非常麻烦，无法由用户自行完成。本发明的目的正是要降低用户的开发难度，使得普通用户可以很容易地实现语音识别产品的开发和升级。

2).成本高。无论是通用芯片还是市面已有的语音识别芯片，硬件系统的成本都相当昂贵，这制约了语音识别产品的普及。语音识别芯片成本偏高的主要原因在于需要有能力完成复杂的数学运算，针对这一点，本芯片设计了一种新的方案，在一颗普通8位核心的基础上增加一个专用数学运算单元，既解决了运算效率的问题，也有效地降低了成本。

3).开发和生产周期长。市面已有的语音识别产品，绝大部分采用ROM Code的方式，程序编写完成后，需要对芯片进行掩膜工艺，该工艺周期通常在一个半月以上，且掩膜需要收取掩膜费用，并有最小起订量的问题，这使得产品的开发和生产周期长，并存在很大的废弃和库存风险。本发明则采用最新的OTP(One TimeProgrammable，一次性编程)Rom技术，可以在芯片生产完成后再进行程序烧录，调试和生产都非常方便、灵活、快捷，没有起订量的限制。

4).通用性和一致性差。当前语音识别产品尚未形成统一的规格和标准，检验时也缺乏依据。个案开发时，虽然功能大同小异，但产品开发时却需要重新设计，导致重复劳作，效率很低。本发明在总结现有芯片的功能和特点的基础上，通过对语音识别常用功能部件的高度集成，构成了一个完整的片上系统，同时，芯片预置按键检测、LED显示、红外发射驱动及马达控制驱动等常用程序逻辑，用户只需要进行简单配置，即可完成语音识别产品的开发。

发明内容

鉴于以上所述的一个或多个问题，本发明提出了一种语音识别片上系统及采用该语音识别片上系统的语音识别方法，旨在设计一颗真正意义上的低成本高集成度的非特定人孤立词语音识别专用芯片，使其可适用于语音对话玩具，家电控制等领域，降低语音识别产品的开发难度，推进语音识别产品的广泛应用。

根据本发明的一个方面的语音识别片上系统包括：放大滤波模块，用于对模拟语音信号进行滤波和放大并将经过滤波和放大的模拟语音信号发送给模数转换模块；模数转换模块，用于将经过滤波和放大的模拟语音信号转换为数字语音信号并将数字语音信号发送给处理模块；以及处理模块，用于根据数字语音信号进行相应的处理；其中，放大滤波模块、模数转换模块、及处理模块均集成在一块芯片上。

其中，相应的处理包括相应的语音回馈、相应的控制、及相应的处理结果的传送中的至少一种处理。

处理模块包括：数字信号处理单元，用于控制数学运算单元、一次性可编程单元、及暂存单元，并对数字语音信号进行相对简单的处理；数学运算单元，对数字语音信号进行相对复杂的处理；一次性可编程单元，用于存储数字信号处理单元和数学运算单元进行处理所需的资料；以及暂存单元，用于暂存数字信号处理单元和数学运算单元进行处理的过程中的临时数据。

其中，数字信号处理单元可以是8位的类DSP。数学运算单元可以是通过硬件结构实现算法的单元。

该语音识别片上系统还可以包括：语音播放单元，用于在处理模块根据数字语音信号进行相应的语音回馈时播放所回馈的语音；I/O接口，用于在处理模块根据数字语音信号进行相应的控制时输出控制信号；以及通讯接口，用于在处理模块根据数字语音信号进行相应的处理结果传送时传送处理结果。

根据本发明另一方面的采用该语音识别片上系统的语音识别方法包括以下步骤：步骤一，放大滤波模块对模拟语音信号进行滤波和放大并将经过滤波和放大的模拟语音信号发送给模数转换模块；步骤二，模数转换模块将经过滤波和放大的模拟语音信号转换为数字语音信号并将数字语音信号发送给处理模块；以及步骤三，处理模块根据数字语音信号进行相应的处理。

其中，步骤三包括以下处理：处理模块将数字语音信号分成多个数字语音信号帧；处理模块提取多个数字语音信号帧中的每一帧的特征参数；处理模块将特征参数与预先存储的模型数据进行比较以获得数字语音信号的识别结果；以及处理模块根据识别结果进行相应的处理。其中，相应的处理包括相应的语音回馈、相应的控制、及相应的处理结果传送中的至少一种处理。

通过本发明，提供了一颗真正意义上的低成本高集成度的非特定人孤立词语音识别专用芯片，使其可适用于语音对话玩具，家电控制等领域，降低语音识别产品的开发难度，推进语音识别产品的广泛应用。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是现有技术的语音识别系统框图；

图2是现有技术的一种典型的语音芯片的框图；

图3是现有技术的另一种典型的语音识别芯片的框图；

图4是根据本发明实施例的语音识别片上系统的框图；

图5是根据本发明实施例的语音识别方法的流程图；

图6是根据本发明实施例的语音识别芯片的示意图；

图7是根据本发明实施例的DSP核心的框图；

图8是根据本发明实施例的阵列运算器的示意图；

图9是根据本发明实施例的语音识别芯片的语音识别的流程图；以及

图10是根据本发明实施例的语音识别芯片具体应用的示意图。

具体实施方式

下面参考附图，详细说明本发明的具体实施方式。

语音识别芯片是极具市场前景的高技术产品，但目前国内尚无真正意义上的语音识别专用芯片。开发语音识别产品时，需要在一些通用芯片的基础上，进行语音识别算法的研发，技术门槛高，且费时费力；国外虽然有语音识别专用芯片，但成本高，且对中文的适应性不好，另外，由于采用掩膜工艺，生产周期长，有最小起订量的限制，难被用户广泛接受。本发明通过设计具备高集成度的语音识别专用芯片，统一技术规格，降低系统成本，缩短用户的开发和生产周期，推进语音识别产品的应用。

图4是根据本发明一个实施例的语音识别片上系统的框图。如图4所示，该语音识别片上系统包括：放大滤波模块402，用于对模拟语音信号进行滤波和放大并将经过滤波和放大的模拟语音信号发送给模数转换模块；模数转换模块404，用于将经过滤波和放大的模拟语音信号转换为数字语音信号并将数字语音信号发送给处理模块；以及处理模块406，用于根据数字语音信号进行相应的处理；其中，放大滤波模块、模数转换模块、及处理模块均集成在一块芯片上。

图5是根据本发明实施例的语音识别方法的流程图。如图5所示，根据本发明实施例的采用上述的语音识别片上系统的语音识别方法包括以下步骤：

步骤S502，放大滤波模块对模拟语音信号进行滤波和放大并将经过滤波和放大的模拟语音信号发送给模数转换模块；

步骤S504，模数转换模块将经过滤波和放大的模拟语音信号转换为数字语音信号并将数字语音信号发送给处理模块；以及

步骤S506，处理模块根据数字语音信号进行相应的处理。

其中，步骤S506包括以下处理：处理模块将数字语音信号分成多个数字语音信号帧；处理模块提取多个数字语音信号帧中的每一帧的特征参数；处理模块将特征参数与预先存储的模型数据进行比较以获得数字语音信号的识别结果；以及处理模块根据识别结果进行相应的处理。其中，相应的处理包括相应的语音回馈、相应的控制、及相应的处理结果传送中的至少一种处理。

图6是根据本发明实施例的语音识别芯片的示意图。如图6所示，在本发明的实施例中提供了一颗真正意义上的低成本高集成度的语音识别专用芯片，使其可适用于智能对话玩具，家电控制等各类智能应用领域。芯片采用当前流行的软硬件协同设计的模式，用户无需对芯片进行任何编程，只需通过开发工具，对芯片的外挂存储器进行简单配置，即可实现语音识别产品的开发。

根据本发明实施例的语音识别专用芯片，是在一颗芯片中嵌入8位类DSP(digital signal processing，数字信号处理)核心、RAM、ROM、A/D、D/A等，构成一个完整的语音识别片上系统SOC(SystemOn Chip，片上系统)，并针对语音识别，语音编解码等的特殊需要，在芯片内部集成了公司自创的专用数学运算单元，使8位DSP芯片能够快速处理识别16位语音数据。芯片内嵌语音识别引擎，该引擎采用目前国际主流的HMM孤立词语音识别算法及LPCC/MFCC语音特征提取算法，并包含自行设计的语音编解码及语音合成等算法。

语音信号通过AGC(auto gain control自动增益控制)音频放大电路模块处理，再由ADC(analog-digital converter，模数转换器)模块将模拟信号转换为数字信号提供给系统运算处理，模拟信号也可通过系统提供的16个I/O脚位输入进行ADC转换。

各个模块简述：

ADC模块：芯片提供3组16位元之转换资料，架构上为多工扫描，可同时进行3个模拟信号(从I/O脚位或是MIC讯号)转换，再透过软件设定切换信号源，达到测量多组模拟信号之目的。

AGC模块：系统内建了麦克风放大线路及自动增益调整之电路，让输入之语音资料能维持一定的SNR以上，对于语音识别应用会有相当程度的提升。

I²C(inter-integrated circuit)&SPI(serial peripheral interface)模块：系统内建I²C及SPI传输接口，可轻易连接外部之扩展存储器达成不同的语音资料库储存，亦可透过此接口更改存储器的内容。此外，也可通过次接口，将系统定义为语音识别运算协处理器。

TIMER(计时器)模块：内建2个8位元计时器，可分别设定所需的周期，每次周期达到时可产生中断信号，并要求DSP处理信号，其中包含声音输入编码处理及语音输出解码处理等。

I/O接口：16个独立设定之输入/输出I/O，可为类比讯号输入选择或是数位输出入选择，其中8个I/O具备中断功能，提供系统处理按键功能。

DAC(digital-analog converter，数模转换器)模块：2个独立的16位元DAC输出电压信号准位，可提供声音信号输出之依据或是模拟电压信号提供外部控制电路所需之准位。也可通过ADC输入信号后进行算法处理，更新电压信号并输出，实现数字滤波等各类处理功能。

EQ(平衡放大器，equalizer amplifier)&AMP(功率放大器)：由DAC输出的音频信号可通过内建之EQ，由外接元件达成滤波器电路，再将此滤波信号输入到系统提供的喇叭驱动电路，提供0.5W功率Class-AB方式的功放(AMP)驱动，AMP的驱动信号亦可为PWM(pulse width modulation，脉宽调制)数字信号，可由芯片的配置寄存器进行设定。

RC(Resistance-Capacitance电阻电容)、OSC(Oscillator，振荡器)&PLL(phase Locked Loop，锁向环)模块：芯片的运行频率来源于自身RC振荡，芯片只需外接一个电阻，即可产生一个2M Hz基频，再以这个频率透过PLL产生高频信号，倍频数的设定在程式运行中可动态调整，倍数范围从16.13～38.40倍，调节精度约为0.25MHz。利用调整操作频率，可取得运算复杂度与功耗间的最佳方案。

SRAM(Static Random Access Memory，静态随机存取存储器)：SRAM为系统提供操作所需的资料暂存空间，本芯片还可将程序代码载入到SRAM中运行，实现程式代码的动态搬移，例如可由外部储存器中读取代码，达到应用程序更新的目的。此空间支持资料暂存和程序代码的混合使用，无特殊限制。

OTP ROM：OTP(One Time Programmable，一次性可编程)ROM是系统上电时的默认程序资料的存储器，其存储内容既可以是程序，也可以是数据，可将其视为类似BIOS形态。OTP使得芯片程序内容可在出货时再决定，达到少量多样化，快速更新及快速交货之目的。为实现语音识别应用需求，ROM中已预植入公司自行设计的非特定人孤立词语音识别引擎。该引擎使用目前国际主流的HMM识别算法及LPCC/MFCC语音特征提取算法，并包含自行研发的语音编解码及语音合成算法。

PWM：此区块可依设定之频率产生中断，而其有效周期可随时更改，且可透过I/O将PWM的信号输出，输出信号可定义为ActiveHigh/Low。通过此模块可实现红外线传输的应用。另外此模块还可进一步定义它的输出来独立控制P/N MOS之H/L Side，这样，使用PWM功能，配合系统的Multi-Channel ADC可达到控制“无刷电机”的目的。

图7是根据本发明实施例的DSP核心的框图。如图7所示，简单来说，DSP之内部为一组高速暂存器之资料搬移，其搬移行为的定义在uCode内，如此设计可让硬体电路设计单纯化，但是其运算能力却是无穷的。uCode为一小块高速ROM，其内容决定暂存器间搬移的关系，它的内容是可变换更新的，意即不同的uCode赋予DSP不同的工作行为＝＞不同的指令定义＝＞不同的指令集。

在预设某一个应用领域的程式代码时常常会因为uC指令集的定义限制，而无法让效能再往上提升，也可能因为某个环节是运算瓶颈而限制了效能攀升的可能。这时可将此一瓶颈通过改写uCode来解决，不同uCode，相同的代码效能可差异到5倍之多。采用此种形式，也可定义出特殊应用领域的指令集，甚至是个人专属的指令集。这对于提高语音识别应用的效率，起到了非常重要的作用。

随着uCode的变化，指令的定义也跟着变化，与之相应的，配合的Compiler也需变化，此点在HBR系列芯片设计之初已经解决。

在DSP内部有一组MTR暂存器的定义，其目的是结合不同形态的存储器，整合为一个SOC。各形态存储器的执行效率和反应时间皆不一样。MTR就是来定义各个位置空间上的存储器的效率。如此可根据需要来选择是否搭配“快速读写存储器”，以达到效率和成本的平衡。在存储器读写的设计上，它是一个线性空间关系，此空间最大定义范围16MB，这在消费性产品上来说已经足够。程序代码，数据区，I/O口皆是由uCode的定义决定，并无一定关系存在。

该语音识别芯片的中断模式是由硬件完成信号判断，得到中断信号后其具体行为仍然是由uCode定义。中断之种类共可分为Edge/Level Trigger，在Edge Trigger时又有Go High/Low之定义可供选择。中断向量可通过软件更新ISR(中断状态寄存器)程式进入点，此位置为RAM的定义区，也即是程式运行中可动态改变所需之ISR。

DSP也提供BUS-REQ之应用需求，可结合DMA形态之整合设计，在实际应用时可获得最佳效能。

MATH Block(数学运算单元)：阵列运算器，该部分为该语音识别芯片独创的专用数学运算单元，特别适合于语音识别，语音压缩编解码等语音算法处理。该模块使得该语音识别芯片在Kernel比国外专业运算DSP的运行频率和配置都远低得多的情况下，却可以提供与之相当的运算效率，大大降低了专业语音识别芯片的成本。

在一些算法处理中，通常会有运算模型中的瓶颈，利用硬体模块辅助运算，提升运算效率，可达到事半功倍之目的。为此，该语音识别芯片设计了阵列运算模块，可进行如下数学运算。

Σ_{i = 0}^{31} {[(X_{i} + Y_{i}) {\times Z}_{i}]}^{2}

Σ_{i = 0}^{31} {[(X_{i} - Y_{i}) {\times Z}_{i}]}^{2}

Σ_{i = 0}^{31} {[(X_{i} \times Y_{i}) {* Z}_{i}]}^{2}

Xi与Yi之间的运算可为加、减、乘三种运算，平方运算可独立控制。此模块为一个DMA结构设计，当运算启动后，系统存储器汇流排会被此模块占用，运算完成后再释放控制权。图8是根据本发明实施例的阵列运算器的示意图。如图8所示，系统DATA BUS为8-Bit结构，读取16位元资料需2个CLOCK周期，最多时3个指针都会读取资料，为了让资源有效利用，因此采取Pipe-Line结构设计，让读取与运算同时进行。

完成一项阵列元素的运算需6+3个CLOCK，其中3个CLOCK是重叠的，不必重复计算。若阵列元素共有16个元素，则运算完成共需：

(16*6)+3＝99个CLOCK。

在累加运算过程中，对于溢位判断加入了处理，而运算之资料可定义为有符号及无符号数处理，溢出结果会自动赋予正确的最大值和最小值。

X、Y、Z三个数学阵列运算器的指针也可以单独使用，可定义为16位元指标暂存器或定义为24位元指标器，用于对资料数据的运算、搬移及查表等，可提升运算效能。

该语音识别芯片的软件原理：

该语音识别芯片的ROM区已预植入公司自行设计的非特定人孤立词语音识别引擎，可实时实现非特定人语音识别及HVC1高压缩格式语音的解码回放过程。该引擎使用目前国际主流的HMM识别算法及LPCC/MFCC语音特征提取算法，并包含自行研发的语音编解码及语音合成算法。

语音识别：

该语音识别芯片设计了专用的数学运算单元，实现非特定人(SI，Speaker Independent)孤立词语音识别功能。相对于特定人(SD，Speaker Dependent)识别系统而言，非特定人识别的终端产品无须用户训练过程(User Training)，这增加了产品使用的便捷性，使得一套系统可以同时适应多个用户。

图9是根据本发明实施例的该语音识别芯片的语音识别的流程图。如图9所示，特征提取算法提供线性预测倒谱参数LPCC(LinearPrediction Cepstrum Coefficient)和Mel频标倒谱参数MFCC(MelFrequency Cepstrum Coefficient，MFCC)两种可选。采用此两种特征提取算法的系统识别率会有差异，同样运算复杂度上也存在很大差异，故所需的运行频率、电压和功耗也有很大差异，在实际使用中可根据具体需求综合选取。

训练和匹配计算时，该语音识别芯片使用基于隐含马尔科夫模型HMM(Hidden Markov Model)算法，该算法通过对大量语音数据进行数据统计，建立识别词条的统计模型，然后从待识别语音中提取特征，与这些模型匹配，通过比较匹配分数以获得识别结果。通过大量的语音，就能够获得一个稳健的统计模型，能够适应实际语音中的各种突发情况。因此，HMM算法具有良好的识别性能和抗噪性能。

该语音识别芯片可识别的最大词条数为64条，这些词条被称为命令句或命令词，命令句的长度(正常语速下)在0.5秒到2.5秒之间。命令句是基于统计方法建立的隐马尔可夫模型，它们被存储在通过串行接口与该语音识别芯片相连的SPI Flash中。

该语音识别芯片具备自动语音端点检测(Voice ActivityDetection)功能，根据语音的连贯性，一次有效的语音采集过程被分为四个状态：无声状态-＞激活状态-＞有声状态-＞非激活状态-＞无声状态，从激活状态开始到非激活态结束的语音信号被作为有效信号，并用于识别。

在该语音识别芯片上，一次完整的语音识别会经历如下阶段：

语音分帧，将连续语音按每24ms一帧(Frame)进行分隔。

特征提取，提取每一帧语音数据的特征参数。

端点检测，通过判定每帧语音的能量及特征参数等，检测待识别语句的开始帧和结束帧。

HMM匹配，利用已提取的特征数据与Flash中存储的命令词的HMM模型数据进行运算，得到待识别语句与每一个模型所代表之语音的似然分数(Model Likelihood)。

结果判定，对各模型的似然分数进行比较，找出最大及次大似然分数值，并依据语音帧长、最大似然分数及次大似然分数等进行条件判定，如符合门限要求，则最大似然分数模型所对应的命令词即为识别结果，否则，待识别语句被认定为非识别集内词，需要加以拒识。

结果处理，根据判定结论进行语音播放及相应处理。

在安静环境下，该语音识别芯片可以得到上佳的识别率。在识别命令集包含20条语句的情况下，集内词的识别正确率达到97％以上，可满足大部分无须精确识别的产品的应用需求。

该语音识别芯片具有对环境噪声的自适应能力，故在平稳噪声环境下，该语音识别芯片具有良好的识别率。经测试，在平稳白噪声环境，信噪比(SNR)为12dB时，识别率仍可达到90％。

解码放音：

在语音提示和识别应答时，都需要用到语音回放。为节约存储空间，原始语音应进行压缩编码，需要时再解码播放。该语音识别芯片提供两种高质量解码放音方法，它们都是针对存储于外部SPIFlash内的编码语音数据进行的，其数据码率分别为8Kbps和32Kbps。制作编码数据时，根据不同的音源内容，用户可以选择适当的压缩编码方式。对于以语音为主的部分，建议使用公司自行研发的HVC1(Helios-ADSP Voice Codeing 1)方法编码，其压缩数据的码率为8Kbps，在获得更高压缩率的同时，能保证较高的质量；对于器乐及摇滚等音乐内容，建议使用ADPCM压缩方法，其压缩数据的码率为32Kbps。该语音识别芯片可自动识别压缩语音的编码格式，并解码回放。

其他功能：

该语音识别芯片包括PORT0及PORT1两组共16个管脚，提供SPI Flash接口、音频电路的电源控制、按键输入、LED驱动、MOTOR驱动、红外发射驱动及串行数据输出等多种常用功能。该语音识别芯片还提供双线串行通讯功能，可作协处理器使用，便于系统的应用扩展。

2)、主要技术与性能指标

该语音识别芯片是一颗低成本高性能的非特定人语音识别芯片，具有很高的集成度。其主要指标包括：

软件指标：

非特定人、孤立词语音识别功能

可识别64条以内的语音命令

正确识别率达97％以上

高质量的8Kbps，32Kbps压缩语音解码

硬件指标：

内建R/C基频振荡电路及PLL电路

内建3路16位模拟/数字转换音频接口(ADC)

内建2路16位数字/模拟转换音频接口(DAC)

内建1组混音滤波放大的运算放大器(Amplifier)

内建功率放大电路，可驱动8Ω/0.5W喇叭或蜂鸣片(Buzzer)

16个功能控制I/O，内建LED，MOTOR，IR驱动控制

识别结果的双线串行输出

低电压复位(LVR)

外部按键唤醒

工作电压范围：2.7V～3.6V

正常工作电流：14mA(3V，无负载，不放音)

休眠模式电流：8uA

工作温度范围：-40℃～85℃。

综上所述，在本发明的实施例中，提出了一种新的语音识别专用芯片的解决方案，设计独特的数学运算单元，低成本实现高性能；提出了一种自行开发的语音压缩编解码算法HVC1，并在芯片上实现该算法的解码部分；设计了独特的8位类DSP核心，可以针对不同的应用，更改其逻辑行为，以达到最佳的效率；采用先进的OTP(One Time Programmable)Rom技术，无需传统的掩膜工艺，具有开发时间少，生产周期短，方便灵活等优势，可以为广大用户提供低成本，高质量，迅速快捷的芯片成品；高度集成性，内部集成16bitADC，16bit DAC，音频放大AGC电路及0.5W的音频功放等语音处理单元，秉承了极佳的单片系统(SOC)设计理念。

芯片ROM中已植入具备良好性能的非特定人语音识别及语音编解码算法引擎，并预设各类常见的I/O控制和通讯功能，实现了一颗真正意义上的语音识别专用芯片。用户无需对芯片编写程序，也没有程序烧录过程，只需透过开发工具对搭配的SPI Flash进行简单配置，即可完成非特定人语音识别产品的开发过程。

(1)理论创新

提出了一种新的语音识别专用芯片的解决方案，设计独特的的数学运算单元，低成本实现高性能。

目前，国内尚无真正意义上的语音识别芯片，嵌入式语音识别系统通常是采用通用语音处理芯片，依靠用户自己进行语音识别算法的软件开发，来实现语音识别和人机交互功能。这样，所需的硬件平台，通常是16位DSP及以上配置的芯片，其成本通常较高。

该语音识别芯片通过自创的适合语音算法处理的专用数学运算单元，再配合一颗普通的8位类DSP核心，即可快速处理16位语音数据，实现原来只能在16位DSP芯片及以上配置才能实现的复杂算法和应用。

该数学运算单元(Math Block)可实现X，Y，Z三个16位数组的组合运算，只需指定三个数组的起始地址和数组元素的个数(最多32个)，即可一次性实现两组或三组数值间的乘累加，乘乘加、平方和等运算，这使得语音处理算法中的各类频繁运算得到极大的简化，大大地降低了对芯片的工作频率和执行效率的要求。这样，一个阵列运算器搭配一个运算能力较弱但控制功能较强的CPU核心，既可实现复杂的语音识别算法，又能达到较好的控制功能，也非常有效地降低了成本。

该数学运算单元可实现的操作是：∑{[(X_i m Y_i)＊Z_i]²}

其中m为运算子，可选择为加法，减法和乘法操作；平方操作可选择使能或不使能，数组元素的个数i最大值为32。

提出了一种自行开发的语音压缩编解码算法HVC1，并在芯片上实现该算法的解码部分。

HVC1(Helios-ADSP Voice Coding 1)是北京承芯卓越科技有限公司自主研发的一种适合嵌入式芯片实现的高压缩率语音编解码方法。该方法采用改进的CELP算法，其数据码率为6Kbps～16Kbps，在选择8Kbps数据码率的情况下，其解码播放的语音质量可达MOS分3.9以上。

该语音识别芯片实现了HVC1格式语音的解码算法。对于语音识别应用而言，通常没有大量的录音需求，故无需进行高压缩率的语音编码，但压缩语音的解码回放则非常必要。该语音识别芯片可以处理存储在SPI Flash内的压缩语音数据，它可以自动判定语音压缩格式，支持ADPCM及HVC1两种格式，并实现解码回放，达到良好的语音质量。

(2)技术创新

设计了独特的8位类DSP核心，可以针对不同的应用，更改其逻辑行为，以达到最佳的效率。

芯片的CPU核心决定了芯片的基本特性和能力。该语音识别芯片的核心是一个增强型类似DSP的8位Kernel。芯片具有独特的类DSP核心，该核心由uCode模块和一组高速暂存器共同构成。uCode模块负责诠释程序代码，并决定高速暂存器间的搬移关系，完成CPU的逻辑行为，这样的构成，使得同一套硬件结构，可实现的逻辑行为却是无限的。因uCode模块是一小块特殊的高速ROM，每次投产时都可以更改，这样，针对不同的应用算法，或者不同的需求，可以升级uCode，来达到最佳的效率。

采用此种形式，也可定义出特殊应用领域的指令集，甚至是个人专属的指令集。这对于提高语音识别应用的效率，起到了非常重要的作用。

采用先进的OTP Rom技术，无需传统的掩膜工艺，具有开发时间少，生产周期短，方便灵活等优势，可以为广大用户提供低成本，高质量，迅速快捷的芯片成品。

目前国内的几个同档次的语音识别系统所用的芯片平台，如台湾Sunplus公司的SPEC061，美国Sensory公司的RSC3XX，RSC4XXX等，都是采用传统的掩膜工艺，其最小起订量通常在10K左右，而掩模所需的时间长，存在的风险大，一旦代码存在问题，就会造成大量的废品积压，造成重大损失，故而掩膜工艺非常不利于减小风险，少量多样，快速供货。

在一个实施例中，该语音识别芯片使用台湾力旺电子(eMemoryTechnology)的3.3V 0.18s制程的Neobit OTP，此类OTP具有低功耗，高效能的特性，成为取代目前ROM code，EPROM/Flash应用的一大趋势。由于OTP可在晶片制作、测试及封装完之后再进行可编程，而ROM则必须在晶片制作完成前写入程序代码，EPROM及Flash工艺则制程复杂，制造成本高，开发时间长，对于消费性电子制造商而言，OTP无疑是降低库存风险的一大利器，且其制造成本也有20％到30％的下降空间。

高度集成性，内部集成16bit ADC，16bit DAC，音频放大AGC电路及0.5W的音频功放等语音处理单元，秉承了极佳的单片系统(SOC)设计理念。

该语音识别芯片在8位类DSP核的基础上，集成了专用的数学运算单元，且芯片内含充足的SRAM及OTP ROM；此外，芯片提供3路16位ADC及2路16位DAC通道，可实现高质量的音频输入输出转换；芯片内置放大倍数软件可调的AGC及ALC电路，实现从Microphone输入的音频信号的放大和处理，并提供到ADC的输入口；芯片内置输出音频功率放大器(AMPLIFIER)，可直接驱动0.5W 8Ω的扬声器；此外，片内还集成有R/C基频振荡电路及倍频可控的PLL电路，集成了LVR低压复位电路等。

用户只需要外接一颗串行SPI Flash，连接Microphone输入和Speaker输出，并配合几个简单的电阻电容，即可构成一个完整的语音识别产品。SOC设计思路使得该语音识别芯片的外围电路大大的精简，成为目前嵌入式语音识别领域里集成度最高的芯片。

(3)应用创新

芯片ROM中已植入具备良好性能的非特定人语音识别及语音编解码算法引擎，并预设各类常见的I/O控制和通讯功能，实现了一颗真正意义上的语音识别专用芯片。

关于该语音识别芯片，旨在设计一颗真正意义的语音识别专用芯片，其目的是要使不具备语音识别专门知识的用户也可以开发和设计属于自己的语音识别产品，极大地降低用户的开发难度，缩短开发周期，使得语音识别产品具有通用性和一致性，拓展语音识别技术在日常生活中的应用，使其为生活带来更大的便捷、效率和乐趣，促进生活质量的改善。

该语音识别芯片的OTP ROM中已植入非特定人孤立词语音识别引擎，可实时实现非特定人的语音识别及HVC1高压缩格式语音的解码回放过程；此外，该语音识别芯片定义了多个动作控制的端口，用户仅需简单配置即可实现按键输入、LED显示、马达驱动及红外发射驱动功能。该语音识别芯片还提供双线串行数据通讯，可作协处理器使用，便于系统的应用扩展。

使用该语音识别芯片的用户无需对芯片编写程序，也没有程序烧录过程，只需透过北京承芯卓越科技有限公司提供的具备友好界面的PC开发工具对搭配的SPI Flash进行简单配置，即可完成非特定人语音识别产品的开发过程。目前，已经有很多客户(包括香港汉镭科技、台湾瑜得、福建恒盛、中科院声学所、深圳喜之宝、广州优扬、深圳优硕等公司和机构)正在使用我公司的HBR系列语音识别芯片及PC开发套件。

(4)国内外同类项目比较

测试项目	美国	德国	台湾	我公司
测试项目	美国	德国	台湾	我公司	芯片型号	RSC-X	Unispeech	SPEC061	该语音识别芯片
CPU核心	8-bit MCU	16bit DSP	16bit	8-bit DSP	芯片型号	RSC-X	Unispeech	SPEC061	该语音识别芯片
CPU核心	8-bit MCU	16bit DSP	16bit	8-bit DSP	内部ADC	16-bit	2路12-bit	10-bit	3路16-bit
内部DAC	10-bit	2路11-bit	2路10-bit	2路16-bit	内部ADC	16-bit	2路12-bit	10-bit	3路16-bit
内部DAC	10-bit	2路11-bit	2路10-bit	2路16-bit	内部AGC	有	有	有	有
内部AMP	无	无	无	有	内部AGC	有	有	有	有
内部AMP	无	无	无	有	识别模式	SI/SD/SV	第三方提	第三方提	SI

芯片成本	$1-$2.5	$3.5	$1	$0.5
芯片成本	$1-$2.5	$3.5	$1	$0.5	应用开发	简单	复杂	复杂	简单
程序存储器	ROM	无ROM	ROM	OTP ROM	应用开发	简单	复杂	复杂	简单
程序存储器	ROM	无ROM	ROM	OTP ROM	知识产权	Sensory拥	清华大学	Sunplus拥	我公司

以下分析本公司与国内外竞争对手相比优势：

本公司同时具备了芯片硬件设计能力及语音识别算法设计能力，完成了一颗真正意义上语音识别专用芯片，这一点上，与国外Sensory公司RSC-X系列芯片一致，优于德国Infenion的Unispeech及台湾Sunplus的SPEC061芯片。

本公司芯片的集成度最高，音频模块所配置的各项指标也最高。

本公司的语音识别专用芯片售价＜＝1美元/片，为目前市场同类芯片的最低价。

本公司的语音识别芯片采用OTP技术，无须掩膜工艺，无最小起订量限制，开发和生产周期短，可以做到小量多样，无库存风险。

利用本公司提供PC端开发工具，用户无须具备语音识别相关的专门知识，降低技术门槛，使得普通用户也可以开发语音识别产品，这一点相比于其他公司的产品有明显优势。

由于中国是世界工厂，有相当多的玩具、家电产品的加工生产商都在国内，我们可以投入更多的技术支持力度，争取更多用户。

本项目的主要研究内容为：

研制一颗具有自主知识产权的低成本高性能非特定人孤立词语音识别芯片。具体包括芯片的研发、制造、封装和测试，基于芯片的应用样品的研制，芯片应用开发套件的研制等。

图10是根据本发明实施例的语音识别芯片具体应用的示意图。如图10所示，该语音识别芯片典型应用系统的示意图。该语音识别芯片的作用：将使用者的语音通过Microphone拾取，并经AGC电路放大后，由ADC模块转换为数字信号，再通过内部算法处理，进行语音特征提取及语音的起始和结束端点判定，提取的特征数据与系统已存储的语音模型数据(Model)进行匹配比对，得出输入语音的识别结果，再依据识别结果，使用DAC，AMP和Speaker输出应答语音，并进行相应的动作控制。

该语音识别芯片本身被定义为一个迷你的完整应用的独立片上系统(SOC)，这一点可以从上图中看到，用户只需要搭配一颗串行存储器(SPI Flash)，用于存储待播放语音数据和待识别语音的模型数据，再连接麦克风输入、扬声器输出、按键和指示灯等简单外围，即可构成一个语音识别模块。

此外，该语音识别芯片也提供了双线串行通讯功能，可以用作协处理芯片，便于系统的应用扩展。

项目所涉及的关键技术为：

类似DSP核心的8位Kernel的研制；

适合各类语音算法处理的专用数学运算单元(阵列运算器)的设计

适合于语音识别应用需求的uCode指令集的设计；

非特定人孤立词语音识别引擎及应用框架程序的设计；

高质量高压缩率的HVC1语音编解码算法的研发。

芯片主要技术指标包括：

软件指标：

非特定人、孤立词语音识别功能

可识别64条以内的语音命令

正确识别率达97％以上

高质量的8Kbps，32Kbps压缩语音解码功能

硬件指标：

内建R/C基频振荡电路及PLL电路

内建3路16位模拟/数字转换音频接口(ADC)

内建2路16位数字/模拟转换音频接口(DAC)

内建1组混音滤波放大的运算放大器(Amplifier)

内建功率放大电路，可驱动8Ω/0.5W喇叭或蜂鸣片(Buzzer)

16个功能控制I/O，内建LED，MOTOR，IR驱动控制

识别结果的双线串行输出

低电压复位(LVR)

外部按键唤醒

工作电压范围：2.7V～3.6V

正常工作电流：14mA(3V，无负载，不放音)

休眠模式电流：8uA

工作温度范围：-40℃～85℃。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别片上系统，其特征在于，包括：

放大滤波模块，用于对模拟语音信号进行滤波和放大并将经过滤波和放大的模拟语音信号发送给模数转换模块；

所述模数转换模块，用于将所述经过滤波和放大的模拟语音信号转换为数字语音信号并将所述数字语音信号发送给处理模块；以及

所述处理模块，用于根据所述数字语音信号进行相应的处理；

其中，所述放大滤波模块、所述模数转换模块、及所述处理模块均集成在一块芯片上。

2.根据权利要求1所述的语音识别片上系统，其特征在于，所述相应的处理包括相应的语音回馈、相应的控制、及相应的处理结果的传送中的至少一种处理。

3.根据权利要求1所述的语音识别片上系统，其特征在于，所述处理模块包括：

数字信号处理单元，用于控制数学运算单元、一次性可编程单元、及暂存单元，并对所述数字语音信号进行相对简单的处理；

所述数学运算单元，对所述数字语音信号进行相对复杂的处理；

所述一次性可编程单元，用于存储所述数字信号处理单元和所述数学运算单元进行处理所需的资料；以及

所述暂存单元，用于暂存所述数字信号处理单元和所述数学运算单元进行处理的过程中的临时数据。

4.根据权利要求3所述的语音识别片上系统，其特征在于，所述数字信号处理单元是8位的类DSP。

5.根据权利要求3所述的语音识别片上系统，其特征在于，所述数学运算单元是通过硬件结构实现算法的单元。

6.根据权利要求2所述的语音识别片上系统，其特征在于，还包括：

语音播放单元，用于在所述处理模块根据所述数字语音信号进行相应的语音回馈时播放所回馈的语音。

7.根据权利要求2所述的语音识别片上系统，其特征在于，还包括：

I/O接口，用于在所述处理模块根据所述数字语音信号进行相应的控制时输出控制信号。

8.根据权利要求2所述的语音识别片上系统，其特征在于，还包括：

通讯接口，用于在所述处理模块根据所述数字语音信号进行相应的处理结果传送时传送处理结果。

9.一种采用前述权利要求中任一项所述的语音识别片上系统的语音识别方法，其特征在于，包括以下步骤：

步骤一，放大滤波模块对模拟语音信号进行滤波和放大并将经过滤波和放大的模拟语音信号发送给模数转换模块；

步骤二，所述模数转换模块将所述经过滤波和放大的模拟语音信号转换为数字语音信号并将所述数字语音信号发送给处理模块；以及

步骤三，所述处理模块根据所述数字语音信号进行相应的处理。

10.根据权利要求9所述的语音识别方法，其特征在于，所述步骤三包括以下处理：

所述处理模块将所述数字语音信号分成多个数字语音信号帧；

所述处理模块提取所述多个数字语音信号帧中的每一帧的特征参数；

所述处理模块将所述特征参数与预先存储的模型数据进行比较以获得所述数字语音信号的识别结果；以及

所述处理模块根据所述识别结果进行相应的处理。

11.根据权利要求9或10所述的语音识别方法，其特征在于，所述相应的处理包括相应的语音回馈、相应的控制、及相应的处理结果传送中的至少一种处理。