CN101017428A

CN101017428A - 一种嵌入式语音交互装置及交互方法

Info

Publication number: CN101017428A
Application number: CNA2006101695431A
Authority: CN
Inventors: 沈煌辉; 郑为民
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2006-12-22
Filing date: 2006-12-22
Publication date: 2007-08-15

Abstract

本发明涉及一种具有嵌入式结构的语音交互装置及交互方法，该交互装置包括电源、时钟发生器，中央处理器、音频编解码芯片、FLASH存储器、静态存储器；所述的FLASH存储器是一种存储有固化的语音识别模块、语音库模块和语音合成模块的只读存储器。本发明的交互方法包括如下步骤：加载语音识别模块、语音库模块和语音合成模块到静态存储器中；模数转换，量化编码；调用语音识别模块；调用语音库模块；调用语音合成模块；得到具有语音波形的应答数字声音信号；数模转换和混声音质处理；拟人声音信号输出。与现有技术相比，本发明的通用性更强，实用性更强，识别率更高，识别词表更大；同时具有高速处理能力、低功耗、低成本、易于扩展、可移植性强等优点。

Description

一种嵌入式语音交互装置及交互方法

技术领域

本发明属于语音处理领域，特别涉及一种具有嵌入式结构的语音交互装置及交互方法。

背景技术

目前基于语音处理技术的消费类电子产品在市场上大为流行，从自身角度大致可以分为以下几种类型：(1)主动型，即用户利用语音控制被控对象，让被控对象产生各种响应，如声控玩具，语音拨号等；(2)被动型，即将语音事先录制好存储在内存中，用户通过一些非语音触发让产品发出预期的语音，如电子语音图书等；(3)交互型，即产品和用户之间可以进行简单的交流，如互动玩具等。对于前两种类型，语音的流程都是单向的，已不能满足人们日益增长的物质精神追求。虽然目前语音交互型产品也有在市场上出现，但是其交互的方式、场合和可靠性等均受到很大的限制。

目前，大多数语音交互产品在硬件上都是基于专用的语音识别芯片，其内核是MCU(单片机)或DSP(数字信号中央处理器)，其实是将从麦克风输入的声音信号(模拟信号)经过片内的ADC模块采样编码，然后通过其内部中央处理器处理，(就是指MCU或DSP)与事先录制好的语音信息(通常是压缩编码后的语音信息)匹配，再将压缩编码后的语音信息通过片内的DAC模块经过外置的扬声器输出，其结构如图1所示。但是由于语音内容是事先录制好的，内容有限，用户更新困难，而且语音识别的字数也因为硬件而受限，一般是6～10字。

发明内容

本发明的目的在于，克服现有技术的不足，提出一种通用性较强的基于嵌入式中央处理器的智能语音交互装置及其交互方法。

为实现上述发明目的，本发明提供的嵌入式语音交互装置，如图3所示，包括电源、时钟发生器，其特征在于，还包括中央处理器、音频编解码芯片、FLASH存储器、静态存储器；所述的FLASH存储器是一种存储有固化的语音识别模块、语音库模块和语音合成模块的只读存储器；所述中央处理器分别与所述的音频编解码芯片、所述的FLASH存储器、所述的静态存储器、所述电源和所述时钟发生器相连；所述静态存储器与所述的时钟发生器相连。

上述技术方案中，所述的中央处理器采用嵌入式处理器；或者由相互连接的北桥芯片组和通用CPU组成。

上述技术方案中，所述的语音识别模块是一种将数字声音信号转化为相应的自然语言文本的数据处理模块。语音识别模块的处理过程为：语音识别模块是从数字声音信号的语音波形中提取随时间变化的语音特征序列，然后与声学模型进行模式匹配，对匹配后的结果进行语法语义分析，转变成相应的自然语言文本。

上述技术方案中，所述的语音库模块是一种对输入的自然语言文本进行模糊匹配，从而查找到相应的应答文本的数据处理模块。语音库模块的处理过程为：首先根据关键词词典和知识库词典进行智能分词，分析出各种分词情形，然后对查询文法库进行模糊匹配，找到对应文法，然后利用知识库API函数，从后台知识库中得到符合需求的知识文本，并将该知识文本作为应答文本。

上述技术方案中，所述的语音合成模块是一种将自然语言文本转化为数字声音信号的数据处理模块。

上述技术方案中，还包括与中央处理器相连接的异步串行口。

上述技术方案中，还包括与中央处理器相连接的USB接口，所述的USB接口同时与时钟发生器相连。

上述技术方案中，还包括与音频编解码芯片相连的声音输入器和/或声音输出器。

上述技术方案中，还包括与中央处理器相连的JTAG接口。JTAG(Joint Test Action Group，中文译名为联合测试行动小组)是一种国际标准测试协议(IEEE 1149.1兼容)，主要用于芯片内部测试。现在多数的高级器件都支持JTAG协议，如DSP、FPGA器件等。标准的JTAG接口是4线：TMS、TCK、TDI、TDO，分别为模式选择、时钟、数据输入和数据输出线。

为实现上述发明目的，本发明提供的嵌入式语音交互方法，其特征在于，包括如下步骤：

1)系统启动后，通过中央处理器的控制，把存储在FLASH存储器中的语音识别模块、语音库模块和语音合成模块加载到静态存储器中；

2)用户通过声音输入器把模拟声音信号输入到音频编解码芯片，音频编解码芯片通过模数转换，量化编码将模拟声音信号转换成数字声音信号；

3)通过中央处理器的控制，将数字声音信号传送到中央处理器，同时中央处理器调用静态存储器中的语音识别模块；

4)语音识别模块对数字声音信号进行解析，得出该数字声音信号所对应的自然语言文本，然后中央处理器释放语音识别模块并接着调用静态存储器中的语音库模块；

5)自然语言文本通过语音库模块的处理，在语音库中查找到应答文本，然后中央处理器释放语音库模块并调用静态存储器中的语音合成模块；

6)应答文本经过语音合成模块的处理，得到具有语音波形的应答数字声音信号；

7)通过中央处理器控制，将应答数字声音信号输入到音频编解码芯片进行数模转换和混声音质处理，转换成拟人声音信号；

8)拟人声音信号通过声音输出器向外输出。

上述技术方案中，所述步骤4)中，语音识别模块的处理过程为：语音识别模块是从数字声音信号的语音波形中提取随时间变化的语音特征序列，然后与声学模型进行模式匹配，对匹配后的结果进行语法语义分析，转变成相应的自然语言文本。

上述技术方案中，所述步骤5)中，语音库模块的处理过程为：首先根据关键词词典和知识库词典进行智能分词，分析出各种分词情形，然后对查询文法库进行模糊匹配，找到对应文法，然后利用知识库API函数，从后台知识库中得到符合需求的知识文本，并将该知识文本作为应答文本。

本发明与现有技术相比，具有如下优点：

(1)本发明可以作为一种通用的智能语音交互平台，可以应用到语音交互的不同场合，如语音交互玩具，人机对话系统等等，通用性更强，实用性更强。

(2)本发明容易扩展其他功能，如蓝牙接口，红外接口，无线传输，远程控制等等。

(3)本发明采用Linux操作系统，可移植性强。

(4)本发明采用软件语音识别，不同于以往的语音交互系统所采用的硬件语音识别，识别率更高、数据处理速度快、识别词表更大。

附图说明

图1是一种现有语音交互系统的示意图

图2是本发明的信号处理流程图

图3是本发明的嵌入式语音交互装置的示意图

图4是本发明的嵌入式语音交互装置一个实施例的示意图

具体实施方式

本发明提出了一种基于嵌入式的智能语音交互装置，该装置硬件上以嵌入式中央处理器为核心，软件上采用语音识别、语音合成、语音压缩编解码、回声消除等技术，同时外加强大的语音库，该语音库可以实现语音识别错误纠正，采用先进的搜索算法和模糊匹配技术。由于采用嵌入式中央处理器，保持其低成本、低功耗、小体积、高可靠性等优点，并可以在此基础上扩展其他功能，可扩展性强；软件语音识别将声音信号转化为文本内容，再由软件语音合成将文本内容转化为声音输出，由于语音库仅仅是文本内容(包括日常对话，故事，儿歌，自然知识，人文地理知识，社会知识)，大大减小内存占用，提高语音库容量，另外软件语音识别的识别字数也比硬件强，一般在10字以上。而且用户更新容易，只需按一定格式编写文本内容，通过USB接口就可以下载更新。

下面结合附图和优选实施例对本发明作进一步地描述。

实施例1

本实施例提供的嵌入式语音交互装置包括龙芯CPU、北桥芯片组、Flash存储器、静态存储器(SDRAM)、USB、SD(SMART CARD)卡、异步串行口、音频编解码芯片、时钟发生器、声音输入器、声音输出器以及电源。

如图4所示，电源提供各部分正常工作所需的电压，分别有5V、3.3V、1.8V，与各部分相应的电源引脚相连；龙芯CPU与北桥芯片组相连，调试时通过JTAG与开发系统相连；Flash存储器的控制信号连到北桥芯片组，数据信号分别连到北桥芯片组和龙芯CPU；静态存储器的控制信号连到北桥芯片组，数据信号分别连到北桥芯片组和龙芯CPU；USB的控制信号和数据信号连到北桥芯片组；SD(SMART CARD)卡的控制信号连到北桥芯片组，数据信号分别连到北桥芯片组和龙芯CPU；异步串行口的接收信号和发送信号接到北桥芯片组，音频编解码芯片与北桥芯片组相连；时钟发生器连到龙芯CPU、静态存储器和USB控制器；声音输入器和声音输出器均连到音频编解码芯片。

嵌入式智能语音交互装置硬件上是以龙芯CPU和北桥芯片组为核心的体系结构，外部只需接电源模块、Flash、SDRAM、音频编解码芯片、麦克风和扬声器等即可构成完整系统应用。另外为了传输数据方便，还可接USB接口，外接SMART CARD以增大数据存储量。

龙芯CPU是一款基于MIPS(Microprocessor without interlockedpiped stages)，其机制是尽量利用软件办法避免流水线中的数据相关问题，采用精简指令系统计算结构(RISC)来设计芯片。和英特尔采用的复杂指令系统计算结构(CISC)相比，RISC具有设计更简单、设计周期更短等优点。本实施例所采用的龙芯CPU在同频率情况下具有低功耗(5~7W)、低成本、高速处理能力(800MHz)等优点，而现有的以MCU为核心的语音交互系统处理速度一般在50MHz左右，以DSP为核心的语音交互系统处理速度一般在200MHz左右。

本实施例中的龙芯CPU仅仅是微中央处理器内核，其外围接口控制器集中在北桥芯片组。北桥芯片组集成内存控制模块、音频控制模块、GPIO控制模块、USB控制器、IIS控制模块、并口控制模块等，以供嵌入式系统应用选配。本实施例用到的北桥芯片组资源有内存控制模块、音频控制模块、USB控制器。

电源电路提供各部分正常工作所需的电压，由于在嵌入式系统中追求低功耗，因此可以选用线性电源，充分利用其电路简单、外围器件少，输出精度高，有很好的负载曲线的优点。

SDRAM具有容量大，存取速度快，成本低的特点，主要用来存放执行代码和变量，是系统启动之后主要进行存取操作的存储器。由于SDRAM需要定时刷新以保持存储的数据，因而要求微中央处理器具有刷新控制逻辑，或在系统中另外加入刷新控制逻辑电路。在北桥芯片组具有独立的SDRAM刷新控制逻辑，可以方便与SDRAM接口。龙芯一号CPU支持的SDRAM小于256MB。

Flash存储器是一种在系统上进行电擦写，掉电后信息不丢失的存储器，具有低功耗、大容量、擦写速度快、可整片或分扇区在系统编程(烧写)、擦除等特点，并且可由内部嵌入的算法完成对芯片的操作。Flash是系统工作时必需的芯片，用来存放程序代码、常量表以及一些在系统掉电后需要保存的用户数据等。本实施例中Flash存储器用来存放嵌入式操作系统、语音识别模块、语音库模块和语音合成模块。

USB可以用来传输数据，更新数据库内容；音频编解码芯片是嵌入式智能语音交互装置的IO，主要完成语音信号采样，编码，滤波等，通过外接麦克风和扬声器可以实现语音输入和语音输出。

操作系统的选择。龙芯CPU支持最新版本的Linux、VxWorks，Windows CE等操作系统。本实施例选用的是Linux操作系统，由于Linux的内核精简而高效，针对不同的实际需求，可将内核功能进行适当地剪裁，Linux内核可以减少到100KB以下，减少了对硬件资源的消耗，操作系统内核和应用程序都是开放源码的，而且Linux操作系统性能比Windows操作系统性能更优越。另外，可以避免支付Windows产品的版税。

本实施例中，北桥芯片组采用ALTERA公司的Cyclone系列FPGA芯片EP2C20F484C8；音频编解码芯片采用REALTEK公司的ALC203；FLASH存储器采用SST公司的SST39VF04070-4C；静态存储器采用SUMSUNG公司的K4D263238E-6C36；电源使用稳压电源(AMS)LT1117-3.3；时钟发生器使用外部12MHz晶振；声音输入器使用信噪比-58dB的驻极体麦克风；声音输出器采用8欧0.5瓦扬声器；

FLASH存储器中的语音识别模块是一种将数字声音信号转化为相应的自然语言文本的数据处理模块。本实施例中，语音识别模块采用科大讯飞2004内核，并对之进行优化，儿童语言实际识别率可达到80％左右。

语音库模块是一种对输入的自然语言文本进行模糊匹配，从而查找到相应的应答文本的数据处理模块。本实施例中，语音库模块采用中国科学院计算技术研究所研发的语音库，参见2002年7月3日申请的申请号为02140287.6的中国专利申请(公开号为CN1466367)：通用的移动人知交互系统及方法。

语音合成模块是一种将自然语言文本转化为数字声音信号的数据处理模块。本实施例中，语音合成模块采用科大讯飞的开发包InterSound 3.0。

另外，本实施例中的龙芯CPU和北桥芯片组也可以使用ARM嵌入式处理器代替，由于ARM嵌入式处理器内部集成了内存控制模块、IIC控制模块、GPIO控制模块、USB控制器、IIS控制模块，因此不需要再外接北桥芯片组。

工作流程

如图2所示，整个系统工作过程如下

1、系统启动后，通过北桥芯片组控制，把存储在FLASH的程序加载到SDRAM中，包括将语音识别模块、语音库模块和语音合成模块加载到SDRAM中。

2、用户把声音信号从声音输入器输入到音频编解码芯片，音频编解码芯片把用户输入的声音信号通过模数转换，量化编码转换成数字声音信号。

3、经过音频编解码芯片处理后的数字声音信号，通过北桥芯片组控制，使数字声音信号传送到龙芯CPU，同时龙芯CPU调用SDRAM中语音识别模块。

4、数字声音信号经过语音识别模块处理，语音识别模块实际上是从语音波形中提取随时间变化的语音特征序列，与声学模型进行模式匹配，对匹配后的结果进行语法语义分析，转变成相应的文字，于是此时数字声音信号转变成自然语言文本，同时龙芯CPU释放语音识别模块并接着调用SDRAM中语音库模块。

5、语音识别模块识别后的自然语言文本通过语音库模块处理，其过程是首先根据关键词词典(即事先已录入的关键词的集合)和知识库词典(即事先已录入的常用词语集合)进行智能分词，分析出所有可能的分词情形，然后对文法库(即事先已录入的语法与句型的集合)进行模糊匹配，找到对应文法，然后利用知识库API函数，从知识库辞典中得到符合需求的知识文本。同时龙芯CPU释放语音库模块并调用SDRAM中语音合成模块。

6、语音库模块处理后的知识文本经过语音合成处理，其过程是语音识别的逆过程，通过合成技术将文本信息转变成具有语音波形的数字信号。

7、通过北桥芯片组控制，将具有语音波形的数字信号输入到音频编解码芯片进行数模转换和混声音质处理，转换成拟人声音信号。

8、拟人声音信号通过声音输出器向外输出。

Claims

1、一种嵌入式语音交互装置，包括电源、时钟发生器，其特征在于，还包括中央处理器、音频编解码芯片、FLASH存储器、静态存储器；所述的FLASH存储器是一种存储有固化的语音识别模块、语音库模块和语音合成模块的只读存储器；所述中央处理器分别与所述的音频编解码芯片、所述的FLASH存储器、所述的静态存储器、所述电源和所述时钟发生器电连接；所述静态存储器与所述的时钟发生器电连接。

2、按权利要求1所述的嵌入式语音交互装置，其特征在于，所述的中央处理器采用嵌入式处理器；或者由相互连接的北桥芯片组和通用CPU组成。

3、按权利要求1所述的嵌入式语音交互装置，其特征在于，还包括与中央处理器电连接的USB接口，所述的USB接口同时与时钟发生器电连接。

4、按权利要求1所述的嵌入式语音交互装置，其特征在于，还包括与中央处理器电连接的JTAG接口。

5、按权利要求1所述的嵌入式语音交互装置，其特征在于，还包括与音频编解码芯片电连接的声音输入器和/或声音输出器。

6、按权利要求1所述的嵌入式语音交互装置，其特征在于，还包括与中央处理器电连接的异步串行口。

7、按权利要求1、2、3、4、5或6所述的嵌入式语音交互装置，其特征在于，所述的语音识别模块是一种将数字声音信号转化为相应的自然语言文本的数据处理模块。

8、按权利要求1、2、3、4、5或6所述的嵌入式语音交互装置，其特征在于，所述的语音库模块是一种对输入的自然语言文本进行模糊匹配，从而查找到相应的应答文本的数据处理模块。

9、按权利要求1、2、3、4、5或6所述的嵌入式语音交互装置，其特征在于，所述的语音合成模块是一种将自然语言文本转化为数字声音信号的数据处理模块。

10、一种嵌入式语音交互方法，其特征在于，包括如下步骤：

8)拟人声音信号通过声音输出器向外输出。

11、按权利要求10所述的嵌入式语音交互方法，其特征在于，所述步骤4)中，语音识别模块的处理过程为：语音识别模块是从数字声音信号的语音波形中提取随时间变化的语音特征序列，然后与声学模型进行模式匹配，对匹配后的结果进行语法语义分析，转变成相应的自然语言文本。

12、按权利要求10所述的嵌入式语音交互方法，其特征在于，所述步骤5)中，语音库模块的处理过程为：首先根据该语音库模块中的关键词词典和知识库词典进行智能分词，分析出各种分词情形，然后对查询文法库进行模糊匹配，找到对应文法，然后利用知识库API函数，从知识库词典中得到符合需求的知识文本，并将该知识文本作为应答文本。