CN1100305C - 噪声环境下语音控制指令产生装置 - Google Patents
噪声环境下语音控制指令产生装置 Download PDFInfo
- Publication number
- CN1100305C CN1100305C CN99116104A CN99116104A CN1100305C CN 1100305 C CN1100305 C CN 1100305C CN 99116104 A CN99116104 A CN 99116104A CN 99116104 A CN99116104 A CN 99116104A CN 1100305 C CN1100305 C CN 1100305C
- Authority
- CN
- China
- Prior art keywords
- digital
- voice
- signal
- signal processor
- flash memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000015654 memory Effects 0.000 claims abstract description 20
- 239000004973 liquid crystal related substance Substances 0.000 abstract 1
- 238000000034 method Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 244000287680 Garcinia dulcis Species 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 210000001260 vocal cord Anatomy 0.000 description 3
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 2
- 230000003321 amplification Effects 0.000 description 2
- 229910052799 carbon Inorganic materials 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
本发明是一种噪声环境下语音控制指令产生装置,包括有模数和数模转换器、液晶显示器、电源、扬声器、语音识别器等部件,其特征是在模数和数模转换器上通过一滤波器连接一个喉头送话器,语音识别器则以数字信号处理器为核心,连接闪速存储器(I)、(II)、组合逻辑器、编码器、驱动器、看门狗电路组成,适用于强噪声环境。
Description
一.技术领域
本发明涉及一种语音控制指令产生装置;尤其是一种在噪声环境下使用的语音控制指令产生装置。
二.背景技术
目前现有的技术中,利用语音识别技术实现人的自然语言与机器对话,即人机对话,使机器能听懂人的语音指令并且去执行人所发出的指令,已有一定的进展。例如,美国国际商业机器公司申请的美国专利US050950,美国摩托罗拉公司申请的美国专利US08/254,844,美国电报电话公司申请的美国专利US 352251;其主要特征是采用通过空气传导的受话器作为语音识别装置的人的语音的接受器;将接受到的语音在语音识别装置或计算机中进行识别。语音识别的重要指标是人的语音的正确识别率,由于在相当多的使用环境中除了人发出的语音之外,存在有环境噪声,这种噪声混杂于指令发出人的语音之中,使正确识别率大大降低;甚至出现错误识别,这就限制了利用语音识别技术正确产生控制指令,实现人机对话,在许多实际场所的应用。
三.发明内容
本发明的目的是提供一种在噪声环境下使用的正确识别率高的语音识别技术的语音控制指令产生装置。
本发明由模数和数模转换器、液晶显示器、电源、扬声器、语音识别器等部件组成,其特征是在模数和数模转换器上通过滤波器连接一个喉头送话器;语音识别器则以数字信号处理器为核心,连接闪速存储器(I)、(II)、组合逻辑器、编码器、驱动器、看门狗电路组成,模数和数模转换器与数字信号处理器的串行口连接,驱动器将闪速存储器(II)与数字信号处理器连接在一起,组合逻辑器分别与闪速存储器(I)、(II)、数字信号处理器连接,并由组合逻辑器通过执行电路输出控制信号。
本发明由于其语音信号是由喉头送话器通过滤波器输入的,并且利用数字信号处理器为语音识别器的核心对语音命令信号进行识别,然后发出相应的控制信号,而喉头送话器不同于一般的利用空气传导的声音传感器(如麦克风),它必须紧贴发命令者的喉部,说话时声带发生振动,喉头送话器中的碳膜发生形变,使其电阻发生变化,从而使其两端的电压发生变化,于是振动信号转化为电信号,即语音信号。空气中传导的声波无法使喉头送话器中的碳膜发生形变,所以喉头送话器感受不到空气传导的声音,具有很强的抗于扰能力,可在强噪声环境下获取命令发出者的语音信号,而滤波器可对喉头送话器获得的语音信号进行放大和低通滤波,防止频率混叠;数字信号处理器则保证语音识别算法和语音压缩解压缩等算法的顺利实现。
四.附图说明
图1是本发明语音控制指令发生装置的原理图;
图2是本发明语音控制指令发生装置的电路图;
图3为语音控制指令发生装置软件总控流程图;
图4为语音控制指令发生装置软件中识别模块(rec-mode)流程图;
图5为语音控制指令发生装置软件中管理模块(manage-mode)流程图;
图6为语音控制指令发生装置软件中训练模块(train-mode)流程图。
五.具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明语音控制指令发生装置硬件实现方案,由图1和图2来说明。图1中系统各功能块说明如下:数字信号处理芯片(DSP)1:采用ADSP2181,时钟16.67M,33MIPS,一个指令周期为30ns;内部含16K字数据存储器和16K字程序存储器,用于算法的实现和接口的控制;ADSP2181还可用ADSP2186来代替。闪速存储器(I)2:采用AT29C020,用于存储程序代码和初始化数据;闪速存储器(II)3:采用AT29C020,用于存储语音命令样本;模数数模转换器4:采用AD73311,16位 D/A和 A/D,内含增益控制;其作用是将喉头送话器获得的模拟语音进行A/D变换,然后把数字化的语音信号送入DSP芯片进行处理,还把数字语音信号进行D/A变换,还原为模拟的语音信号,通过语音功率放大器和喇叭还原为声音。此外可通过采用高于所需采样频率的频率进行采样,配合DSP运用升降采样技术,提高输入语音信号的信噪比和系统的识别率;看门狗电路5:采用MAX705,对ADSP2181的运行进行监视,有问题时发出WDG信号;组合逻辑6:用可编程逻辑器件实现,通过对数据和地址及其他ADSP2181的输出信号译码产生控制信号;编码器7:用MC14419实现16-4编码器,把16个键进行编码(4位码);LCD显示器8:16X2点阵显示模块;用于显示提示语及有关信息;滤波器9:对喉头送话器11信号进行预处理,用运算放大器来实现;实现对弱语音信号的放大和滤波,并实现喉头送话器和AD73311之间的阻抗匹配,防止语音基线的漂移;执行电路10根据DSP发出的语音命令的译码结果,实现对外部对象的控制。喉头送话器11:语音传感器,把发命令者的声带振动信号转化为电信号,即模拟语音信号。
图2是本发明语音控制指令发生装置的具体连接电路图,执行电路因不同控制对象而不同,由使用者视具体情况另行设计。图2中U01为ADSP2181,即数字信号处理片;U02为AT29C020为闪速存储器(I)2,用于存储程序代码和初始化数据,闪速存储器(II)3不在图上,它可单独做成样本卡,通过J04与系统连接;U03为GAL16V8,是可编程逻辑器件,通过对ADSP2181部分信号的译码实现对两片闪速存储器的控制;U04,MAX705,为看门狗芯片,上电时产生系统复位信号RESET,系统有问题时还能产生监视信号WDG;U05为AD73311;是模数/数模转换器4,它把由J052或J053送入的由喉头送话器11获得的模拟语音信号数字化,然后通过DR信号线送入ADSP2181的串行口,它还可把从ADSP2181输出的串行数据从DT信号线接收进来,然后进行D/A变换;通过U12,MC34119的放大之后通过J051连接到喇叭还原为声音;U06-U09为驱动芯片,完成ADSP2181和闪速存储器(II)3之间的地址和数据线的驱动;U10为MC 3 4119,是编码器7,对4X4键盘进行编码,然后通过PF4-PF7输入至ADSP2181中;U11,MC7805,为稳压芯片;此外J03为键盘与系统的连接口,J02为系统与液晶显示器8的接口;J01为系统与仿真器的接口。
本发明语音控制指令发生装置的软件实现方法用图3-图6说明。本发明装置可采用不同的语音识别算法和语音压缩算法,可由使用本发明者选用。现结合图3-图6说明本发明语音控制指令发生装置的工作过程。
图3是语音控制指令发生装置的软件总控流程图。由图3可见,软件分为三个模块:(1)识别模块rec-mode,(2)管理模块manage-mode,(3)训练模块train-mode。当本装置上电启动后,处于模式选择状态,等待用户的键盘输入,然后进入所选的状态。
图4为语音识别模块(rec-mode)流程图,该模块实现对喉头送话器输入的语音信号进行识别,然后把识别的结果(对应该语音命令的编码)输出到组合逻辑电路,然后去控制外部控制对象。由图可见,语音识别的过程首先进行语音检测;判断是否有语音输入;若有则对该语音进行特征提取,即提取输入语音的MFCC参数;参数提取后进行参数比较,即把输入语音的特征参数与存储在闪存中的语音命令的特征参数(即模板)进行比较,确定是否与其中的某个模板匹配,这里有两种情况,第一种情况是完全匹配,则被匹配的模板即为输入的语音命令,这时候匹配模板对应的编码即为输入语音命令的编码,通过数据线输入到组合逻辑,然后去控制外部对象;第二种情况是不完全匹配,这时候找到三个最接近的语音命令模板,并把它们的语音分别回放,让使用者判断;若其中有一个是输入的语音命令,则由用户确认后,把其语音编码通过数据线输入到组合逻辑,然后去控制外部对象;若三个都不是输入的语音命令,则提示让用户重新输入一次语音命令,重复上述的语音识别过程,直到识别出结果。
图5为管理模块(manage-mode)流程图,该模块实现管理功能,包括命令模板的录入,查找,删除,系统词录入修改和回放,键盘的管理等。
图6为训练模块(train-mode)流程图,该模块建立语音命令的模板并实现模板的存储。语音命令训练的过程首先是语音检测,即判断是否有语音输入;判断到有语音输入后;对该语音进行两方面的处理,一是提取该语音的特征,即计算其MFCC参数;二是对该语音数据进行压缩编码,然后把已记录的语音回放让用户判断,若用户键入信息表示不满意语音命令的质量,则重复以上操作,若用户键入信息表示满意语音命令的质量,则提示用户键入语音命令的编码;然后把输入的语音命令的特征参数(即模板)和压缩后的语音命令及其编码存入闪速存储器中,这时候完成了一次训练的操作。
本发明在使用时,将喉头送话器11固定或贴在发出指令者的喉头附近位置,用于接受指令发出者发出的指令,每个指令通常为一个词组,多个指令为多个词组。滤波器9接受由喉头送话器11输出的模拟语音指令信号,经滤波器9预处理后,将处理后的模拟语音指令信号输入到模数转换器,形成数字语音指令信号。数字语音指令信号输入至数字信号处理器1,以数字信号处理器1为核心组成的语音识别器,识别语音指令信号,形成控制指令,控制指令将输出到预定的被控设备。其中,闪速存储器(I)2用于存储程序代码和初始化数据;闪速存储器(II)3用于存储经过训练学习的语音指令样本;驱动器完成数字信号处理器1与闪速存储器(II)3之间的联结;组合逻辑器6用于对地址和数字信号处理器1输出信号的译码并产生控制信号。液晶显示器8用于使用过程中必要的提示语。电源为本装置供电。对一般使用场所语音指令条数在50条之内,但本发明语音指令条数的最大容量为200条。本装置供多人使用时,可以将闪速存储器(II)3存储的语音样本更换,或每人对应一个闪速存储器(II)3制作成语音样板卡,做成活动插接形式。
本发明由于采用喉头送话器作为指令发出者发出语音指令的受话器,直接接受指令发出者发出指令时的声带振动语音信号,避免了语音在空气传导时混入使用环境中存在的噪声,从而避免了由于环境噪声混入带来的正确识别率下降或带来指令的错误识别,降低了对于使用环境的要求。本发明将适用于公共场所、车间、工地、海陆空的运载工具(车、船、飞机等)中实行用人的自然语音发出指令使机器按指令运作,以语音指令代替人的手工操作;对于残疾人(丧失说话能力者除外)在不便于手工操作时可使用本发明装置;可用于智能玩具中让玩具按人的语音指令动作;可用于人与机器人的对话,使机器人按人的语音指令动作;以及在不存在噪声环境下可使用本发明语音控制指令产生装置。
Claims (1)
1.一种噪声环境下语音控制指令产生装置,包括有模数和数模转换器(4)、液晶显示器(8)、电源、扬声器、语音识别器等部件,其特征是在模数和数模转换器(4)上通过一滤波器(9)连接一个喉头送话器(11),语音识别器则以数字信号处理器(1)为核心,连接闪速存储器(2)、(3)、组合逻辑器(6)、编码器(7)、驱动器、看门狗电路(5)组成,模数和数模转换器(4)与数字信号处理器(1)的串行口连接,驱动器将闪速存储器(3)与数字信号处理器(1)连接在一起,组合逻辑器(6)分别与闪速存储器(2)、(3)、数字信号处理器(1)连接,组合逻辑器(6)通过执行电路(10)与受控设备连接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN99116104A CN1100305C (zh) | 1999-03-31 | 1999-03-31 | 噪声环境下语音控制指令产生装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN99116104A CN1100305C (zh) | 1999-03-31 | 1999-03-31 | 噪声环境下语音控制指令产生装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1235320A CN1235320A (zh) | 1999-11-17 |
CN1100305C true CN1100305C (zh) | 2003-01-29 |
Family
ID=5278949
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN99116104A Expired - Fee Related CN1100305C (zh) | 1999-03-31 | 1999-03-31 | 噪声环境下语音控制指令产生装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1100305C (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068145A (zh) * | 2016-12-30 | 2017-08-18 | 中南大学 | 语音评测方法及系统 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101976186B (zh) * | 2010-09-14 | 2013-04-03 | 方正科技集团苏州制造有限公司 | 一种计算机语音识别方法及其计算机 |
CN104123930A (zh) * | 2013-04-27 | 2014-10-29 | 华为技术有限公司 | 喉音识别方法及装置 |
CN106535045A (zh) * | 2016-11-30 | 2017-03-22 | 中航华东光电(上海)有限公司 | 喉头送话器音频增强处理模块 |
CN108182941A (zh) * | 2017-12-28 | 2018-06-19 | 重庆柚瓣家科技有限公司 | 用于嘈杂环境下的人机交互模块 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN2262291Y (zh) * | 1996-01-25 | 1997-09-10 | 蔡辉阳 | 自动语音控制装置 |
US5794187A (en) * | 1996-07-16 | 1998-08-11 | Audiological Engineering Corporation | Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information |
US5933801A (en) * | 1994-11-25 | 1999-08-03 | Fink; Flemming K. | Method for transforming a speech signal using a pitch manipulator |
-
1999
- 1999-03-31 CN CN99116104A patent/CN1100305C/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933801A (en) * | 1994-11-25 | 1999-08-03 | Fink; Flemming K. | Method for transforming a speech signal using a pitch manipulator |
CN2262291Y (zh) * | 1996-01-25 | 1997-09-10 | 蔡辉阳 | 自动语音控制装置 |
US5794187A (en) * | 1996-07-16 | 1998-08-11 | Audiological Engineering Corporation | Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107068145A (zh) * | 2016-12-30 | 2017-08-18 | 中南大学 | 语音评测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN1235320A (zh) | 1999-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1119794C (zh) | 分布式话音识别系统 | |
CN111933108B (zh) | 一种智能网联终端智能语音交互系统自动化测试方法 | |
US6975986B2 (en) | Voice spelling in an audio-only interface | |
EP1047046A2 (en) | Distributed architecture for training a speech recognition system | |
JPH10507559A (ja) | 音声サンプルを音声作動データ処理システムに伝送するための方法及び装置 | |
CN102723080A (zh) | 一种语音识别测试系统及方法 | |
WO2005008476A3 (en) | Method and system for intelligent prompt control in a multimodal software application | |
WO2004036939A1 (fr) | Appareil de communication mobile numerique portable, procede de commande vocale et systeme | |
CN111914076B (zh) | 一种基于人机对话的用户画像构建方法、系统、终端及存储介质 | |
CN112420050B (zh) | 一种语音识别方法、装置和电子设备 | |
CN1100305C (zh) | 噪声环境下语音控制指令产生装置 | |
CN117056481A (zh) | 基于大模型技术的云服务行业对话帮助系统及实现方法 | |
Chadha et al. | Current Challenges and Application of Speech Recognition Process using Natural Language Processing: A Survey | |
CN116361316A (zh) | 一种语义引擎适配方法、装置、设备及存储介质 | |
CN116564286A (zh) | 语音录入方法、装置、存储介质及电子设备 | |
JP2545914B2 (ja) | 音声認識方法 | |
JPH03132797A (ja) | 音声認識装置 | |
CN113043598A (zh) | 一种基于ai技术的3d自动打印方法 | |
Pantazoglou et al. | A Greek voice recognition interface for ROV applications, using machine learning technologies and the CMU Sphinx platform | |
JPH09179578A (ja) | 単音節認識装置 | |
CN110085212A (zh) | 一种用于cnc程序控制器的语音识别方法 | |
JPH02171098A (ja) | 音声認識リモコン装置 | |
CN108492822A (zh) | 一种基于工业应用的语音识别方法 | |
CN117238275B (zh) | 基于常识推理的语音合成模型训练方法、装置及合成方法 | |
JPH064264A (ja) | 音声入出力システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C06 | Publication | ||
PB01 | Publication | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C19 | Lapse of patent right due to non-payment of the annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |