CN105931639A - 一种支持多级命令词的语音交互方法 - Google Patents

一种支持多级命令词的语音交互方法 Download PDF

Info

Publication number
CN105931639A
CN105931639A CN201610373481.XA CN201610373481A CN105931639A CN 105931639 A CN105931639 A CN 105931639A CN 201610373481 A CN201610373481 A CN 201610373481A CN 105931639 A CN105931639 A CN 105931639A
Authority
CN
China
Prior art keywords
word
order word
scene
identification
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610373481.XA
Other languages
English (en)
Other versions
CN105931639B (zh
Inventor
杨若冲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Limiqing New Material Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610373481.XA priority Critical patent/CN105931639B/zh
Publication of CN105931639A publication Critical patent/CN105931639A/zh
Application granted granted Critical
Publication of CN105931639B publication Critical patent/CN105931639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种支持多级命令词的语音交互方法,根据所需识别的场景将命令词设置为多个上下级关联的级别,对每级命令词分别对应建立识别模型;每个命令词还分类为属于控制词还是非控制词,其中控制词触发所需识别的场景中相应的控制模块,非控制词触发与之关联的下一级别命令词的识别过程;对输入的语音进行识别时,根据目标场景调用相应的识别模型并且针对目标场景的每一级别分别调用命令词识别模型,具体按照命令词级别的上下级的先后顺序分为多级进行。本发明使得在有限的资源下极大的扩展了命令词数量,从而应用领域大大增加,可应用于小家电及所有可加装声控模块的设备上。

Description

一种支持多级命令词的语音交互方法
技术领域
本发明涉及语音识别领域,特别一种离线语音识别。
背景技术
近年来,随着语音识别技术的进步,语音交互因其天然的便利性,在日常生活中应用越来越广泛。语音唤醒和命令词识别这两个最常用的技术点在车载系统、智能家居等领域里已经得到广泛的应用。但我们也发现,在目前大部分的应用方案中,语音交互采用的是在线识别的方式,这就要求设备在使用时需要连接互联网,将计算好的语音特征值上传到服务器,服务器再返回识别后的结果。这种方式的好处是识别在云端进行,识别的结果会很精确,但这种方式的用户体验与网络环境密切相关,在没有网络的时候就无法使用;而且因为要传回数据到服务器,这就牵涉到用户隐私和网络安全等因素,所以大大的影响了应用范围。
在这种情况下,业界开始采用离线的语音交互方式,相对于在云端服务器的识别方法,离线语音识别精简了语言和声学模型,所有的运算都在本地进行。但是受制于硬件条件限制,如计算能力、RAM和Flash大小以及功耗散热等因素,尤其是主频和RAM大小,这两项直接限制了模型的大小以及所支持的命令词数量,模型精简过度之后会严重影响识别的准确率。此外,这种离线识别方案中,不同的应用场景使用的是不同的命令词,需要提前将模型和代码写入硬件,这意味着即便是采用同一套元器件,不同的应用场景必须得使用不同的模块,这在实际使用中造成了极大的不便。
发明内容
发明目的:为了克服现有技术中存在的不足,本发明提供一种新的离线语音识别方案,用于解决现有的离线语音识别受制于硬件条件限制导致模型大小及支持的命令词数量受限、影响识别率,并且采用同一套元器件时对不同场景需使用具有不同模型和代码的相应模块才能正常使用所带来的使用不便的技术问题。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种支持多级命令词的语音交互方法,根据所需识别的场景将命令词设置为i个级别,i取1至n,这里n为所需识别的场景数量,设定第i级命令词与第i+1级命令词之间为上下级关系;对每级命令词分别对应建立识别模型;每个命令词还分类为属于控制词还是非控制词,其中控制词触发所需识别的场景中相应的控制模块,非控制词触发与之关联的下一级别命令词的识别过程;
对输入的语音进行识别时,按照命令词级别的上下级的先后顺序分为多级进行,其中每一级的识别过程如下:
首先调入该级别的命令词的识别模型至RAM存储器中并将该级别的命令词作为侦听目标进行侦听:
若无法侦听到,则根据本次侦听目标按照下列规则重新侦听:若本次侦听目标为一级命令词,则重新侦听一级命令词,若本次侦听目标为其他级别命令词,则返回进行识别上一级别命令词;
若能侦听到,则继续判断该命令词为是否为控制词,若为控制词,则触发所需识别的场景中相应的控制模块,若为非控制词,则触发与之关联的下一级别命令词的识别过程并将当前级别的命令词的识别模型从RAM存储器中删除。
进一步的,在本发明中,将每级命令词的识别模型分别存储于FLASH存储器中,使用时根据需要从FLASH存储器中调入相应的识别模型至RAM存储器中。这样RAM存储器就不需要同时支持所有级别的命令词,只需要分别支持每一级命令词即可。
进一步的,在本发明中,对任意一个场景,将该场景所对应的命令词的识别模型所组成的集合存储于FLASH存储器中,使用时根据所需场景从FLASH存储器中调用该场景对应的识别模型所组成的集合至RAM存储器中。这样RAM存储器就不需要同时支持所有的场景对应的命令词,只需要在对某种场景有交互需求时相应的识别模型能够被调用使用即可。
现有技术中,典型的语音唤醒/命令词识别算法如下:通过实时语音采集,然后计算语音能量,如果一定时候这些能量没有超过一个阈值,我们认为没有声音,这个时候也就不需要进行语音算法处理处理。一旦检测到有声音,我们将会对其后的语音数据计算特征然后语音识别。从工程的角度,从检测到声音和声音结束,会有一段时间,如果时间太长或者太短,我们可以都认为不是我们期望的命令词语。考虑到识别率和嵌入式计算性能的平衡,我们通常采用基于隐马尔科夫模型的方法做语音识别。基于隐马尔科夫模型的语音识别算法是一种经典的、高效的、与说话人无关的一种语音识别算法。它通过使用大量语音语料对语音建模(比如中文可以对每个声母和韵母建模,或者对每个音节建模等),然后使用这些模型搭建需要的识别网络。在命令词识别的时候,针对每个命令词,我们对连续提取语音特征和建模数据进行计算得到得分,最终我们以最高得分的命令词为识别结果。另外,为了识别排除一些不是属于这些命令词集的语音,我们提供一个通用的共有的模型来计算得分,通过比较这个得分和之前的命令词网络得分,以便于判断这段语音是否是属于命令词中的一种,这样子使得识别算法更有实用性。现有技术中,实现时可通过对编译器进行定点化代码实现隐马尔科夫模型中涉及到的各种浮点运算过程。
有益效果:本发明提供的多级命令词识别方案,在有限的资源下极大的扩展了命令词数量,从而应用领域大大增加,可应用于小家电及所有可加装声控模块的设备上。具体来说,本发明主要有以下优点:
1、可以大大的节省RAM,在同等硬件条件下,支持更多的命令词。
2、进行分级之后,同一时间需要识别的命令词大大缩小,这样可以提高识别准确率,同时降低误识别率。在上面电灯的例子中,普通方案需要同时识别6个命令词,分级之后,在同一时间同时识别的命令词变为3或4个,因而准确性和误识别率可以同时改进。
3、实现了同一套元器件可以适用于不同的应用场景,并且不必针对不同的场景中RAM中写入不同的代码,只需要在实施的时候接上不同的管脚即可,大大的节省了应用成本,提高经济效益。
附图说明
图1为本发明的框架图;
图2为本发明的硬件示意图;
图3为本发明的识别过程。
具体实施方式
具体实施方式1
在日常应用中,对于电灯的命令词有“打开灯光”、“关闭灯光”、“调亮灯光”、“减弱灯光”、“温暖光”、“寒冷光”,按照现有的识别方案,有14个不同的字需要识别,这样就需要构建这14个字的模型,识别时RAM要支持14个字的模型,这对目前的单片机是很大的考验。
按照本发明的方法,可以把“打开灯光”、“关闭灯光”以及“电灯设置”作为一级命令词,剩下的“调亮灯光”、“减弱灯光”、“温暖光”、“寒冷光”作为二级命令词。这样一级命令词是9个不同的字,二级命令词是10个不同的字,这样RAM存储器只需要支持10个字的模型就可以实现识别。举个例子:在具体的算法中,我们可以先侦听一级命令词,等到识别出“电灯设置”之后,我们再把二级命令的模型调入到RAM中,如果在规定的时间之内(比如说3秒),没有侦听到“调亮灯光”、“减弱灯光”、“温暖光”、“寒冷光”中任何一个,我们重新再把一级命令词调回到RAM存储器中。
具体实施方式2
在识别的时候根据需要从FLASH存储器中将不同场景对应的命令词的识别模型向RAM存储器中调用时,在硬件电路中也采用类似方案:对不同的管脚进行编码,例如:接高电压表示1,接地表示0,这样对于两个管脚,总共可以得到00、01、10、11共计四种编码,程序启动时,按照不同管脚的高低电平编码,调入不同的模型到RAM中,以适应不同的应用场景。这样在实际应用中,我们都只需要提供同一套电子元器件,里面的软件代码也都一样,只是在不同的应用场景的时候,硬件电路接通相应的管脚。例如:我们可以将00对应电灯的命令词,01对应空调的命令词,10对应冰箱的命令词,11对应风扇的命令词。在实现过程中,我们先检测编码,然后调入不同的命令词模型到RAM存储器中,这样就不需要同时支持电灯、空调、冰箱和风扇的命令词,实际应用只需要调入其中一个到RAM中即可。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (3)

1.一种支持多级命令词的语音交互方法,其特征在于:根据所需识别的场景将命令词设置为i个级别,i取1至n,这里n为所需识别的场景数量,设定第i级命令词与第i+1级命令词之间为上下级关系;对每级命令词分别对应建立识别模型;每个命令词还分类为属于控制词还是非控制词,其中控制词触发所需识别的场景中相应的控制模块,非控制词触发与之关联的下一级别命令词的识别过程;
对输入的语音进行识别时,按照命令词级别的上下级的先后顺序分为多级进行,其中每一级的识别过程如下:
首先调入该级别的命令词的识别模型至RAM存储器中并将该级别的命令词作为侦听目标进行侦听:
若无法侦听到,则根据本次侦听目标按照下列规则重新侦听:若本次侦听目标为一级命令词,则重新侦听一级命令词,若本次侦听目标为其他级别命令词,则返回进行识别上一级别命令词;
若能侦听到,则继续判断该命令词为是否为控制词,若为控制词,则触发所需识别的场景中相应的控制模块,若为非控制词,则触发与之关联的下一级别命令词的识别过程并将当前级别的命令词的识别模型从RAM存储器中删除。
2.根据权利要求1所述的支持多级命令词的语音交互方法,其特征在于:将每级命令词的识别模型分别存储于FLASH存储器中,使用时根据需要从FLASH存储器中调入相应的识别模型至RAM存储器中。
3.根据权利要求1所述的支持多级命令词的语音交互方法,其特征在于:对任意一个场景,将该场景所对应的命令词的识别模型所组成的集合存储于FLASH存储器中,使用时根据所需场景从FLASH存储器中调用该场景对应的识别模型所组成的集合至RAM存储器中。
CN201610373481.XA 2016-05-31 2016-05-31 一种支持多级命令词的语音交互方法 Active CN105931639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610373481.XA CN105931639B (zh) 2016-05-31 2016-05-31 一种支持多级命令词的语音交互方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610373481.XA CN105931639B (zh) 2016-05-31 2016-05-31 一种支持多级命令词的语音交互方法

Publications (2)

Publication Number Publication Date
CN105931639A true CN105931639A (zh) 2016-09-07
CN105931639B CN105931639B (zh) 2019-09-10

Family

ID=56832261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610373481.XA Active CN105931639B (zh) 2016-05-31 2016-05-31 一种支持多级命令词的语音交互方法

Country Status (1)

Country Link
CN (1) CN105931639B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
CN107785019A (zh) * 2017-10-26 2018-03-09 西安Tcl软件开发有限公司 车载设备及其语音识别方法、可读存储介质
CN108257596A (zh) * 2017-12-22 2018-07-06 北京小蓦机器人技术有限公司 一种用于提供目标呈现信息的方法与设备
CN109360561A (zh) * 2018-11-13 2019-02-19 东软集团股份有限公司 语音控制方法及系统、存储介质、语音模块、主控系统
CN110838292A (zh) * 2019-09-29 2020-02-25 广东美的白色家电技术创新中心有限公司 一种语音交互方法及电子设备、计算机存储介质
CN111429900A (zh) * 2020-03-12 2020-07-17 云知声智能科技股份有限公司 一种实现中控设备自定义控制的语音编程的方法及系统
CN116825108A (zh) * 2023-08-25 2023-09-29 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216179A (ja) * 2002-01-24 2003-07-30 Nec Corp 音声認識システム
US20040002862A1 (en) * 2002-06-28 2004-01-01 Samsung Electronics Co., Ltd. Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
CN102636171A (zh) * 2012-04-27 2012-08-15 深圳市凯立德科技股份有限公司 一种语音导航方法及装置
CN103077714A (zh) * 2013-01-29 2013-05-01 华为终端有限公司 信息的识别方法和装置
CN103440867A (zh) * 2013-08-02 2013-12-11 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN103531197A (zh) * 2013-10-11 2014-01-22 安徽科大讯飞信息科技股份有限公司 一种对用户语音识别结果反馈的命令词识别自适应优化方法
CN103680498A (zh) * 2012-09-26 2014-03-26 华为技术有限公司 一种语音识别方法和设备
CN104464723A (zh) * 2014-12-16 2015-03-25 科大讯飞股份有限公司 一种语音交互方法及系统
CN105183081A (zh) * 2015-09-07 2015-12-23 北京君正集成电路股份有限公司 一种智能眼镜的语音控制方法及智能眼镜
CN105321518A (zh) * 2014-08-05 2016-02-10 中国科学院声学研究所 一种低资源嵌入式语音识别的拒识方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003216179A (ja) * 2002-01-24 2003-07-30 Nec Corp 音声認識システム
US20040002862A1 (en) * 2002-06-28 2004-01-01 Samsung Electronics Co., Ltd. Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
CN102636171A (zh) * 2012-04-27 2012-08-15 深圳市凯立德科技股份有限公司 一种语音导航方法及装置
CN103680498A (zh) * 2012-09-26 2014-03-26 华为技术有限公司 一种语音识别方法和设备
CN103077714A (zh) * 2013-01-29 2013-05-01 华为终端有限公司 信息的识别方法和装置
CN103440867A (zh) * 2013-08-02 2013-12-11 安徽科大讯飞信息科技股份有限公司 语音识别方法及系统
CN103531197A (zh) * 2013-10-11 2014-01-22 安徽科大讯飞信息科技股份有限公司 一种对用户语音识别结果反馈的命令词识别自适应优化方法
CN105321518A (zh) * 2014-08-05 2016-02-10 中国科学院声学研究所 一种低资源嵌入式语音识别的拒识方法
CN104464723A (zh) * 2014-12-16 2015-03-25 科大讯飞股份有限公司 一种语音交互方法及系统
CN105183081A (zh) * 2015-09-07 2015-12-23 北京君正集成电路股份有限公司 一种智能眼镜的语音控制方法及智能眼镜

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
CN107146610B (zh) * 2017-04-10 2021-06-15 易视星空科技无锡有限公司 一种用户意图的确定方法及装置
CN107785019A (zh) * 2017-10-26 2018-03-09 西安Tcl软件开发有限公司 车载设备及其语音识别方法、可读存储介质
CN108257596A (zh) * 2017-12-22 2018-07-06 北京小蓦机器人技术有限公司 一种用于提供目标呈现信息的方法与设备
CN109360561A (zh) * 2018-11-13 2019-02-19 东软集团股份有限公司 语音控制方法及系统、存储介质、语音模块、主控系统
CN110838292A (zh) * 2019-09-29 2020-02-25 广东美的白色家电技术创新中心有限公司 一种语音交互方法及电子设备、计算机存储介质
CN111429900A (zh) * 2020-03-12 2020-07-17 云知声智能科技股份有限公司 一种实现中控设备自定义控制的语音编程的方法及系统
CN111429900B (zh) * 2020-03-12 2023-04-18 云知声智能科技股份有限公司 一种实现中控设备自定义控制的语音编程的方法及系统
CN116825108A (zh) * 2023-08-25 2023-09-29 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质
CN116825108B (zh) * 2023-08-25 2023-12-08 深圳市友杰智新科技有限公司 语音命令词识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN105931639B (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
CN105931639A (zh) 一种支持多级命令词的语音交互方法
CN107704275B (zh) 智能设备唤醒方法、装置、服务器及智能设备
CN110838289B (zh) 基于人工智能的唤醒词检测方法、装置、设备及介质
US10515627B2 (en) Method and apparatus of building acoustic feature extracting model, and acoustic feature extracting method and apparatus
CN107622770B (zh) 语音唤醒方法及装置
CN103456314B (zh) 一种情感识别方法以及装置
CN105336324A (zh) 一种语种识别方法及装置
CN105632486A (zh) 一种智能硬件的语音唤醒方法和装置
CN108694940A (zh) 一种语音识别方法、装置及电子设备
CN103077714A (zh) 信息的识别方法和装置
CN103971685A (zh) 语音命令识别方法和系统
CN104899002A (zh) 机器人基于对话预测的在线与离线的识别切换方法及系统
CN108183844A (zh) 一种智能家电语音控制方法、装置及系统
CN105190746A (zh) 用于检测目标关键词的方法和设备
CN109065040A (zh) 一种语音信息处理方法以及智能电器
US11333378B1 (en) Energy consumption artificial intelligence
CA2486128A1 (en) System and method for using meta-data dependent language modeling for automatic speech recognition
US11531789B1 (en) Floor plan generation for device visualization and use
CN110706707B (zh) 用于语音交互的方法、装置、设备和计算机可读存储介质
CN109360555A (zh) 一种物联网语音控制方法、装置及存储介质
CN109741735A (zh) 一种建模方法、声学模型的获取方法和装置
CN109448701A (zh) 一种智能语音识别到语义理解的结果统计系统及方法
CN110570855A (zh) 通过对话机制控制智能家居设备的系统、方法及装置
CN109739968A (zh) 一种数据处理方法及装置
CN111128174A (zh) 一种语音信息的处理方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20201218

Address after: 210001 820a, building B, building 4, Baixia high tech Development Zone, 6 Yongzhi Road, Qinhuai District, Nanjing City, Jiangsu Province

Patentee after: Nanjing limiqing New Material Technology Co.,Ltd.

Address before: 210000 National Science and Technology Park of Southeast University, no.6, Changjiang back street, Xuanwu District, Nanjing City, Jiangsu Province

Patentee before: Yang Ruochong

TR01 Transfer of patent right