CN109218899A - 一种语音交互场景的识别方法、装置及智能音箱 - Google Patents
一种语音交互场景的识别方法、装置及智能音箱 Download PDFInfo
- Publication number
- CN109218899A CN109218899A CN201810998189.6A CN201810998189A CN109218899A CN 109218899 A CN109218899 A CN 109218899A CN 201810998189 A CN201810998189 A CN 201810998189A CN 109218899 A CN109218899 A CN 109218899A
- Authority
- CN
- China
- Prior art keywords
- interactive voice
- voice
- scene
- intelligent sound
- sound box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002452 interceptive effect Effects 0.000 title claims abstract description 107
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000001514 detection method Methods 0.000 claims abstract description 100
- 230000007613 environmental effect Effects 0.000 claims abstract description 64
- 238000003860 storage Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 19
- 230000003993 interaction Effects 0.000 claims description 17
- 238000013341 scale-up Methods 0.000 claims description 14
- 238000004088 simulation Methods 0.000 claims description 14
- 230000003321 amplification Effects 0.000 claims description 9
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 9
- 230000001960 triggered effect Effects 0.000 claims description 6
- 238000005265 energy consumption Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 54
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000005611 electricity Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000001737 promoting effect Effects 0.000 description 3
- 238000011897 real-time detection Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 2
- 230000002045 lasting effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/20—Arrangements for obtaining desired frequency or directional characteristics
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本发明公开了一种语音交互场景的识别方法、装置及智能音箱,涉及便携式智能音箱技术领域,主要目的在于通过自动控制语音交互功能的关闭与开启,以降低音箱的能耗,提高便携式音箱的续航能力。本发明主要的技术方案为:通过预置麦克风采集智能音箱在当前场景中的环境音量;根据所述环境音量的特征值生成语音交互启动指令,所述语音交互启动指令用于启动智能音箱的语音检测功能。本发明用于识别便携式智能音箱所处的语音交互场景。
Description
技术领域
本发明涉及便携式智能音箱技术领域,尤其涉及一种语音交互场景的识别方法、装置及智能音箱。
背景技术
人工智能技术近几年逐渐走入普通消费者的视野中,尤其是在对语义理解方面有了显著提升,因此国内外诸多厂商将目光聚焦在智能语音音箱这一产品形态,希望其能成为家中的智能化中心,连接智能手机或者其他智能家居设备,以及让用户可以用语言轻松获取互联网上的各种信息,以及音频娱乐内容。
然而,智能语音音箱为了确保语音交互的及时性,其通常需要一直处于待机状态,接收用户的语音指令,因此,一般的智能语音音箱需要为此消耗较高的能耗,而对于电池供电的便携式智能语音音箱,由于其电池容量有限,语音交互功能将大幅影响音箱的续航能力。目前,现有提升便携式智能语音音箱的续航能力多采用提高电池容量,然而在电池性能一定的条件下,电池容量的提高必然导致电池体积的增加,从而使得音箱的整体便携性降低。
发明内容
鉴于上述问题,本发明提出了一种语音交互场景的识别方法、装置及智能音箱,主要目的在于通过自动控制语音交互功能的关闭与开启,以降低音箱的能耗,提高便携式音箱的续航能力。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种语音交互场景的识别方法,具体包括:
通过预置麦克风采集智能音箱在当前场景中的环境音量;
根据所述环境音量的特征值生成语音交互启动指令,所述语音交互启动指令用于启动智能音箱的语音检测功能。
优选的,根据所述环境音量的特征值生成语音交互启动指令包括:
通过模拟放大电路放大所述环境音量对应的电压值;
当所述电压值高于阈值时,启动电压;
利用所述启动电压触发生成所述语音交互启动指令。
优选的,根据所述环境音量的特征值生成语音交互启动指令包括:
将所述环境音量对应的电压值输入数字检测电路,所述数据检测电路用于通过预置的检测程序分析所述电压值对应的特征值,根据所述特征值确定是否输出启动电压;
当所述数字检测电路输出启动电压时,生成所述语音交互启动指令。
优选的,所述数字检测电路中预置的检测程序在处理输入的电压值时,包括:
在预置检测周期内根据输入的所述电压值统计所述环境音量的均值;
当所述均值大于阈值时,生成并输出启动电压。
优选的,在根据所述环境音量的特征值生成开启语音交互指令之后,所述方法还包括:
判断所述语音检测功能是否处于关闭状态;
若是,则根据所述语音交互启动指令启动语音检测功能。
另一方面,本发明提供一种语音交互场景的识别装置,具体包括:
音量采集单元,用于通过预置麦克风采集智能音箱在当前场景中的环境音量;
指令生成单元,用于根据所述音量采集单元采集的环境音量的特征值生成语音交互启动指令,所述语音交互启动指令用于启动智能音箱的语音检测功能。
优选的,所述指令生成单元包括:
信号放大模块,通过模拟放大电路放大所述环境音量对应的电压值,当所述电压值高于阈值时,得到启动电压;
模拟指令生成模块,用于利用所述信号放大模块得到的启动电压触发生成所述语音交互启动指令。
优选的,所述指令生成单元包括:
数字检测模块,用于将所述环境音量对应的电压值输入数字检测电路,所述数据检测电路用于通过预置的检测程序分析所述电压值对应的特征值,根据所述特征值确定是否输出启动电压;
数字指令生成模块,用于当所述数字检测模块中的数字检测电路输出启动电压时,生成所述语音交互启动指令。
优选的,所述数字检测模块的数字检测电路中预置的检测程序在处理输入的电压值时,包括:
在预置检测周期内根据输入的所述电压值统计所述环境音量的均值;
当所述均值大于阈值时,生成并输出启动电压。
优选的,所述装置还包括:
状态判断单元,用于在指令生成单元根据所述环境音量的特征值生成开启语音交互指令之后,判断所述语音检测功能是否处于关闭状态;
启动单元,用于当状态判断单元确定语音检测功能为关闭状态时,根据所述语音交互启动指令启动语音检测功能。
另一方面,本发明提供一种智能音箱,该智能音箱包括:场景识别装置和语音交互装置,其中,所述语音交互装置通过语音检测模块检测用户的语音交互指令,以实现所述智能音箱的语音检测功能;
所述场景识别装置包括上述的语音交互场景的识别装置,通过实时检测所述智能音箱所在场景的环境音量确定是否向所述语音交互装置发送语音交互启动指令,以唤醒所述语音交互装置中的语音检测模块,检测用户的语音交互指令。
另一方面,本发明提供一种存储介质,所述存储介质用于存储的计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的语音交互场景的识别方法。
另一方面,本发明提供一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述的语音交互场景的识别方法。
借由上述技术方案,本发明提供的一种语音交互场景的识别方法、装置及智能音箱,通过在智能音箱中增加用于识别语音交互场景的场景识别装置,对音箱所处当前场景的环境音量进行实时的采集与分析,在确定音箱处于语音交互场景中时,生成语音交互启动指令,通过该指令启动智能音箱中的语音检测功能。通过该设计,可将智能音箱中的语音检测功能在没有语音交互时设置为睡眠状态,即降低语音检测功能所产生的能耗,同时,又确保处于语音交互场景中时,智能音箱能够快速地唤醒语音检测功能,接收用户的语音交互指令,实现提升智能音箱整体的续航能力。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提出的一种语音交互场景的识别方法的流程图;
图2示出了本发明实施例提出的另一种语音交互场景的识别方法的流程图;
图3示出了本发明实施例提出的一种语音交互场景的识别装置的组成框图;
图4示出了本发明实施例提出的另一种语音交互场景的识别装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种语音交互场景的识别方法,该方法用于唤醒处于睡眠状态的语音检测功能。其具体步骤如图1所示,该方法包括:
步骤101、通过预置麦克风采集智能音箱在当前场景中的环境音量。
其中,该预置麦克风在智能音箱中是独立设置的,只用于采集环境音量。而在智能音箱中,还具有用于语音交互用的麦克风,该麦克风的工作状态是由语音检测功能控制,语音检测功能启动时,该麦克风处于工作状态,语音检测功能睡眠或关闭时,该麦克风处于关闭状态。
此外,对于麦克风采集的环境音量,采集的是声音信号,输出的为电信号,即将环境音量转换为电信号后进行后续的判断处理。
步骤102、根据环境音量的特征值生成语音交互启动指令。
环境音量的特征值即为预置麦克风采集并输出的电信号的值,通过判断该特征值是否符合预置条件来确定是否生成音交互启动指令。其中,预置条件可通过不同的检测电路加以实现,常用的包括模拟检测电路和数字检测电路,在实际应用中,使用模拟检测电路的主要目的在于放大预置麦克风的输出电信号,其优点在于原理简单,通过简单的电子元器件即可搭建该模拟检测电路,实现成本低廉,但是该方式的不足在于易受到电路噪声的干扰,对抗干扰设计有较高要求;而使用数字检测电路则避免了噪声干扰的问题,并且数字检测电路中可以预置检测程序,可以对一段时间内采集的环境音量进行综合分析处理,提高检测识别的精度。对此,本实施例不限定对特征值的具体处理分析方式,当特征值符合预置条件时,证明智能音箱当前处于语音交互场景中,此时生成语音交互启动指令,相反的,如果特征值不符合预置条件,则证明智能音箱当前不处于语音交互场景中,返回步骤101继续采集环境音量。
此外,本步骤中的语音交互启动指令用于启动智能音箱的语音检测功能,在智能音箱中,语音检测功能是通过语音交互装置实现的,在开启语音检测功能时,可以实时检测用户的语音交互指令。而本实施例中的语音交互装置在一定条件下,如一段时间没有收到用户的语音交互指令,智能音箱将自动关闭语音检测功能,以降低智能音箱的功耗。本步骤中的语音交互启动指令就是在智能音箱中的语音检测功能关闭时,开启语音检测功能,确保智能音箱实现正常的语音交互功能。
通过上述实施例中的具体实现方式可以看出,本发明实施例提出的语音交互场景的识别方法,是通过采集智能音箱周边的环境音量,在该环境音量符合语音交互场景的判断条件时,生成语音交互启动指令,以唤醒智能音箱的语音检测功能,确保正常接收用户的语音交互指令。通过本发明实施例的执行,可以让智能音箱中的语音交互装置在非语音交互场景下进入睡眠模式,以达到降低功耗,提高续航能力的目的。
为了进一步详细的阐明语音交互场景的识别方法,尤其是对环境音量的特征值进行分析处理的具体方式,在图2所示的实施例中将详细说明采用模拟放大电路与数字检测电路的具体实现方式,包括:
步骤201、通过预置麦克风采集智能音箱在当前场景中的环境音量。
该步骤与上述图1中的步骤101相同,具体内容不再赘述。
步骤202a、利用模拟放大电路处理环境音量的特征值,生成语音交互启动指令。
本实施例中的模拟放大电路在处理环境音量时,其具体流程为:
将麦克风输出的环境音量对应的电压值进行有比例的放大,其中,模拟放大电路中的电压放大倍数为生成语音交互启动指令所需的启动电压与麦克风采集的在语音交互场景下的最小环境音量所对应的电压值的比值。而模拟放大电路根据该比值放大环境音量对应的电压值后,将判断该电压值是否高于阈值,该阈值用于表示智能音箱所在环境中声音响度高于人类语音的临界值,本实施例中将该音量阈值设定在45dBSPL,该值可以适用于大多数场景中,当然,根据应用场所的不同也可以调整该音量阈值,比如,当智能音箱是应用在卧室中时,可以将该值设置为更低的数值,而当智能音箱应用于户外场所时,则可以设置更高的音量阈值。
在高于该阈值时,将该电压值确定为启动电压,以触发生成语音交互启动指令。在该模拟放大电路中,语音交互启动指令的触发可通过一个三极管实现,而该三级管的导通电压即为语音交互启动指令的启动电压。
对于该模拟放大电路所采用的电子元器件则可以根据上述确定的放大倍数以及三极管的应用,利用基础的电子电路原理进行元器件的选择以及电路的搭建,其具体结构此处不再详细说明。
需要说明的是,通过模拟放大电路检测环境音量的过程为实时检测,所检测到的音量为当前音量的峰值,一旦存在大于阈值的峰值,就会触发语音交互启动指令。因此,模拟放大电路并不能实现根据环境音量的持续检测而触发语音交互启动指令,而数字检测电路中由于存在可执行程序以及一定的存储功能,因此,数字检测电路可以通过持续检测来计算更为准确的环境音量,避免误判。对于采用数字检测电路实现环境音量的判断方式详见步骤202b。
步骤202b、利用数字检测电路处理环境音量的特征值,生成语音交互启动指令。
数字检测电路一般是指具有一定算术运算与逻辑运算能力的电路,而对于本步骤中的数字检测电路所要实现的功能与上述步骤202a中的模拟电路类似,都是对预置麦克风的输出电压值进行处理,判断其是否符合触发语音交互启动指令的条件,进而生成语音交互启动指令。具体到本步骤中,由于数字检测电路预置的检测程序对输入的电压值没有限定,因此,在使用数字检测电路时可以直接将环境音量对应的电压值输入数字检测电路,执行其预置的检测程序,该检测程序在本实施例中的一种实现为:在预置检测周期内根据多个输入的电压值统计环境音量的均值,即在预置检测周期内多次采集环境音量,并统计出均值,该均值为环境音量的特征值,再判断该均值后是否大于阈值,需要说明的是,该阈值可以是步骤202a中的阈值,也可以是单独设置的阈值。
步骤203、判断语音检测功能是否处于关闭状态。
本步骤是在生成开启语音交互指令之后,进一步对智能音箱中的语音检测功能的工作状态进行判断,当其处于关闭状态时,需要启动该语音检测功能,实现语音交互,此时执行不走204;而当语音检测功能是在开启状态时,则无需再次启动,此时将返回步骤201重复上述的信号检测流程。
步骤204、启动语音检测功能。
根据上述步骤的实现流程可以看出,不论采用模拟放大电路或是数据检测电路实现的环境音量检测,都会根据环境音量的大小而触发语音交互启动指令。而环境音量的检测流程与语音检测功能的工作状态无关,即环境音量的采集与处理,以及触发语音交互启动指令都是在智能音箱开启状态中实时执行的,只有在语音检测功能进入睡眠状态时,生成的语音交互启动指令才会启动语音检测功能。可见,采用该实现方式的智能音箱可通过将语音检测功能设置为睡眠状态而降低音箱的整体功耗,同时,又可以根据自动识别当前的环境音量而自动启动语音检测功能,实现用户的语音交互操作。在提升智能音箱续航能力的同时也提高了用户的应用体验。
进一步的,作为对上述图1与图2所示方法的实现,本发明实施例提供了一种语音交互场景的识别装置,该装置用于启动智能音箱中语音交互装置的语音检测功能。为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图3所示,具体包括:
音量采集单元31,用于通过预置麦克风采集智能音箱在当前场景中的环境音量;
指令生成单元32,用于根据所述音量采集单元31采集的环境音量的特征值生成语音交互启动指令,所述语音交互启动指令用于启动智能音箱的语音检测功能。
进一步的,如图4所示,所述指令生成单元32包括:
信号放大模块321,通过模拟放大电路放大所述环境音量对应的电压值,当所述电压值高于阈值时,得到启动电压;
模拟指令生成模块322,用于利用所述信号放大模块321得到的启动电压触发生成所述语音交互启动指令。
进一步的,如图4所示,所述指令生成单元32还包括:
数字检测模块323,用于将所述环境音量对应的电压值输入数字检测电路,所述数据检测电路用于通过预置的检测程序分析所述电压值对应的特征值,根据所述特征值确定是否输出启动电压;
数字指令生成模块324,用于当所述数字检测模块323中的数字检测电路输出启动电压时,生成所述语音交互启动指令。
进一步的,所述数字检测模块323的数字检测电路中预置的检测程序在处理输入的电压值时,包括:
在预置检测周期内根据输入的所述电压值统计所述环境音量的均值;
当所述均值大于阈值时,生成并输出启动电压。
进一步的,如图4所示,所述装置还包括:
状态判断单元33,用于在指令生成单元32根据所述环境音量的特征值生成开启语音交互指令之后,判断所述语音检测功能是否处于关闭状态;
启动单元34,用于当状态判断单元33确定语音检测功能为关闭状态时,根据所述语音交互启动指令启动语音检测功能。
进一步的,本发明实施例还提供了一种智能音箱,该智能音箱中至少包括场景识别装置和语音交互装置。
其中,语音交互装置用于实现与用户的语音交互,即检测并执行用户的语音交互指令,而该语音交互装置能够将语音检测功能自动设置为睡眠模式,比如,在经过一定时间后没有接收到用户的语音交互指令时,就会将语音检测功能设置为睡眠模式,以降低功耗。在语音检测功能处于睡眠模式时,还可以根据场景识别装置生成的语音交互启动指令唤醒语音检测功能。
场景识别装置用于识别智能音箱当前所处场景中的环境音量,从而生成语音交互启动指令,自动唤醒处于睡眠模式的语音检测功能。该场景识别装置中至少包括上述图3或图4所述的语音交互场景的识别装置。
综上所述,本发明实施例所采用的语音交互场景的识别方法、装置及智能音箱,通过检测智能音箱所处的环境音量而自动生成语音交互启动指令,以启动语音检测功能,这使得智能音箱可以在没有进行语音交互的场景中设置语音检测功能为睡眠模式,以降低智能音箱的功耗,提升其续航能力。同时,通过本实施例的执行可见看出,语音检测功能的启动与关闭都无需人为控制,实现了无感知操作,提升了用户的应用体验。
进一步的,本发明实施例还提供了一种存储介质,该存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行上述的语音交互场景的识别方法。
另外,本发明实施例还提供了一种处理器,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行上述的语音交互场景的识别方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
可以理解的是,上述方法、装置及智能音箱中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种语音交互场景的识别方法,其特征在于,所述方法包括:
通过预置麦克风采集智能音箱在当前场景中的环境音量;
根据所述环境音量的特征值生成语音交互启动指令,所述语音交互启动指令用于启动智能音箱的语音检测功能。
2.根据权利要求1所述的方法,其特征在于,根据所述环境音量的特征值生成语音交互启动指令包括:
通过模拟放大电路放大所述环境音量对应的电压值;
当所述电压值高于阈值时,得到启动电压;
利用所述启动电压触发生成所述语音交互启动指令。
3.根据权利要求1所述的方法,其特征在于,根据所述环境音量的特征值生成语音交互启动指令包括:
将所述环境音量对应的电压值输入数字检测电路,所述数据检测电路用于通过预置的检测程序分析所述电压值对应的特征值,根据所述特征值确定是否输出启动电压;
当所述数字检测电路输出启动电压时,生成所述语音交互启动指令。
4.根据权利要求3所述的方法,其特征在于,所述数字检测电路中预置的检测程序在处理输入的电压值时,包括:
在预置检测周期内根据输入的所述电压值统计所述环境音量的均值;
当所述均值大于阈值时,生成并输出启动电压。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在根据所述环境音量的特征值生成开启语音交互指令之后,所述方法还包括:
判断所述语音检测功能是否处于关闭状态;
若是,则根据所述语音交互启动指令启动语音检测功能。
6.一种语音交互场景的识别装置,其特征在于,所述装置包括:
音量采集单元,用于通过预置麦克风采集智能音箱在当前场景中的环境音量;
指令生成单元,用于根据所述音量采集单元采集的环境音量的特征值生成语音交互启动指令,所述语音交互启动指令用于启动智能音箱的语音检测功能。
7.根据权利要求6所述的装置,其特征在于,所述指令生成单元包:
信号放大模块,通过模拟放大电路放大所述环境音量对应的电压值,当所述电压值高于阈值时,得到启动电压;
模拟指令生成模块,用于利用所述信号放大模块得到的启动电压触发生成所述语音交互启动指令。
8.一种智能音箱,其特征在于,所述智能音箱包括场景识别装置和语音交互装置,其中,所述语音交互装置通过语音检测模块检测用户的语音交互指令,以实现所述智能音箱的语音检测功能;
所述场景识别装置包括上述权利要求6或7所述的语音交互场景的识别装置,通过实时检测所述智能音箱所在场景的环境音量确定是否向所述语音交互装置发送语音交互启动指令,以唤醒所述语音交互装置中的语音检测模块,检测用户的语音交互指令。
9.一种存储介质,其特征在于,所述存储介质用于存储计算机程序,其中,所述计算机程序运行时控制所述存储介质所在设备执行权利要求1-5中任意一项所述的语音交互场景的识别方法。
10.一种处理器,其特征在于,所述处理器用于运行计算机程序,其中,所述计算机程序运行时执行权利要求1-5中任意一项所述的语音交互场景的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810998189.6A CN109218899A (zh) | 2018-08-29 | 2018-08-29 | 一种语音交互场景的识别方法、装置及智能音箱 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810998189.6A CN109218899A (zh) | 2018-08-29 | 2018-08-29 | 一种语音交互场景的识别方法、装置及智能音箱 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109218899A true CN109218899A (zh) | 2019-01-15 |
Family
ID=64985626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810998189.6A Pending CN109218899A (zh) | 2018-08-29 | 2018-08-29 | 一种语音交互场景的识别方法、装置及智能音箱 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109218899A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110347248A (zh) * | 2019-06-24 | 2019-10-18 | 歌尔科技有限公司 | 交互处理方法、装置、设备及音频设备 |
CN111009246A (zh) * | 2020-03-10 | 2020-04-14 | 展讯通信(上海)有限公司 | 智能音箱及其唤醒方法、网关、服务器、可读存储介质 |
CN111464595A (zh) * | 2020-03-17 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种云端配置个性化场景的方法及装置 |
CN111698544A (zh) * | 2019-03-15 | 2020-09-22 | 海信视像科技股份有限公司 | 一种显示设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106062661A (zh) * | 2014-03-31 | 2016-10-26 | 英特尔公司 | 用于常开常听的语音识别系统的位置感知功率管理方案 |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 |
CN107393535A (zh) * | 2017-08-29 | 2017-11-24 | 歌尔科技有限公司 | 一种开启终端语音识别功能的方法、装置、耳机及终端 |
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
-
2018
- 2018-08-29 CN CN201810998189.6A patent/CN109218899A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106062661A (zh) * | 2014-03-31 | 2016-10-26 | 英特尔公司 | 用于常开常听的语音识别系统的位置感知功率管理方案 |
CN106157950A (zh) * | 2016-09-29 | 2016-11-23 | 合肥华凌股份有限公司 | 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器 |
CN107591151A (zh) * | 2017-08-22 | 2018-01-16 | 百度在线网络技术(北京)有限公司 | 远场语音唤醒方法、装置和终端设备 |
CN107393535A (zh) * | 2017-08-29 | 2017-11-24 | 歌尔科技有限公司 | 一种开启终端语音识别功能的方法、装置、耳机及终端 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111698544A (zh) * | 2019-03-15 | 2020-09-22 | 海信视像科技股份有限公司 | 一种显示设备 |
WO2020187050A1 (zh) * | 2019-03-15 | 2020-09-24 | 海信视像科技股份有限公司 | 一种显示设备 |
CN110347248A (zh) * | 2019-06-24 | 2019-10-18 | 歌尔科技有限公司 | 交互处理方法、装置、设备及音频设备 |
CN111009246A (zh) * | 2020-03-10 | 2020-04-14 | 展讯通信(上海)有限公司 | 智能音箱及其唤醒方法、网关、服务器、可读存储介质 |
CN111464595A (zh) * | 2020-03-17 | 2020-07-28 | 云知声智能科技股份有限公司 | 一种云端配置个性化场景的方法及装置 |
CN111464595B (zh) * | 2020-03-17 | 2022-10-18 | 云知声智能科技股份有限公司 | 一种云端配置个性化场景的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109218899A (zh) | 一种语音交互场景的识别方法、装置及智能音箱 | |
US10665253B2 (en) | Voice activity detection using a soft decision mechanism | |
CN109065044B (zh) | 唤醒词识别方法、装置、电子设备及计算机可读存储介质 | |
CN109087669B (zh) | 音频相似度检测方法、装置、存储介质及计算机设备 | |
US20190107880A1 (en) | Wearable device-aware supervised power management for mobile platforms | |
CN107622770A (zh) | 语音唤醒方法及装置 | |
CN108573247B (zh) | 基于边缘计算的用于检测车位停车状态的方法 | |
TW201913441A (zh) | 模型安全檢測方法、裝置以及電子設備 | |
CN108337601A (zh) | 音箱的控制方法及装置 | |
CN108694940A (zh) | 一种语音识别方法、装置及电子设备 | |
CN108269567A (zh) | 用于生成远场语音数据的方法、装置、计算设备以及计算机可读存储介质 | |
CN103530912A (zh) | 一种具有情绪识别功能的考勤系统及方法 | |
CN109584873A (zh) | 一种车载语音系统的唤醒方法、装置、可读介质及设备 | |
CN110047512A (zh) | 一种环境声音分类方法、系统及相关装置 | |
US20190228773A1 (en) | Speech interaction method, apparatus and computer readable storage medium | |
CN103941871A (zh) | 控制智能终端的硬件运行状态的方法和设备 | |
TW201928804A (zh) | 資料處理的方法、裝置及設備 | |
CN109901408A (zh) | 一种智能设备的控制方法、装置和系统 | |
CN108806679B (zh) | 语音唤醒方法及装置 | |
CN110060658A (zh) | 一种车辆启动引导装置 | |
CN111063356B (zh) | 电子设备响应方法及系统、音箱和计算机可读存储介质 | |
WO2021180162A1 (zh) | 功耗控制、模式配置与vad方法、设备及存储介质 | |
CN113028612B (zh) | 空调器的控制方法、装置、存储介质和处理器 | |
CN107040955B (zh) | 终端的耗电状态识别方法、装置及电子设备 | |
CN108989548A (zh) | 一种检测移动终端应用耗电量的控制方法及控制装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190115 |