CN111161728B - 一种智能设备的唤醒方法、装置、设备及介质 - Google Patents
一种智能设备的唤醒方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111161728B CN111161728B CN201911365769.2A CN201911365769A CN111161728B CN 111161728 B CN111161728 B CN 111161728B CN 201911365769 A CN201911365769 A CN 201911365769A CN 111161728 B CN111161728 B CN 111161728B
- Authority
- CN
- China
- Prior art keywords
- age
- characteristic parameter
- age group
- target
- voice information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 15
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000002618 waking effect Effects 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 239000013598 vector Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 235000015170 shellfish Nutrition 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Artificial Intelligence (AREA)
- Electric Clocks (AREA)
- Telephone Function (AREA)
Abstract
本发明公开了一种智能设备的唤醒方法、装置、设备及介质,用以解决现有现有老人和儿童在唤醒智能设备时,因为口齿不清晰导致的唤醒率低的问题。由于根据年龄段的年龄特征参数的取值范围,以及从输入的第一语音信息中获取的每种年龄特征参数,确定输入第一语音信息的用户的目标年龄段,获取该目标年龄段对应的参考语音信息,判断第一语音信息的音频特征,与预先保存的目标年龄段对应的参考语音信息的音频特征的相似度是否大于设定阈值,确定是否唤醒智能设备,因为采用该目标年龄段对应的参考语音信息与输入的第一语音信息进行比对,从而降低了不同年龄段的语音特点,例如口齿不清等对唤醒智能设备的影响,提高了智能设备的唤醒率。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种智能设备的唤醒方法、装置、设备及介质。
背景技术
随着自然语音处理技术领域的发展,智能产品的种类越来越多,语音唤醒功能也被广泛应用于智能产品中,例如智能空调、智能冰箱和智能手机等智能设备。而如何提高唤醒率也成为近年来发展自然语音处理技术的关键。
现有技术中,实现语音唤醒功能的常用方式是:智能设备获取到待识别的语音信息中包含唤醒词的语音段后,通过唤醒词语义相似模型,获取该语音段与预设的唤醒词的相似度,判断该相似度是否大于设定的唤醒阈值,若大于,则唤醒智能设备,否则,不唤醒智能设备。该方法对于成年人来说,由于该年龄段的人吐字清晰,因此一般可以发出标准的语音信息,智能设备可以识别出该语音信息是否为唤醒语音信息,从而确定是否唤醒智能设备。而该方法对于其他年龄段的人来说,比如老年人、儿童等,可能存在其年龄段对应的语音特点,例如可能存在口齿不清晰、发音不准确等,智能设备易将唤醒语音信息误检为非唤醒语音信息,不唤醒智能设备,导致智能设备的唤醒率低。
发明内容
本发明实施例提供了一种智能设备的唤醒方法、装置、设备及介质,用以解决现有老人和儿童在唤醒智能设备时,因为口齿不清晰导致的唤醒率低的问题。
本发明实施例提供了一种智能设备的唤醒方法,所述方法包括:
获取待识别的第一语音信息中的至少一种年龄特征参数;
根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段;
若获取的所述第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息。
进一步地,所述年龄特征参数包括基频、音强、共振峰频率和共振峰带宽。
进一步地,生成参考语音信息的方法包括:
获取输入的唤醒词文本;
根据所述唤醒词文本生成对应的第二语音信息;
根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
进一步地,所述至少一种年龄特征参数是从一个第二语音帧中获取的,或,从至少两个第二语音帧中获取的。
进一步地,若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,所述根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段包括:
将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为该目标第二语音帧对应的第二候选年龄段;
根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,所述方法还包括:
若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
本发明实施例还提供了一种智能设备的唤醒装置,所述装置包括:
获取单元,用于获取待识别的第一语音信息中的至少一种年龄特征参数;
确定单元,用于根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段;
处理单元,用于若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息。
进一步地,所述装置还包括:
预处理单元,用于获取输入的唤醒词文本;根据所述唤醒词文本生成对应的第二语音信息;根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
进一步地,所述确定单元,具体用于若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为该目标第二语音帧对应的第二候选年龄段;根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,所述处理单元,还用于若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
本发明实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现上述任一所述智能设备的唤醒方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述智能设备的唤醒方法的步骤。
由于本发明实施例根据年龄段的年龄特征参数的取值范围,以及从输入的第一语音信息中获取的至少一种年龄特征参数,确定第一语音信息对应的目标年龄段,从而获取该目标年龄段对应的参考语音信息,通过判断获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,确定是否唤醒智能设备,因为采用该目标参考语音信息与输入的第一语音信息进行比对,从而降低了不同年龄段的语音特点,例如口齿不清等对唤醒智能设备的影响,提高了智能设备的唤醒率。
附图说明
图1为本发明实施例提供的一种智能设备的唤醒过程示意图;
图2为本发明实施例提供的具体的智能设备的唤醒方法实施流程示意图;
图3为本发明实施例提供的具体的智能设备的唤醒方法实施流程示意图;
图4为本发明实施例提供的一种智能设备的唤醒装置结构示意图;
图5为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为了提高智能设备的唤醒率,本发明实施例提供了一种智能设备的唤醒方法、装置、设备及介质。
实施例1:
图1为本发明实施例提供的一种智能设备的唤醒过程示意图,该过程包括以下步骤:
S101:获取待识别的第一语音信息中的至少一种年龄特征参数。
本发明实施例提供的智能设备的唤醒方法应用于电子设备,该电子设备可以是被唤醒的智能设备本身,也可以是除该智能设备外的、进行唤醒识别并控制该智能设备唤醒的其他设备,智能设备可以是移动终端、智能冰箱、智能空调等智能家居设备,进行唤醒识别并控制该智能设备唤醒的其他设备可以是服务器、移动终端等设备。
本发明实施例中,获取到待识别的第一语音信息后,可以获取该待识别的第一语音信息中的至少一种年龄特征参数。获取的年龄特征参数的种类可以根据实际需求灵活设置,如果对唤醒智能设备的要求比较高,可以将获取的每种年龄特征参数的种类设置的多一些,如果希望提高对智能设备唤醒的效率,可以将获取的每种年龄特征参数的种类设置的少一些。
其中,年龄特征参数包括基频、音强、共振峰频率和共振峰带宽等参数。
在本发明实施例中,获取该待识别的第一语音信息中的至少一种年龄特征参数,可以是获取一个第二语音帧中的一种年龄特征参数,或获取一个第二语音帧中的不同种的年龄特征参数,也可以获取至少两个第二语音帧中的同一种年龄特征参数,或至少两个第二语音帧中不同种的年龄特征参数。
采集到待识别的第一语音信息后,电子设备可以对该待识别的第一语音信息进行预处理,获取待识别的第一语音信息中的至少一种年龄特征参数,并基于获取到的至少一种年龄特征参数进行后续处理,从而根据处理结果确定是否唤醒智能设备。
需要说明的是,具体的获取至少一种年龄特征参数的方法为现有技术,在此不再赘述。
S102:根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段。
不同的人在发声时,其发出的语音信息中的每种年龄特征参数可能各有不同,但一般同一年龄段的人发出的语音信息中的每种年龄特征参数会在一定的范围,而不同的年龄段的人发出的语音信息中的每种年龄特征参数则会在不同的范围内。因此,为了准确地确定是否唤醒智能设备,可以预先统计不同年龄段的人发声时,发出的语音信息中每种年龄特征参数的取值范围,比如,7-18岁的儿童作为一个年龄段、19-65岁的成年人作为一个年龄段,66岁以上的老年人作为一个年龄段,统计该三个年龄段的人发出的语音信息中每种年龄特征参数的取值范围,将统计的年龄段的年龄特征参数的取值范围保存。
其中,在设置年龄段时,可以根据场景的不同,设置不同数量的年龄段,如果对年龄段的识别要求比较高,可以将年龄段的数量设置得多一些;如果希望提高识别年龄段的效率,可以将年龄段的数量设置得少一些。为了保证后续识别出的目标年龄段的可靠性,较佳的,不同的年龄段的数量可以设置为三个。
在获取到待识别的第一语音信息中的至少一种年龄特征参数后,根据年龄段的年龄特征参数的取值范围,以及至少一种年龄特征参数,分别判断获取的每种年龄特征参数在预先保存的该种年龄特征参数的哪一个年龄段对应的取值范围内,从而确定第一语音信息对应的目标年龄段。
S103:若获取的所述第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息。
不同年龄段的人口齿清晰的程度不同,比如,正处换牙期的儿童或者已经牙齿脱落的老年人对于一些字词的发音会不清晰,刚学会说话的儿童也会出现口齿不清晰、发音不标准的问题,而成年人的对于各个字词的发音则会比儿童和老年人标准且清晰。如果电子设备采用语义识别的方法,来确定是否唤醒智能设备,则很容易无法识别出儿童或者老年人的唤醒语音信息,从而降低了智能设备的唤醒率。因此,为了提高智能设备的唤醒率,在本发明实施例中,采用音频比对的方法,确定第一语音信息与目标参考语音信息之间的相似度,判断该相似度是否大于设定阈值,从而确定是否唤醒智能设备。具体的,判断获取的第一语音信息的音频特征与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,从而确定是否唤醒智能设备。
其中,音频特征是指代表语音信息中主要信息的特征,其包括有语音帧内信号的基本频率带、语音帧的信号强弱、梅尔倒谱系数等参数中的一个或多个。
相应的,由于不同年龄段的人发音以及口齿清晰程度的不同,为了进一步提高智能设备的唤醒率,在本发明实施例中,针对不同的年龄段,分别保存有对应的参考语音信息。当确定输入第一语音信息对应的目标年龄段后,根据该目标年龄段,确定该目标年龄段对应的参考语音信息,即确定目标参考语音信息。提取第一语音信息的音频特征,以及目标参考语音信息的音频特征之后,判断该第一语音信息的音频特征与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,从而确定是否唤醒智能设备。具体的,若获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值,说明该第一语音信息极有可能为唤醒语音信息,则确定唤醒所述智能设备。
如果控制智能设备唤醒的电子设备是智能设备,当确定获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值时,该智能设备直接唤醒。如果控制智能设备唤醒的电子设备是其它设备,当确定获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值时,该其它设备确定唤醒智能设备后,向该智能设备发送唤醒指令,以控制智能设备唤醒。
需要说明的是,提取音频特征,以及确定第一语音信息的音频特征与参考语音信息的音频特征的相似度的过程属于现有技术,在此不再赘述。
S104:若获取的所述第一语音信息的音频特征,与预先保存的所述参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
如果控制智能设备唤醒的电子设备是智能设备,当确定获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度不大于设定阈值时,该智能设备不唤醒。如果控制智能设备唤醒的电子设备是其它设备,当确定获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度不大于设定阈值时,该其它设备确定不唤醒智能设备后,不向该智能设备发送唤醒指令。
具体的,在确定获取的第一语音信息的音频特征,与目标参考语音信息的音频特征的相似度时,分别获取目标参考语音信息中每一个第一语音帧的音频特征,以及第一语音信息中每一个第二语音帧的音频特征,其中,可以基于获取的音频特征构建包含每个音频特征的多维向量,例如,构建包含有音频特征:基本频率带、语音帧的信号强弱和梅尔倒谱系数等特征的多维向量。当获取了每个第一语音帧和每个第二语音帧对应的多维向量后,将目标参考语音信息以一定的滑动步长从第一语音信息的第一个第二语音帧开始滑动,计算每一个对应的第一语音帧和第二语音帧对应的多维向量之间的欧氏距离。
将获取到的所有欧氏距离按照大小进行排序,获取其中最小的欧氏距离。由于欧氏距离越小,目标参考语音信息的音频特征与第一语音信息的音频特征的相似度越高;欧氏距离越大,目标参考语音信息的音频特征与第一语音信息的音频特征的相似度越低。因此,可以将欧氏距离的倒数,作为获取的目标参考语音信息的音频特征与第一语音信息的音频特征的相似度,判断获取到的最小的欧氏距离的倒数是否大于设定阈值,即判断第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值。若获取到的最小的欧氏距离的倒数是否大于设定阈值,说明第一语音信息与预先保存的目标参考语音信息相似,确定唤醒智能设备;若获取到的最小的欧氏距离的倒数是否不大于设定阈值,说明第一语音信息与预先保存的目标参考语音信息不相似,确定不唤醒智能设备。
由于本发明实施例根据年龄段的年龄特征参数的取值范围,以及从输入的第一语音信息中获取的至少一种年龄特征参数,确定第一语音信息对应的目标年龄段,从而获取该目标年龄段对应的参考语音信息,通过判断获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,确定是否唤醒智能设备,因为采用该目标参考语音信息与输入的第一语音信息进行比对,从而降低了不同年龄段的语音特点,例如口齿不清等对唤醒智能设备的影响,提高了智能设备的唤醒率。
实施例2:
为了方便后续确定是否唤醒智能设备,在上述实施例的基础上,在本发明实施例中,生成参考语音信息的方法包括:
获取输入的唤醒词文本;
根据所述唤醒词文本生成对应的第二语音信息;
根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
在本发明实施例中,电子设备预先保存了预设的唤醒词文本,例如:“格力空调”、“格力金贝”等。其中,该唤醒词文本可以是电子设备出厂前配置进去的,也可以是用户进行设置的。具体的可以根据需要灵活选择。
在进行设置时,电子设备也可以将预设的多个唤醒词显示给用户,方便用户在显示的唤醒词中选择适合的唤醒词,或者,电子设备提供进行唤醒词文本输入的界面,将在界面上接收到的唤醒词文本进行保存。
在本发明实施例中,为了实现对待识别的第一语音信息的识别,预先设置了用于唤醒智能设备的唤醒词文本,电子设备获取到输入的唤醒词文本后,将该唤醒词文本转化为对应的第二语音信息。然后根据年龄段的年龄特征参数的取值范围,对该第二语音信息中每个第一语音帧中的每个年龄特征参数进行调整,以得到每个年龄段对应的参考语音信息。
具体的,根据唤醒词文本生成第二语音信息后,根据年龄段的年龄特征参数的取值范围,即预先保存的每个年龄段的基频、音强、共振峰频率、共振峰带宽的取值范围,将第二语音信息中每个语音帧的基频的值、音强的值、共振峰频率的值、共振峰带宽的值,分别调整到每个年龄段对应的年龄特征参数的取值范围内某一目标值,从而得到每个年龄段对应的参考语音信息。
例如,7-18岁儿童这一年龄段的基频、音强、共振峰频率、共振峰带宽分别为[B1,B2]、[A1,A2]、[F1、F2]和[D1、D2],若生成7-18岁儿童这一年龄段对应的参考语音信息,则将第二语音信息中每个语音帧的基频的值、音强的值、共振峰频率的值、共振峰带宽的值分别调整到[B1,B2]、[A1,A2]、[F1、F2]和[D1、D2]内的某一目标值,即可得到7-18岁儿童这一年龄段对应的参考语音信息。
如果离线生成每个年龄段对应的参考语音信息,电子设备可以预先保存每个年龄段的每个年龄特征参数经常出现的值,或平均值等,将该经常出现的值或平均值作为目标值,后续在对第二语音信息进行调整时,将每个第一语音帧的每个年龄特征参数调整到对应的目标值,从而得到每个年龄段对应的参考语音信息。
其中,当电子设备是服务器时,相关的工作人员可以对当前服务器生成的每个年龄段的参考语音信息的年龄特征参数进行调整,并且工作人员可以判断调整后的该参考语音信息,是否贴近真实用户发出的唤醒语音信息,从而得到每个年龄段对应的参考语音信息。
较佳的,在本发明实施例中,为了准确地确定每个年龄段对应的参考语音信息,每个年龄段对应的参考语音信息是在服务器端生成,并由工作人员对每个年龄段的参考语音信息的年龄特征参数进行调整得到的。
需要说明的是,将文本转化为对应的语音信息的方法为现有技术,在此不再赘述。
由于本发明实施例中可以根据用户输入的唤醒词文本,以及预先保存的每个年龄段的每个年龄特征参数的取值范围,得到每个年龄段对应的参考语音信息,不仅提高了用户体验,也有利于后续根据不同年龄段对应的参考语音信息,确定是否唤醒智能设备,从而提高用户的唤醒率。
实施例3:
为了准确地确定目标年龄段,在上述各实施例的基础上,在本发明实施例中,所述至少一种年龄特征参数是从一个第二语音帧中获取的,或,从至少两个第二语音帧中获取的。
在本发明实施例中,至少一种年龄特征参数可以是从一个第二语音帧中获取的,也可以是从至少两个第二语音帧中获取的。当该至少一种年龄特征参数是从一个第二语音帧中获取的时,获取的可以是一个第二语音帧中的一种年龄特征参数,比如,获取一个第二语音帧中的基频、或音强,或共振峰频率,或共振峰带宽;获取的也可以是一个第二语音帧中的至少两种年龄特征参数,比如获取一个第二语音帧中的基频和音强,获取一个第二语音帧中的基频、音强,共振峰频率,以及共振峰带宽。
但由于从一个第二语音帧中获取至少一种年龄特征参数,确定的目标年龄段很可能不可靠,因此,为了准确地确定目标年龄段,该至少一种年龄特征参数是从至少两个第二语音帧中获取的,根据从至少两个第二语音帧中获取的至少一种年龄特征参数,确定输入第一语音信息的用户的目标年龄段。具体的,当该至少一种年龄特征参数是从至少两个第二语音帧中获取的时,获取的可以是至少两个第二语音帧中的同一种年龄特征参数,比如,获取第二语音信息中至少两个第二语音帧的基频,或,获取第二语音信息中至少两个第二语音帧的音强等;获取的也可以是至少两个第二语音帧中的至少两种年龄特征参数,比如,可以获取一个第二语音帧中的基频,获取另一个第二语音帧中的音强,也可以分别获取第二语音信息中至少两个第二语音帧的基频和音强等。
为了准确地确定目标年龄段,若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,所述根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段包括:
针对每个年龄特征参数的值,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数的值,确定该年龄特征参数的值所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数的值对应的候选年龄段;根据每个年龄特征参数的值对应的候选年龄段出现的次数,将出现次数最多的候选年龄段作为所述第一语音信息对应的目标年龄段。
由于可以根据获取的至少一种年龄特征参数中的每个年龄特征参数的大小是不同的,在进行目标年龄段的确定时,是针对每个不同大小的年龄特征参数进行确定的,因此为了方便区分,在这里为了区别不同大小的年龄特征参数,采用年龄特征参数的值来表示。
因此,在确定第一语音信息对应的目标年龄段时,可以针对获取的每个种年龄特征参数的值分别进行判断,从而确定第一语音信息对应的目标年龄段。具体的,针对每个年龄特征参数的值,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数的值,确定该年龄特征参数的值在该对应的年龄特征参数的哪一个年龄段对应的取值范围内,即确定该年龄特征参数的值所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数的值对应的候选年龄段。
例如,预先设置有6-18岁儿童的年龄段、19-65岁成年人的年龄段和66岁以上老年人的年龄段,并分别保存有每个年龄段的基频、音强、共振峰频率、共振峰带宽的取值范围。对于获取的一个共振峰频率的值为A2,根据年龄段的年龄特征参数的取值范围,以及该共振峰频率的值A2,确定该共振峰频率的值A2所在的年龄特征参数的取值范围为19-65岁成年人的年龄段的取值范围内,则将19-65岁成年人的年龄段作为该共振峰频率的值对应的候选年龄段。
当确定了获取的每个年龄特征参数的值对应的候选年龄段时,获取每个候选年龄段出现的次数,将其中出现的次数最多的候选年龄段作为第一语音信息对应的目标年龄段。另外,在确定目标年龄段时,还可以根据获取每个候选年龄段出现的次数,及每个候选年龄段对应的权重,确定第一语音信息对应的目标年龄段。
例如,根据获取的6个年龄特征参数的值确定的候选年龄段分别有6-18岁儿童的年龄段、19-65岁成年人的年龄段、66岁以上老年人的年龄段,候选年龄段为6-18岁儿童的年龄段出现的次数为2,候选年龄段为19-65岁成年人的年龄段出现的次数为3,候选年龄段为66岁以上老年人的年龄段出现的次数为1,则19-65岁成年人的年龄段为第一语音信息对应的目标年龄段。
为了准确地确定目标年龄段,若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,所述根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段包括:
将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为该目标第二语音帧对应的第二候选年龄段;
根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
在确定第一语音信息对应的目标年龄段时,可以将获取了年龄特征参数的值的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数分别进行判断,从而确定第一语音信息对应的目标年龄段。具体的,针对每个目标第二语音帧中的获取的每一种年龄特征参数,根据年龄段年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数在预先保存的对应的年龄特征参数的哪一个年龄段对应的取值范围内,即确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段。当确定了每种年龄特征参数对应的第一候选年龄段后,获取每个第一候选年龄出现的次数,将其中出现次数最多的第一候选年龄段作为该目标第二语音帧对应的第二候选年龄段。
例如,根据某一目标第二语音帧中的获取的4种年龄特征参数,确定的第一候选年龄段分别有6-18岁儿童的年龄段、19-65岁成年人的年龄段、66岁以上老年人的年龄段,其中,第一候选年龄段为6-18岁儿童的年龄段出现的次数为2,第一候选年龄段为19-65岁成年人的年龄段出现的次数为1,第一候选年龄段为66岁以上老年人的年龄段出现的次数为1,则6-18岁儿童的年龄段为该目标第二语音帧对应的第二候选年龄段。
确定了每个目标第二语音帧对应的第二候选年龄段后,获取每个第二候选年龄段出现的次数,将其中出现的次数最多的第二候选年龄段作为第一语音信息对应的目标年龄段。
例如,根据获取的6个目标第二语音帧确定的第二候选年龄段分别有6-18岁儿童的年龄段、19-65岁成年人的年龄段,第二候选年龄段为6-18岁儿童的年龄段出现的次数为2,第二候选年龄段为19-65岁成年人的年龄段出现的次数为4,则19-65岁成年人的年龄段为第一语音信息对应的目标年龄段。
由于本发明实施例中根据年龄段的年龄特征参数的取值范围,以及至少一种年龄特征参数,确定第一语音信息对应的目标年龄段,有利于确定和该用户年龄相近的参考语音信息,帮助后续提高智能设备的唤醒率。
图2为本发明实施例提供的具体的智能设备的唤醒方法实施流程示意图,以执行主体为其它设备为例,该流程包括参考语音信息生成、智能设备唤醒两个部分进行说明:
第一部分参考语音信息生成包括如下过程:
S201:其它设备获取输入的唤醒词文本。
S202:其它设备根据唤醒词文本生成对应的第二语音信息。
S203:其它设备根据年龄段的年龄特征参数的取值范围,对第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息并保存。
第二部分其它设备唤醒包括如下过程:
S204:其它设备获取待识别的第一语音信息中的至少一种年龄特征参数,其中,该至少一种年龄特征参数是从至少两个第二语音帧中获取的。
S205:其它设备将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段。
S206:其它设备根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第一候选年龄段作为该目标第二语音帧对应的第二候选年龄段。
S207:根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为第一语音信息对应的目标年龄段。
S208:其它设备判断获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,若是,执行S209,否则,执行S210。
需要说明的是,目标参考语音信息为目标年龄段对应的参考语音信息。
S209:其它设备确定唤醒智能设备,并向智能设备发送唤醒指令,以控制智能设备唤醒。
S210:其它设备确定不唤醒智能设备。
图3为本发明实施例提供的具体的智能设备的唤醒方法实施流程示意图,以执行主体为智能设备为例,该流程以智能设备唤醒这一个部分进行详细说明:
S301:用户开启语音唤醒功能,并打开语音识别的麦克风。
S302:智能设备实时采集待识别的第一语音信息,并对该第一语音信息对应的目标年龄段进行识别。
具体的,智能设备识别输入该第一语音信息的用户的目标年龄段的过程包括:智能设备获取待识别的第一语音信息中的至少一种年龄特征参数,其中,该至少一种年龄特征参数是从至少两个第二语音帧中获取的。智能设备将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第一候选年龄段作为该目标第二语音帧对应的第二候选年龄段;根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为第一语音信息对应的目标年龄段。
S303:智能设备获取预先保存的该目标年龄段对应的参考语音信息,即获取目标参考语音信息。
S304:智能设备获取第一语音信息的音频特征,与步骤S303获取的目标参考语音信息的音频特征的相似度。
S305:智能设备判断步骤S304获取的相似度是否大于设定阈值,若是,执行S306,否则,执行S307。
S306:智能设备直接唤醒。
S307:智能设备不唤醒。
由于本发明实施例根据年龄段的年龄特征参数的取值范围,以及从输入的第一语音信息中获取的至少一种年龄特征参数,确定第一语音信息对应的目标年龄段,从而获取该目标年龄段对应的参考语音信息,通过判断获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,确定是否唤醒智能设备,因为采用该目标参考语音信息与输入的第一语音信息进行比对,从而降低了不同年龄段的语音特点,例如口齿不清等对唤醒智能设备的影响,提高了智能设备的唤醒率。
实施例4:
图4为本发明实施例提供的一种智能设备的唤醒装置结构示意图,该装置包括:
获取单元41,用于获取待识别的第一语音信息中的至少一种年龄特征参数;
确定单元42,用于根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段;
处理单元43,用于若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息。
进一步地,所述装置还包括:
预处理单元44,用于获取输入的唤醒词文本;根据所述唤醒词文本生成对应的第二语音信息;根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
进一步地,所述确定单元42,具体用于若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,针对每个年龄特征参数的值,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数的值,确定该年龄特征参数的值所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数的值对应的候选年龄段;根据每个年龄特征参数的值对应的候选年龄段出现的次数,将出现次数最多的候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,所述确定单元42,具体用于若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为该目标第二语音帧对应的第二候选年龄段;根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,所述处理单元43,还用于若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
由于本发明实施例根据年龄段的年龄特征参数的取值范围,以及从输入的第一语音信息中获取的至少一种年龄特征参数,确定第一语音信息对应的目标年龄段,从而获取该目标年龄段对应的参考语音信息,通过判断获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,确定是否唤醒智能设备,因为采用该目标参考语音信息与输入的第一语音信息进行比对,从而降低了不同年龄段的语音特点,例如口齿不清等对唤醒智能设备的影响,提高了智能设备的唤醒率。
实施例5:
如图5为本发明实施例提供的一种电子设备结构示意图,在上述各实施例的基础上,本发明实施例还提供了一种电子设备,如图5所示,包括:处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信;
所述存储器53中存储有计算机程序,当所述程序被所述处理器51执行时,使得所述处理器51执行如下步骤:
获取待识别的第一语音信息中的至少一种年龄特征参数的;
根据年龄段的年龄特征参数的取值范围,以及至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段;
若获取的所述第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息。
进一步地,处理器51,用于获取输入的唤醒词文本;根据所述唤醒词文本生成对应的第二语音信息;根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
进一步地,处理器51,具体用于若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,针对每个年龄特征参数的值,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数的值,确定该年龄特征参数的值所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数的值对应的候选年龄段;根据每个年龄特征参数的值对应的候选年龄段出现的次数,将出现次数最多的候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,处理器51,具体用于若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为该目标第二语音帧对应的第二候选年龄段;根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,处理器51,还用于若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
由于上述电子设备解决问题的原理与智能设备的唤醒方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口52用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
由于本发明实施例根据年龄段的年龄特征参数的取值范围,以及从输入的第一语音信息中获取的至少一种年龄特征参数,确定第一语音信息对应的目标年龄段,从而获取该目标年龄段对应的参考语音信息,通过判断获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,确定是否唤醒智能设备,因为采用该目标参考语音信息与输入的第一语音信息进行比对,从而降低了不同年龄段的语音特点,例如口齿不清等对唤醒智能设备的影响,提高了智能设备的唤醒率。
实施例6:
在上述各实施例的基础上,本发明实施例提供的一种计算机可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
获取待识别的第一语音信息中的至少一种年龄特征参数;
根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段;
若获取的所述第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息。
进一步地,所述年龄特征参数包括基频、音强、共振峰频率和共振峰带宽。
进一步地,生成参考语音信息的方法包括:
获取输入的唤醒词文本;
根据所述唤醒词文本生成对应的第二语音信息;
根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
进一步地,所述至少一种年龄特征参数是从一个第二语音帧中获取的,或,从至少两个第二语音帧中获取的。
进一步地,若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,所述根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定输入所述第一语音信息的用户的目标年龄段包括:
针对每个年龄特征参数的值,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数的值,确定该年龄特征参数的值所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数的值对应的候选年龄段;
根据每个年龄特征参数的值对应的候选年龄段出现的次数,将出现次数最多的候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,所述根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段包括:
将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄特征参数的取值范围,将该年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为该目标第二语音帧对应的第二候选年龄段;
根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
进一步地,所述方法还包括:
若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
由于本发明实施例根据年龄段的年龄特征参数的取值范围,以及从输入的第一语音信息中获取的至少一种年龄特征参数,确定第一语音信息对应的目标年龄段,从而获取该目标年龄段对应的参考语音信息,通过判断获取的第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度是否大于设定阈值,确定是否唤醒智能设备,因为采用该目标参考语音信息与输入的第一语音信息进行比对,从而降低了不同年龄段的语音特点,例如口齿不清等对唤醒智能设备的影响,提高了智能设备的唤醒率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种智能设备的唤醒方法,其特征在于,所述方法包括:
获取待识别的第一语音信息中的至少一种年龄特征参数;
根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段;
若获取的所述第一语音信息的音频特征,与预先保存的目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息;
若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,所述根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段包括:
将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄段的年龄特征参数的取值范围,将该年龄段的年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第一候选年龄段作为该目标第二语音帧对应的第二候选年龄段;
根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
2.根据权利要求1所述的方法,其特征在于,所述年龄特征参数包括基频、音强、共振峰频率和共振峰带宽。
3.根据权利要求1所述的方法,其特征在于,生成参考语音信息的方法包括:
获取输入的唤醒词文本;
根据所述唤醒词文本生成对应的第二语音信息;
根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
4.根据权利要求1所述的方法,其特征在于,所述至少一种年龄特征参数是从一个第二语音帧中获取的,或,从至少两个第二语音帧中获取的。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
6.一种智能设备的唤醒装置,其特征在于,所述装置包括:
获取单元,用于获取待识别的第一语音信息中的至少一种年龄特征参数;
确定单元,用于根据年龄段的年龄特征参数的取值范围,以及所述至少一种年龄特征参数,确定所述第一语音信息对应的目标年龄段;
处理单元,用于若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度大于设定阈值,则确定唤醒所述智能设备,其中,所述目标参考语音信息为所述目标年龄段对应的参考语音信息;
所述确定单元,具体用于若所述至少一种年龄特征参数是从至少两个第二语音帧中获取的,将获取了年龄特征参数的第二语音帧作为目标第二语音帧,针对每个目标第二语音帧中的获取的每种年龄特征参数,根据年龄段的年龄特征参数的取值范围,以及该年龄特征参数,确定该年龄特征参数所在的年龄段的年龄特征参数的取值范围,将该年龄段的年龄特征参数的取值范围对应的年龄段作为该年龄特征参数对应的第一候选年龄段;根据每种年龄特征参数对应的第一候选年龄段出现的次数,将出现次数最多的第一候选年龄段作为该目标第二语音帧对应的第二候选年龄段;根据每个目标第二语音帧对应的第二候选年龄段出现的次数,将出现次数最多的第二候选年龄段作为所述第一语音信息对应的目标年龄段。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
预处理单元,用于获取输入的唤醒词文本;根据所述唤醒词文本生成对应的第二语音信息;根据年龄段的年龄特征参数的取值范围,对所述第二语音信息中每个第一语音帧的每个年龄特征参数进行调整,得到每个年龄段对应的参考语音信息。
8.根据权利要求7所述的装置,其特征在于,所述处理单元,还用于若获取的所述第一语音信息的音频特征,与预先保存的所述目标参考语音信息的音频特征的相似度不大于设定阈值,则确定不唤醒所述智能设备。
9.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现如权利要求1-5中任一所述智能设备的唤醒方法的步骤。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述智能设备的唤醒方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911365769.2A CN111161728B (zh) | 2019-12-26 | 2019-12-26 | 一种智能设备的唤醒方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911365769.2A CN111161728B (zh) | 2019-12-26 | 2019-12-26 | 一种智能设备的唤醒方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111161728A CN111161728A (zh) | 2020-05-15 |
CN111161728B true CN111161728B (zh) | 2022-08-30 |
Family
ID=70558274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911365769.2A Active CN111161728B (zh) | 2019-12-26 | 2019-12-26 | 一种智能设备的唤醒方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111161728B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114257191B (zh) * | 2020-09-24 | 2024-05-17 | 达发科技股份有限公司 | 均衡器调整方法和电子装置 |
CN112382273A (zh) * | 2020-11-13 | 2021-02-19 | 北京有竹居网络技术有限公司 | 用于生成音频的方法、装置、设备和介质 |
CN113379947A (zh) * | 2021-05-25 | 2021-09-10 | 广州朗国电子科技有限公司 | 一种基于人脸识别的智能门锁 |
US11735158B1 (en) * | 2021-08-11 | 2023-08-22 | Electronic Arts Inc. | Voice aging using machine learning |
CN115731926A (zh) * | 2021-08-30 | 2023-03-03 | 佛山市顺德区美的电子科技有限公司 | 智能设备的控制方法、装置、智能设备和可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4817159A (en) * | 1983-06-02 | 1989-03-28 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
CN105215542A (zh) * | 2015-10-14 | 2016-01-06 | 西北工业大学 | 摩擦焊焊接过程中声信号处理方法 |
CN108074584A (zh) * | 2016-11-18 | 2018-05-25 | 南京大学 | 一种基于信号多特征统计的音频信号分类方法 |
CN109147782A (zh) * | 2018-09-04 | 2019-01-04 | 深圳国美云智科技有限公司 | 空调的控制方法、装置和空调 |
CN109509470A (zh) * | 2018-12-11 | 2019-03-22 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机可读存储介质及终端设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08329069A (ja) * | 1995-05-30 | 1996-12-13 | Toshiba Corp | 文書作成装置及びかな漢字変換方法 |
JP2980076B2 (ja) * | 1997-09-30 | 1999-11-22 | 日本電気株式会社 | 自動物体類別装置、自動物体類別方法及び自動物体類別プログラムを記録した記憶媒体 |
JP2011065093A (ja) * | 2009-09-18 | 2011-03-31 | Toshiba Corp | オーディオ信号補正装置及びオーディオ信号補正方法 |
CN102543079A (zh) * | 2011-12-21 | 2012-07-04 | 南京大学 | 一种实时的音频信号分类方法及设备 |
CN105575395A (zh) * | 2014-10-14 | 2016-05-11 | 中兴通讯股份有限公司 | 语音唤醒方法及装置、终端及其处理方法 |
CN108255805B (zh) * | 2017-12-13 | 2022-02-25 | 讯飞智元信息科技有限公司 | 舆情分析方法及装置、存储介质、电子设备 |
CN108391164B (zh) * | 2018-02-24 | 2020-08-21 | Oppo广东移动通信有限公司 | 视频解析方法及相关产品 |
CN108877790A (zh) * | 2018-05-21 | 2018-11-23 | 江西午诺科技有限公司 | 音箱控制方法、装置、可读存储介质及移动终端 |
CN110246489B (zh) * | 2019-06-14 | 2021-07-13 | 思必驰科技股份有限公司 | 用于儿童的语音识别方法及系统 |
CN110265040B (zh) * | 2019-06-20 | 2022-05-17 | Oppo广东移动通信有限公司 | 声纹模型的训练方法、装置、存储介质及电子设备 |
CN110534099B (zh) * | 2019-09-03 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 语音唤醒处理方法、装置、存储介质及电子设备 |
-
2019
- 2019-12-26 CN CN201911365769.2A patent/CN111161728B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4817159A (en) * | 1983-06-02 | 1989-03-28 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for speech recognition |
CN105215542A (zh) * | 2015-10-14 | 2016-01-06 | 西北工业大学 | 摩擦焊焊接过程中声信号处理方法 |
CN108074584A (zh) * | 2016-11-18 | 2018-05-25 | 南京大学 | 一种基于信号多特征统计的音频信号分类方法 |
CN109147782A (zh) * | 2018-09-04 | 2019-01-04 | 深圳国美云智科技有限公司 | 空调的控制方法、装置和空调 |
CN109509470A (zh) * | 2018-12-11 | 2019-03-22 | 平安科技(深圳)有限公司 | 语音交互方法、装置、计算机可读存储介质及终端设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111161728A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111161728B (zh) | 一种智能设备的唤醒方法、装置、设备及介质 | |
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN108320733B (zh) | 语音数据处理方法及装置、存储介质、电子设备 | |
CN105654949B (zh) | 一种语音唤醒方法及装置 | |
US9899021B1 (en) | Stochastic modeling of user interactions with a detection system | |
CN110782891B (zh) | 一种音频处理方法、装置、计算设备及存储介质 | |
CN106448663A (zh) | 语音唤醒方法及语音交互装置 | |
CN111880856B (zh) | 语音唤醒方法、装置、电子设备及存储介质 | |
CN111968644B (zh) | 智能设备唤醒方法、装置及电子设备 | |
CN111081217B (zh) | 一种语音唤醒方法、装置、电子设备及存储介质 | |
CN111312222A (zh) | 一种唤醒、语音识别模型训练方法及装置 | |
CN110473536B (zh) | 一种唤醒方法、装置和智能设备 | |
CN111128155B (zh) | 一种智能设备的唤醒方法、装置、设备及介质 | |
CN110992962B (zh) | 语音设备的唤醒调整方法、装置、语音设备及存储介质 | |
CN111710337A (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
CN111179944B (zh) | 语音唤醒及年龄检测方法、装置及计算机可读存储介质 | |
CN111128174A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN116343797A (zh) | 语音唤醒方法及相应装置 | |
CN112185382B (zh) | 一种唤醒模型的生成和更新方法、装置、设备及介质 | |
CN113330513A (zh) | 语音信息处理方法及设备 | |
CN111179941B (zh) | 智能设备唤醒方法、注册方法及装置 | |
CN111696555A (zh) | 一种唤醒词的确认方法及系统 | |
CN112542173A (zh) | 一种语音交互方法、装置、设备和介质 | |
CN111124512B (zh) | 智能设备的唤醒方法、装置、设备和介质 | |
CN112509556B (zh) | 一种语音唤醒方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |