CN107871506A - 语音识别功能的唤醒方法及装置 - Google Patents

语音识别功能的唤醒方法及装置 Download PDF

Info

Publication number
CN107871506A
CN107871506A CN201711132605.6A CN201711132605A CN107871506A CN 107871506 A CN107871506 A CN 107871506A CN 201711132605 A CN201711132605 A CN 201711132605A CN 107871506 A CN107871506 A CN 107871506A
Authority
CN
China
Prior art keywords
word
wake
target
confidence level
audio frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711132605.6A
Other languages
English (en)
Inventor
谢书杰
苏牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yunzhisheng Information Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201711132605.6A priority Critical patent/CN107871506A/zh
Publication of CN107871506A publication Critical patent/CN107871506A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明是关于一种语音识别功能的唤醒方法及装置,其中,方法包括:获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;获取用户输入的当前语音信息;根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;根据所述置信度确定是否允许唤醒所述语音识别功能。通过该技术方案,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。

Description

语音识别功能的唤醒方法及装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别功能的唤醒方法及装置。
背景技术
目前,相关技术中可以通过语音对设备进行控制,设备不是实时录音并识别语音命令的,而是先识别是否收到唤醒词,如果收到唤醒词则激活,然后识别语音命令。而如果误识别了唤醒词,则会导致误唤醒。
发明内容
本发明实施例提供一种语音识别功能的唤醒方法及装置,用以实现提高语音识别功能唤醒的准确率,降低误唤醒。
根据本发明实施例的第一方面,提供一种语音识别功能的唤醒方法,包括:
获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
获取用户输入的当前语音信息;
根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
根据所述置信度确定是否允许唤醒所述语音识别功能。
在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
在一个实施例中,所述根据所述置信度确定是否允许唤醒所述语音识别功能,包括:
当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。
在一个实施例中,所述利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型,包括:
将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。
在一个实施例中,所述根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
获取所述当前语音信息对应的当前音频帧特征序列信息;
将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。
在一个实施例中,所述根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。
根据本发明实施例的第二方面,提供一种语音识别功能的唤醒装置,包括:
第一获取模块,用于获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
训练模块,用于利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
第二获取模块,用于获取用户输入的当前语音信息;
第一确定模块,用于根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
第二确定模块,用于根据所述置信度确定是否允许唤醒所述语音识别功能。
在一个实施例中,所述第二确定模块包括:
第一处理子模块,用于当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
第二处理子模块,用于当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
在一个实施例中,所述训练模块包括:
第一确定子模块,用于将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
训练子模块,用于利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
在一个实施例中,所述第一确定模块包括:
获取子模块,用于获取所述当前语音信息对应的当前音频帧特征序列信息;
定位子模块,用于将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
选取子模块,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
第二确定子模块,用于根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
在一个实施例中,所述第二确定子模块用于:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种语音识别功能的唤醒方法的流程图。
图2是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S105的流程图。
图3是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S102的流程图。
图4是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S104的流程图。
图5是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S404的流程图。
图6是根据一示例性实施例示出的一种语音识别功能的唤醒装置的框图。
图7是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第二确定模块的框图。
图8是根据一示例性实施例示出的一种语音识别功能的唤醒装置中训练模块的框图。
图9是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第一确定模块的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种语音识别功能的唤醒方法的流程图。该语音唤醒方法应用于终端设备中,该终端设备可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等任一具有语音控制功能的设备。如图1所示,该方法包括步骤S101-S105:
在步骤S101中,获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词。
例如,空调的唤醒词可以为空调空调,冗余命令词可以为:空调开机,空调关机,升高温度,降低温度,十六度,十七度,十八度,十九度,二十度,二十一度,二十二度,二十三度,二十四度,二十五度,二十六度,二十七度,二十八度,二十九度,三十度,增大风速,减小风速,打开扫风,关闭扫风,制冷模式,加热模式。
步骤S102,利用深度神经网络对目标唤醒词和至少一个冗余命令词进行训练,得到唤醒词识别模型;
步骤S103,获取用户输入的当前语音信息;
步骤S104,根据唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度;
步骤S105,根据置信度确定是否允许唤醒语音识别功能。
在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
图2是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S105的流程图。
在一个实施例中,上述步骤S105包括步骤S201-S202:
步骤S201,当置信度大于预设置信度时,允许唤醒语音识别功能;
步骤S202,当置信度小于或者等于预设置信度时,禁止唤醒语音识别功能。
在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。
图3是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S102的流程图。
如图3所示,在一个实施例中,上述步骤S102包括步骤S301-S302:
步骤S301,将目标唤醒词确定为正例词,将至少一个冗余命令词确定为负例词;
步骤S302,利用深度神经网络对正例词和负例词进行训练,得到唤醒词识别模型。
在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。
图4是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S104的流程图。
如图4所示,在一个实施例中,上述步骤S104包括步骤S401-S404:
步骤S401,获取当前语音信息对应的当前音频帧特征序列信息;
步骤S402,将当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从当前音频帧序列信息中定位出与目标识别模型序列信息中的每个音素对应的音频帧的范围;
步骤S403,计算每个音频帧的范围中每个音频帧的声学似然评分,并从每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
步骤S404,根据唤醒词识别模型和目标音频帧对应的特征信息,确定当前语音信息属于目标唤醒词的置信度。
在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从当前音频帧序列信息中定位出与目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。
图5是根据一示例性实施例示出的一种语音识别功能的唤醒方法中步骤S404的流程图。
如图5所示,在一个实施例中,上述步骤S404包括步骤S501-S503:
步骤S501,使用唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
步骤S502,从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
步骤S503,根据所有音素的最大声学后验得分计算当前语音信息属于目标唤醒词的置信度。
在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图6是根据一示例性实施例示出的一种语音识别功能的唤醒装置的框图,该装置可以通过软件、硬件或者两者的结合实现成为终端设备的部分或者全部。如图6所示,该语音识别功能的唤醒装置包括:
第一获取模块61,用于获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
训练模块62,用于利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
第二获取模块63,用于获取用户输入的当前语音信息;
第一确定模块64,用于根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
第二确定模块65,用于根据所述置信度确定是否允许唤醒所述语音识别功能。
在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
图7是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第二确定模块的框图。
如图7所示,在一个实施例中,所述第二确定模块65包括:
第一处理子模块71,用于当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
第二处理子模块72,用于当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。
图8是根据一示例性实施例示出的一种语音识别功能的唤醒装置中训练模块的框图。
如图8所示,在一个实施例中,所述训练模块62包括:
第一确定子模块81,用于将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
训练子模块82,用于利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。
图9是根据一示例性实施例示出的一种语音识别功能的唤醒装置中第一确定模块的框图。
如图9所示,在一个实施例中,所述第一确定模块64包括:
获取子模块91,用于获取所述当前语音信息对应的当前音频帧特征序列信息;
定位子模块92,用于将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
选取子模块93,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
第二确定子模块94,用于根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。
在一个实施例中,所述第二确定子模块94用于:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音识别功能的唤醒方法,其特征在于,包括:
获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
获取用户输入的当前语音信息;
根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
根据所述置信度确定是否允许唤醒所述语音识别功能。
2.根据权利要求1所述的方法,其特征在于,所述根据所述置信度确定是否允许唤醒所述语音识别功能,包括:
当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
3.根据权利要求1所述的方法,其特征在于,所述利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型,包括:
将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
获取所述当前语音信息对应的当前音频帧特征序列信息;
将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
5.根据权利要求4所述的方法,其特征在于,所述根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
6.一种语音识别功能的唤醒装置,其特征在于,包括:
第一获取模块,用于获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
训练模块,用于利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
第二获取模块,用于获取用户输入的当前语音信息;
第一确定模块,用于根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
第二确定模块,用于根据所述置信度确定是否允许唤醒所述语音识别功能。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括:
第一处理子模块,用于当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
第二处理子模块,用于当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
8.根据权利要求6所述的装置,其特征在于,所述训练模块包括:
第一确定子模块,用于将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
训练子模块,用于利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
9.根据权利要求6所述的装置,其特征在于,所述第一确定模块包括:
获取子模块,用于获取所述当前语音信息对应的当前音频帧特征序列信息;
定位子模块,用于将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
选取子模块,用于计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
第二确定子模块,用于根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
10.根据权利要求9所述的装置,其特征在于,所述第二确定子模块用于:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
CN201711132605.6A 2017-11-15 2017-11-15 语音识别功能的唤醒方法及装置 Pending CN107871506A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711132605.6A CN107871506A (zh) 2017-11-15 2017-11-15 语音识别功能的唤醒方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711132605.6A CN107871506A (zh) 2017-11-15 2017-11-15 语音识别功能的唤醒方法及装置

Publications (1)

Publication Number Publication Date
CN107871506A true CN107871506A (zh) 2018-04-03

Family

ID=61754095

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711132605.6A Pending CN107871506A (zh) 2017-11-15 2017-11-15 语音识别功能的唤醒方法及装置

Country Status (1)

Country Link
CN (1) CN107871506A (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109143879A (zh) * 2018-08-10 2019-01-04 珠海格力电器股份有限公司 一种以空调为中心控制家电的方法
CN109215658A (zh) * 2018-11-30 2019-01-15 广东美的制冷设备有限公司 设备的语音唤醒方法、装置和家电设备
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109753665A (zh) * 2019-01-30 2019-05-14 北京声智科技有限公司 唤醒模型的更新方法及装置
CN109872715A (zh) * 2019-03-01 2019-06-11 深圳市伟文无线通讯技术有限公司 一种语音交互方法及装置
CN110428811A (zh) * 2019-09-17 2019-11-08 北京声智科技有限公司 一种数据处理方法、装置及电子设备
CN110517670A (zh) * 2019-08-28 2019-11-29 苏州思必驰信息科技有限公司 提升唤醒性能的方法和装置
CN110556099A (zh) * 2019-09-12 2019-12-10 出门问问信息科技有限公司 一种命令词控制方法及设备
CN110600023A (zh) * 2018-06-12 2019-12-20 Tcl集团股份有限公司 一种终端设备交互方法、装置和终端设备
CN110619871A (zh) * 2018-06-20 2019-12-27 阿里巴巴集团控股有限公司 语音唤醒检测方法、装置、设备以及存储介质
CN110634483A (zh) * 2019-09-03 2019-12-31 北京达佳互联信息技术有限公司 人机交互方法、装置、电子设备及存储介质
CN110689887A (zh) * 2019-09-24 2020-01-14 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
CN111081225A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 技能语音唤醒方法及装置
CN111462756A (zh) * 2019-01-18 2020-07-28 北京猎户星空科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN112509556A (zh) * 2019-09-16 2021-03-16 北京声智科技有限公司 一种语音唤醒方法及装置
CN112767935A (zh) * 2020-12-28 2021-05-07 北京百度网讯科技有限公司 唤醒指标监测方法、装置及电子设备
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN113707132A (zh) * 2021-09-08 2021-11-26 北京声智科技有限公司 一种唤醒方法及电子设备
CN114360508A (zh) * 2021-12-24 2022-04-15 北京声智科技有限公司 一种标记方法、装置、设备及存储介质
WO2023010861A1 (zh) * 2021-08-06 2023-02-09 佛山市顺德区美的电子科技有限公司 一种唤醒处理方法、装置、设备和计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN105632486A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置
CN105741840A (zh) * 2016-04-06 2016-07-06 北京云知声信息技术有限公司 一种语音控制方法及装置
CN105976812A (zh) * 2016-04-28 2016-09-28 腾讯科技(深圳)有限公司 一种语音识别方法及其设备
WO2017054122A1 (zh) * 2015-09-29 2017-04-06 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021409A (zh) * 2012-11-13 2013-04-03 安徽科大讯飞信息科技股份有限公司 一种语音启动拍照系统
CN105096939A (zh) * 2015-07-08 2015-11-25 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
WO2017054122A1 (zh) * 2015-09-29 2017-04-06 深圳市全圣时代科技有限公司 语音识别系统及方法、客户端设备及云端服务器
CN105632486A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种智能硬件的语音唤醒方法和装置
CN105741840A (zh) * 2016-04-06 2016-07-06 北京云知声信息技术有限公司 一种语音控制方法及装置
CN105976812A (zh) * 2016-04-28 2016-09-28 腾讯科技(深圳)有限公司 一种语音识别方法及其设备
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110600023A (zh) * 2018-06-12 2019-12-20 Tcl集团股份有限公司 一种终端设备交互方法、装置和终端设备
CN110619871A (zh) * 2018-06-20 2019-12-27 阿里巴巴集团控股有限公司 语音唤醒检测方法、装置、设备以及存储介质
CN109143879A (zh) * 2018-08-10 2019-01-04 珠海格力电器股份有限公司 一种以空调为中心控制家电的方法
CN109273007B (zh) * 2018-10-11 2022-05-17 西安讯飞超脑信息科技有限公司 语音唤醒方法及装置
CN109273007A (zh) * 2018-10-11 2019-01-25 科大讯飞股份有限公司 语音唤醒方法及装置
CN109215658A (zh) * 2018-11-30 2019-01-15 广东美的制冷设备有限公司 设备的语音唤醒方法、装置和家电设备
CN111462756A (zh) * 2019-01-18 2020-07-28 北京猎户星空科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN109753665A (zh) * 2019-01-30 2019-05-14 北京声智科技有限公司 唤醒模型的更新方法及装置
CN109872715A (zh) * 2019-03-01 2019-06-11 深圳市伟文无线通讯技术有限公司 一种语音交互方法及装置
CN110517670A (zh) * 2019-08-28 2019-11-29 苏州思必驰信息科技有限公司 提升唤醒性能的方法和装置
CN110634483A (zh) * 2019-09-03 2019-12-31 北京达佳互联信息技术有限公司 人机交互方法、装置、电子设备及存储介质
US11620984B2 (en) 2019-09-03 2023-04-04 Beijing Dajia Internet Information Technology Co., Ltd. Human-computer interaction method, and electronic device and storage medium thereof
CN110634483B (zh) * 2019-09-03 2021-06-18 北京达佳互联信息技术有限公司 人机交互方法、装置、电子设备及存储介质
CN110556099A (zh) * 2019-09-12 2019-12-10 出门问问信息科技有限公司 一种命令词控制方法及设备
CN110556099B (zh) * 2019-09-12 2021-12-21 出门问问信息科技有限公司 一种命令词控制方法及设备
CN112509556B (zh) * 2019-09-16 2023-11-17 北京声智科技有限公司 一种语音唤醒方法及装置
CN112509556A (zh) * 2019-09-16 2021-03-16 北京声智科技有限公司 一种语音唤醒方法及装置
CN110428811B (zh) * 2019-09-17 2021-09-07 北京声智科技有限公司 一种数据处理方法、装置及电子设备
CN110428811A (zh) * 2019-09-17 2019-11-08 北京声智科技有限公司 一种数据处理方法、装置及电子设备
CN110689887A (zh) * 2019-09-24 2020-01-14 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
CN110689887B (zh) * 2019-09-24 2022-04-22 Oppo广东移动通信有限公司 音频校验方法、装置、存储介质及电子设备
US11721328B2 (en) 2019-12-31 2023-08-08 Ai Speech Co., Ltd. Method and apparatus for awakening skills by speech
CN111081225A (zh) * 2019-12-31 2020-04-28 苏州思必驰信息科技有限公司 技能语音唤醒方法及装置
CN111599350B (zh) * 2020-04-07 2023-02-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN111599350A (zh) * 2020-04-07 2020-08-28 云知声智能科技股份有限公司 一种命令词定制识别方法及系统
CN112767935A (zh) * 2020-12-28 2021-05-07 北京百度网讯科技有限公司 唤醒指标监测方法、装置及电子设备
CN112767935B (zh) * 2020-12-28 2022-11-25 北京百度网讯科技有限公司 唤醒指标监测方法、装置及电子设备
CN112967718B (zh) * 2021-04-02 2024-04-12 深圳吉祥星科技股份有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
CN112967718A (zh) * 2021-04-02 2021-06-15 江苏吉祥星智能科技有限公司 基于声音的投影仪控制方法、装置、设备及存储介质
WO2023010861A1 (zh) * 2021-08-06 2023-02-09 佛山市顺德区美的电子科技有限公司 一种唤醒处理方法、装置、设备和计算机存储介质
CN113707132A (zh) * 2021-09-08 2021-11-26 北京声智科技有限公司 一种唤醒方法及电子设备
CN113707132B (zh) * 2021-09-08 2024-03-01 北京声智科技有限公司 一种唤醒方法及电子设备
CN114360508A (zh) * 2021-12-24 2022-04-15 北京声智科技有限公司 一种标记方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107871506A (zh) 语音识别功能的唤醒方法及装置
CN106782536A (zh) 一种语音唤醒方法及装置
US11074904B2 (en) Speech synthesis method and apparatus based on emotion information
US11232785B2 (en) Speech recognition of named entities with word embeddings to display relationship information
US11211062B2 (en) Intelligent voice recognizing method with improved noise cancellation, voice recognizing apparatus, intelligent computing device and server
CN109769099B (zh) 通话人物异常的检测方法和装置
CN106649694A (zh) 语音交互中确定用户意图的方法及装置
US11222636B2 (en) Intelligent voice recognizing method, apparatus, and intelligent computing device
CN105654949B (zh) 一种语音唤醒方法及装置
US8897500B2 (en) System and method for dynamic facial features for speaker recognition
CN106782529B (zh) 语音识别的唤醒词选择方法及装置
US11373647B2 (en) Intelligent voice outputting method, apparatus, and intelligent computing device
CN107170456A (zh) 语音处理方法及装置
EP1603116A1 (en) Speech recognition device and speech recognition method
CN109858445A (zh) 用于生成模型的方法和装置
CN110534099A (zh) 语音唤醒处理方法、装置、存储介质及电子设备
CN108564941A (zh) 语音识别方法、装置、设备及存储介质
US11189282B2 (en) Intelligent voice recognizing method, apparatus, and intelligent computing device
US20200035216A1 (en) Speech synthesis method based on emotion information and apparatus therefor
CN105719659A (zh) 基于声纹识别的录音文件分离方法及装置
CN106297801A (zh) 语音处理方法及装置
US11521621B2 (en) Gathering user's speech samples
US11580992B2 (en) Intelligent voice recognizing method, apparatus, and intelligent computing device
CN111261195A (zh) 音频测试方法、装置、存储介质及电子设备
CN109829432A (zh) 用于生成信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180403