CN113707132B - 一种唤醒方法及电子设备 - Google Patents

一种唤醒方法及电子设备 Download PDF

Info

Publication number
CN113707132B
CN113707132B CN202111048905.2A CN202111048905A CN113707132B CN 113707132 B CN113707132 B CN 113707132B CN 202111048905 A CN202111048905 A CN 202111048905A CN 113707132 B CN113707132 B CN 113707132B
Authority
CN
China
Prior art keywords
word
phonemes
score
wake
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111048905.2A
Other languages
English (en)
Other versions
CN113707132A (zh
Inventor
郭震
李智勇
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202111048905.2A priority Critical patent/CN113707132B/zh
Publication of CN113707132A publication Critical patent/CN113707132A/zh
Application granted granted Critical
Publication of CN113707132B publication Critical patent/CN113707132B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)

Abstract

本申请提供一种唤醒方法及电子设备,该方法包括:获取输入音频;根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,配置文件包括至少一个唤醒词;根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;根据所述各解析词的总得分确定目标解析词;若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。上述方法可通过配置文件灵活设置唤醒词,可扩展性更强。

Description

一种唤醒方法及电子设备
技术领域
本申请涉及人工智能技术领域,尤其涉及一种唤醒方法及电子设备。
背景技术
随着智能设备及语音交互的不断普及,在越来越多的场景中需要通过唤醒词唤醒智能设备,然后通过语音来控制智能设备执行命令,如设定空调温度等。
目前,使用唤醒词对神经网络模型进行训练获得识别模型,通过识别模型对用户输入的音频进行识别,在用户输入为唤醒词时对智能设备进行唤醒。若要变更唤醒词,则需要对神经网络模型进行重新训练获得新的识别模型,这种唤醒方式灵活性差。
发明内容
本申请实施例提供一种唤醒方法及电子设备,以解决现有唤醒方式灵活性差的问题。
为解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种唤醒方法,包括:
获取输入音频;
根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;
根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;
根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;
根据所述各解析词的总得分确定目标解析词;
若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。
第二方面,本申请实施例还提供一种电子设备,包括:
第一获取模块,用于获取输入音频;
第二获取模块,用于根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;
第三获取模块,用于根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;
第四获取模块,用于根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;
确定模块,用于根据所述各解析词的总得分确定目标解析词;
唤醒模块,用于若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。
第三方面,本申请实施例还提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述的唤醒方法的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的唤醒方法的步骤。
在本申请实施例中,通过获取输入音频;根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;根据所述各解析词的总得分确定目标解析词;若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。相比于现有技术中通过识别模型对输入音频进行识别的方式,上述方法可通过配置文件灵活设置唤醒词,不需要对模型进行重新训练,可扩展性更强。
附图说明
图1是本申请实施例提供的唤醒方法的流程图;
图2是本申请实施例提供的电子设备的结构图;
图3是本申请另一实施例提供的电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1,图1是本申请实施例提供的唤醒方法的流程图之一,如图1所示,本实施例提供一种唤醒方法,由电子设备执行,包括以下步骤:
步骤101、获取输入音频。
输入音频可为通过麦克风采集的人说话的音频。输入音频可包括普通话音频、外文音频等等。
步骤102、根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分。
音素是根据语音的自然属性划分出来的最小语音单位。例如,对于普通话来说,一个字可视为对应一个音素,音素可理解为字对应的拼音;对应英文来说,一个单词可能对应多个音素。输入音频用于唤醒目标设备,为降低误唤醒率,输入音频可包括至少一个词组(即两个中文字),此种情况下,每组音素包括至少两个音素。
由于输入音频中的发音并非完全标准,或者输入音频存在噪音,或者音素获取方式存在误差,获得的输入音频的音素并未完全准确且唯一,也就是说,根据输入音频可获得至少一组音素。一组音素可视为输入音频的一种发音序列。
例如,若输入音频为“打开空调”对应的音频,根据输入音频获得的多组音素可能为“da kai kong tiao”,“dan kai kong tiao”,“da ka kong tiao”和“da kai kongtian”等等。
在本实施例中,可通过声学模型来基于输入音频获得至少一组音素,声学模型可采用已有的方式进行训练,在此不做限定。每组音素对应一个第一得分,第一得分可为该组音素的概率值。例如上述多组音素示例中,“da kai kong tiao”概率值为0.97,则其对应的第一得分为0.97,“dan kai kong tiao”的概率值为0.02,则其对应的第一得分为0.02。
步骤103、根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词。
根据每组音素获得解析词可理解为,将每组音素对应的发音序列进行解析,转换成对应的解析词。同一个音素可能对应多个字,例如,上述示例中的音素“kai”,对应的字可为“开”,“凯”等,音素“tiao”对应的字可为“条”、“调”、“挑”等。一组音素对应的解析词可能有一个或多个,例如,对于“da kai kong tiao”,解析词可能为“打开空调”、“打开空条”或者“打开空跳”等等。
可根据配置文件中的至少一个唤醒词,来确定每个解析词的第二得分。例如,若解析词与配置文件中的唤醒词匹配,则将该解析词的第二得分设置为第一预设值,或者,配置文件中的唤醒词设置有分数,若解析词与配置文件中的唤醒词匹配,则将该解析词的第二得分设置为对应的唤醒词的分数。若解析词与配置文件中的唤醒词不匹配,则将该解析词的第二得分设置为第二预设值,例如,第二预设值可设置为0,需要说明的是,第二预设值小于第一预设值。
配置文件中的唤醒词可由用户设置,即用户可对配置文件中的唤醒词进行添加、修改或删除等等,配置文件中的唤醒词也可采用默认设置,在此不做限定。
本步骤中,对于每组音素,可采用现有技术中的语言模型来确定至少一个解析词。
步骤104、根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分。
对于每个解析词,可将该解析词的第二得分与该解析词对应的某组音素的第一得分相加,获得该解析词的总得分。例如,若某组音素为“da kai kong tiao”,“da kai kongtiao”的第一得分为0.97,“da kai kong tiao”对应的解析词为“打开空调”和“打开空条”,“打开空调”的第二得分为4,“打开空条”的第二得分为0,则解析词“打开空调”的总得分为4.97,解析词“打开空条”的总得分为0.97。
或者,对于每个解析词,若该解析词的第二得分为第二预设值,则直接将该解析词对应的某组音素的第一得分作为该解析词的总得分。
步骤105、根据所述各解析词的总得分确定的目标解析词。目标解析词可为获得的所有解析词中最大总得分对应的解析词。
步骤106、若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。
若目标解析词与配置文件中的唤醒词匹配,则唤醒目标设备。
上述唤醒方法,通过在配置文件中配置多个唤醒词,根据唤醒词来动态确定解析词对应的第二得分,从而影响解析词的总得分。例如,根据唤醒词来动态确定解析词对应的第二得分,可使得与唤醒词匹配的解析词具有较大的总得分,与唤醒词不匹配的解析词具有较小的总得分,增加匹配唤醒词的解析词与不匹配唤醒词的解析词之间的总得分差距,可提高目标解析词的准确率,有效降低对目标设备的误唤醒率。
另外,由于解析词的第二得分是根据配置文件确定的,通过调整配置文件中的唤醒词,可调整解析词的第二得分,从而确定解析词的总得分并最终确定目标解析词,相比于现有技术中通过识别模型对输入音频进行识别的方式,本实施例中可在配置文件中灵活设置唤醒词,不需要重新对模型进行训练,可扩展性更强。
目标设备可为智能家居设备,电子设备可为智能家居设备中的某个模块或部件,也可以为与智能家居设备相独立的设备。
本申请实施例中,上述电子设备可以为智能家居设备、手机、平板电脑(TabletPersonal Computer)、膝上型电脑(Laptop Computer)、个人数字助理(personal digitalassistant,简称PDA)、移动上网装置(Mobile Internet Device,MID)或可穿戴式设备(Wearable Device)等。
本实施例的唤醒方法,通过获取输入音频;根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;根据所述各解析词的总得分确定目标解析词;若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。相比于现有技术中通过识别模型对输入音频进行识别的方式,上述方法可通过配置文件灵活设置唤醒词,不需要对模型进行重新训练,可扩展性更强。
在本申请一个实施例中,所述至少一个唤醒词包括目标唤醒词,所述配置文件还包括所述目标唤醒词对应的配置分数,
相应的,步骤103、所述根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,包括:
当所述至少一组音素中的一组音素对应的解析词包括与所述目标唤醒词匹配的解析词时,将所述与目标唤醒词匹配的解析词确定为第一解析词;根据所述目标唤醒词的配置分数确定所述第一解析词的对应的第二得分,或
当所述至少一组音素中的一组音素对应的解析词与所述至少一个唤醒词中的各唤醒词均不匹配时,将该解析词的第二得分设置为预设值;
所述各唤醒词对应的配置分数均大于所述预设值。
对于所述至少一组音素中每组音素,均可采用上述方式确定该组音素对应的各解析词对应的第二得分。
具体的,配置文件包括至少一个唤醒词,每个唤醒词对应设置有配置分数,例如,为唤醒词“打开空调”设置的配置分数可为4,为唤醒词“请打开台灯”设置的配置分数可为5。
为便于描述,以下描述中将每组音素对应的至少一个解析词中的一个解析词称为第一解析词。
若第一解析词与目标唤醒词匹配,则根据目标唤醒词的配置分数确定第一解析词对应的第二得分,例如,可将目标唤醒词的配置分数确定为第一解析词对应的第二得分。目标唤醒词可为所述至少一个唤醒词中的任意一个唤醒词。
举例来说,若第一解析词为“打开空调”,配置文件中的唤醒词包括“打开空调”,则第一解析词与配置文件中的目标唤醒词“打开空调”匹配,则第一解析词“打开空调”的第二得分可为4。
对于每一个解析词,均可采用上述方式来确定该解析词对应的第二得分。
配置文件中的唤醒词均可设置对应的配置分数,不同的唤醒词对应的配置分数不同,各唤醒词对应的配置分数均大于预设值,可使得与唤醒词匹配的解析词的第二得分大于与唤醒词不匹配的解析词的第二得分,可增大与唤醒词匹配的解析词的总得分,减小与唤醒词不匹配的解析词的总得分。预设值(即前文所述的第二预设值)可设置为0。
本实施例中,在第一解析词与目标唤醒词匹配的情况下,根据目标唤醒词的配置分数来确定第一解析词对应的第二得分,使得第一解析词的第二得分与配置文件相关联,在第一解析词与目标唤醒词不匹配的情况下,将第一解析词的第二得分设置得较小,由此,用户可通过调整配置文件中的唤醒词以及唤醒词对应的配置分数,可调整第一解析词的第二得分,从而灵活调整最终获得的目标解析词,提高目标解析词的准确率。
在本申请一个实施例中,步骤104、根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分,包括:
将所述至少一组音素中的各组音素的第一得分与其对应的解析词的第二得分之和,分别确定为该解析词的总得分;
相应的,步骤105、根据所述各解析词的总得分确定目标解析词,包括:
将所有解析词中最大总得分对应的解析词确定为目标解析词。
为便于描述,以下描述中将每组音素对应的至少一个解析词中的一个解析词称为第二解析词,第一解析词和第二解析词均为每组音素对应的至少一个解析词中的解析词,采用“第一”和“第二”进行区分,仅为了表述不同实施例中的解析词,并无其他含义。
第二解析词的总得分为第二解析词对应的一组音素的第一得分与第二解析词的第二得分之和。若第二解析词与配置文件中的唤醒词匹配,则第二解析词的总得分较高,若第二解析词与配置文件中的唤醒词不匹配,则第二解析词的总得分较低。
将所有解析词中最大总得分对应的解析词确定为目标解析词。由于得分较高的解析词为唤醒词的可能性较高,目标解析词为最有可能为唤醒词的解析词,但是,目标解析词只是所有解析词中总得分最高的解析词,并不能说明目标解析词为唤醒词,为降低误唤醒率,将目标解析词与配置文件中的各唤醒词进行匹配,以进一步确认目标解析词是否为唤醒词,可降低对目标设备的误唤醒率。
本申请中,步骤102-步骤103可理解为语音识别解码过程,该过程可采用声学模型和语言模型来实现。步骤102采用声学模型实现,步骤103采用语音模型实现。
声学模型可为通用的声学模型,即声学模型的训练样本并无特殊要求,声学模型的训练样本可包括配置文件中所有唤醒词对应的音频,也可不包括配置文件中所述至少一个唤醒词对应的音频。
其中,声学模型的训练样本不包括配置文件中所述至少一个唤醒词对应的音频,这可理解为,声学模型的训练样本不包括配置文件中所有唤醒词对应的音频,或者,声学模型的训练样本不包括配置文件中部分唤醒词对应的音频。
语言模型也可采用现有技术中的用于根据音素获得解析词的模型。
语音识别解码过程可采用维特比算法,根据声学模型得到声学分数,语言模型得到语言分数,每一条路径对应的解析词的总分数=声学分+语言模型权重*语言分,声学分可理解为第一得分,总分最高的路径即为输入音频对应的解码结果,根据解码结果可确定目标解析词。在本申请中,将上述语言模型权重设置为0,则语言模型权重*语言分也为0,即,每个解析词的语言分(第二得分)不采用上述方式确定,而是根据配置文件确定。
例如,对于配置文件中的唤醒词“打开空调”,配置分数为4分,每个字的分数为1分,在解码的过程中,解码路径中出现“打”字,则给该路径加1分,如果解码路径下一个字是“开”,则给该路径再加1分,直到路径中“打开空调”四个字全部出现,该路径总共额外加分4分,作为该路径的语言分。如果设置的唤醒词没有完整出现,比如路径中是“打开空地”,则该路径在解析“打开空”时加上的3分,在解析到“地”字时要减去,例如在现有的路径分上减去3分。这样除包括完整唤醒词外的其他路径的语言分都为0分。
采用本申请中的唤醒方法,可以只需要训练一个通用的声学模型和一个通用的语言模型,唤醒词可以按需随时配置,即时生效。
本申请中的唤醒方法,不使用语言模型中的语言分,唤醒词的语言分在配置文件中配置,在解码过程中动态加入,语言模型中的其他路径可以排除各种非唤醒词,可有效的降低误唤醒率。
参见图2,图2是本申请实施例提供的电子设备的结构图,如图2所示,电子设备200包括:
第一获取模块201,用于获取输入音频;
第二获取模块202,用于根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;
第三获取模块203,用于根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;
第四获取模块204,用于根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;
确定模块205,用于根据所述各解析词的总得分确定目标解析词;
唤醒模块206,用于若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。
进一步的,所述至少一个唤醒词包括目标唤醒词,所述配置文件还包括所述目标唤醒词对应的配置分数,
所述第三获取模块203,用于:
当所述至少一组音素中的一组音素对应的解析词包括与所述目标唤醒词匹配的解析词时,将所述与目标唤醒词匹配的解析词确定为第一解析词;根据所述目标唤醒词的配置分数确定所述第一解析词的对应的第二得分,或
当所述至少一组音素中的一组音素对应的解析词与所述至少一个唤醒词中的各唤醒词均不匹配时,将该解析词的第二得分设置为预设值;
所述各唤醒词对应的配置分数均大于所述预设值。
进一步的,所述第四获取模块204,用于:
将所述至少一组音素中的各组音素的第一得分与其对应的解析词的第二得分之和,分别确定为该解析词的总得分;
确定模块205,用于将所有解析词中最大总得分对应的解析词确定为目标解析词。
进一步的,所述第二获取模块202,用于:
将所述输入音频输入至声学模型,获得所述至少一组音素以及所述至少一组音素中各组音素对应的第一得分,所述声学模型的训练样本不包括配置文件中任意一个唤醒词对应的音频。
电子设备200能够实现图1的方法实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本申请实施例的电子设备200,通过获取输入音频;根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;根据所述各解析词的总得分确定目标解析词;若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。相比于现有技术中通过识别模型对输入音频进行识别的方式,上述方法可通过配置文件灵活设置唤醒词,不需要对模型进行重新训练,可扩展性更强。
图3为实现本申请各个实施例的一种电子设备的硬件结构示意图,如图3所示,该电子设备400包括但不限于:射频单元401、网络模块402、音频输出单元403、输入单元404、传感器405、显示单元406、用户输入单元407、接口单元408、存储器409、处理器410、以及电源411等部件。本领域技术人员可以理解,图3中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本申请实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,输入单元404,用于获取输入音频;
处理器410,用于根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;根据所述各解析词的总得分确定目标解析词;若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。
进一步的,所述至少一个唤醒词包括目标唤醒词,所述配置文件还包括所述目标唤醒词对应的配置分数,
相应的,处理器410,用于当所述至少一组音素中的一组音素对应的解析词包括与所述目标唤醒词匹配的解析词时,将所述与目标唤醒词匹配的解析词确定为第一解析词;根据所述目标唤醒词的配置分数确定所述第一解析词的对应的第二得分,或
当所述至少一组音素中的一组音素对应的解析词与所述至少一个唤醒词中的各唤醒词均不匹配时,将该解析词的第二得分设置为预设值;
所述各唤醒词对应的配置分数均大于所述预设值。
进一步的,处理器410,用于将所述至少一组音素中的各组音素的第一得分与其对应的解析词的第二得分之和,分别确定为该解析词的总得分;
相应的,处理器410,还用于将所有解析词中最大总得分对应的解析词确定为目标解析词。
进一步的,处理器410,用于将所述输入音频输入至声学模型,获得所述至少一组音素以及所述至少一组音素中各组音素对应的第一得分,所述声学模型的训练样本不包括配置文件中任意一个唤醒词对应的音频。
电子设备400能够实现前述实施例中电子设备实现的各个过程,为避免重复,这里不再赘述。
本申请实施例的电子设备400,通过获取输入音频;根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;根据所述各解析词的总得分确定目标解析词;若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备。相比于现有技术中通过识别模型对输入音频进行识别的方式,上述方法可通过配置文件灵活设置唤醒词,不需要对模型进行重新训练,可扩展性更强。
应理解的是,本申请实施例中,射频单元401可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器410处理;另外,将上行的数据发送给基站。通常,射频单元401包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元401还可以通过无线通信系统与网络和其他设备通信。
电子设备通过网络模块402为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元403可以将射频单元401或网络模块402接收的或者在存储器409中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元403还可以提供与电子设备400执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元403包括扬声器、蜂鸣器以及受话器等。
输入单元404用于接收音频或视频信号。输入单元404可以包括图形处理器(Graphics Processing Unit,GPU)4041和麦克风4042,图形处理器4041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元406上。经图形处理器4041处理后的图像帧可以存储在存储器409(或其它存储介质)中或者经由射频单元401或网络模块402进行发送。麦克风4042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元401发送到移动通信基站的格式输出。
电子设备400还包括至少一种传感器405,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板4061的亮度,接近传感器可在电子设备400移动到耳边时,关闭显示面板4061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器405还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元406用于显示由用户输入的信息或提供给用户的信息。显示单元406可包括显示面板4061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板4061。
用户输入单元407可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元407包括触控面板4071以及其他输入设备4072。触控面板4071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板4071上或在触控面板4071附近的操作)。触控面板4071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器410,接收处理器410发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板4071。除了触控面板4071,用户输入单元407还可以包括其他输入设备4072。具体地,其他输入设备4072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板4071可覆盖在显示面板4061上,当触控面板4071检测到在其上或附近的触摸操作后,传送给处理器410以确定触摸事件的类型,随后处理器410根据触摸事件的类型在显示面板4061上提供相应的视觉输出。虽然在图3中,触控面板4071与显示面板4061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板4071与显示面板4061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元408为外部装置与电子设备400连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元408可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备400内的一个或多个元件或者可以用于在电子设备400和外部装置之间传输数据。
存储器409可用于存储软件程序以及各种数据。存储器409可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器409可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器410是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器409内的软件程序和/或模块,以及调用存储在存储器409内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器410可包括一个或多个处理单元;优选的,处理器410可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器410中。
电子设备400还可以包括给各个部件供电的电源411(比如电池),优选的,电源411可以通过电源管理系统与处理器410逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
另外,电子设备400包括一些未示出的功能模块,在此不再赘述。
优选的,本申请实施例还提供一种电子设备,包括处理器410,存储器409,存储在存储器409上并可在所述处理器410上运行的计算机程序,该计算机程序被处理器410执行时实现上述唤醒方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述唤醒方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本申请的保护之内。

Claims (8)

1.一种唤醒方法,其特征在于,包括:
获取输入音频;
根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;
根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;
根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;
根据所述各解析词的总得分确定目标解析词;
若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备;
所述至少一个唤醒词包括目标唤醒词,所述配置文件还包括所述目标唤醒词对应的配置分数,
所述根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,包括:
当所述至少一组音素中的一组音素对应的解析词包括与所述目标唤醒词匹配的解析词时,将与目标唤醒词匹配的解析词确定为第一解析词;根据所述目标唤醒词的配置分数确定所述第一解析词的对应的第二得分,或
当所述至少一组音素中的一组音素对应的解析词与所述至少一个唤醒词中的各唤醒词均不匹配时,将该解析词的第二得分设置为预设值;
所述各唤醒词对应的配置分数均大于所述预设值。
2.根据权利要求1所述的方法,其特征在于,所述根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分,包括:
将所述至少一组音素中的各组音素的第一得分与其对应的解析词的第二得分之和,分别确定为该解析词的总得分;
所述根据所述各解析词的总得分确定目标解析词,包括:
将所有解析词中总得分最高的解析词确定为所述目标解析词。
3.根据权利要求1所述的方法,其特征在于,所述根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分,包括:
将所述输入音频输入至声学模型,获得所述至少一组音素以及所述至少一组音素中各组音素对应的第一得分,所述声学模型的训练样本不包括配置文件中任意一个唤醒词对应的音频。
4.一种电子设备,其特征在于,包括:
第一获取模块,用于获取输入音频;
第二获取模块,用于根据所述输入音频,获得所述输入音频的至少一组音素,以及所述至少一组音素中各组音素对应的第一得分;
第三获取模块,用于根据配置文件,获得每组音素对应的至少一个解析词以及各解析词对应的第二得分,所述配置文件包括至少一个唤醒词;
第四获取模块,用于根据每组音素的第一得分,以及每组音素对应的各解析词对应的第二得分,分别获得各解析词的总得分;
确定模块,用于根据所述各解析词的总得分确定目标解析词;
唤醒模块,用于若目标解析词与所述配置文件中的唤醒词匹配,则唤醒目标设备;
所述至少一个唤醒词包括目标唤醒词,所述配置文件还包括所述目标唤醒词对应的配置分数,
所述第三获取模块,用于:
当所述至少一组音素中的一组音素对应的解析词包括与所述目标唤醒词匹配的解析词时,将与目标唤醒词匹配的解析词确定为第一解析词;根据所述目标唤醒词的配置分数确定所述第一解析词的对应的第二得分,或
当所述至少一组音素中的一组音素对应的解析词与所述至少一个唤醒词中的各唤醒词均不匹配时,将该解析词的第二得分设置为预设值;
所述各唤醒词对应的配置分数均大于所述预设值。
5.根据权利要求4所述的电子设备,其特征在于,所述第四获取模块,用于:
将所述至少一组音素中的各组音素的第一得分与其对应的解析词的第二得分之和,分别确定为所述解析词的总得分;
所述确定模块,用于将所有解析词中最大总得分对应的解析词确定为目标解析词。
6.根据权利要求4所述的电子设备,其特征在于,所述第二获取模块,用于:
将所述输入音频输入至声学模型,获得所述至少一组音素以及所述至少一组音素中各组音素对应的第一得分,所述声学模型的训练样本不包括配置文件中任意一个唤醒词对应的音频。
7.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至3中任一项所述的唤醒方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述的唤醒方法的步骤。
CN202111048905.2A 2021-09-08 2021-09-08 一种唤醒方法及电子设备 Active CN113707132B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111048905.2A CN113707132B (zh) 2021-09-08 2021-09-08 一种唤醒方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111048905.2A CN113707132B (zh) 2021-09-08 2021-09-08 一种唤醒方法及电子设备

Publications (2)

Publication Number Publication Date
CN113707132A CN113707132A (zh) 2021-11-26
CN113707132B true CN113707132B (zh) 2024-03-01

Family

ID=78659150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111048905.2A Active CN113707132B (zh) 2021-09-08 2021-09-08 一种唤醒方法及电子设备

Country Status (1)

Country Link
CN (1) CN113707132B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN106611597A (zh) * 2016-12-02 2017-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106653022A (zh) * 2016-12-29 2017-05-10 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
CN110600008A (zh) * 2019-09-23 2019-12-20 苏州思必驰信息科技有限公司 语音唤醒的优化方法及系统
CN111883121A (zh) * 2020-07-20 2020-11-03 北京声智科技有限公司 唤醒方法、装置及电子设备
US10872599B1 (en) * 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training
CN112151015A (zh) * 2020-09-03 2020-12-29 腾讯科技(深圳)有限公司 关键词检测方法、装置、电子设备以及存储介质
CN112652306A (zh) * 2020-12-29 2021-04-13 珠海市杰理科技股份有限公司 语音唤醒方法、装置、计算机设备和存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10719115B2 (en) * 2014-12-30 2020-07-21 Avago Technologies International Sales Pte. Limited Isolated word training and detection using generated phoneme concatenation models of audio inputs
US11158305B2 (en) * 2019-05-05 2021-10-26 Microsoft Technology Licensing, Llc Online verification of custom wake word

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9275637B1 (en) * 2012-11-06 2016-03-01 Amazon Technologies, Inc. Wake word evaluation
CN106611597A (zh) * 2016-12-02 2017-05-03 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN106782536A (zh) * 2016-12-26 2017-05-31 北京云知声信息技术有限公司 一种语音唤醒方法及装置
CN106653022A (zh) * 2016-12-29 2017-05-10 百度在线网络技术(北京)有限公司 基于人工智能的语音唤醒方法和装置
CN107871506A (zh) * 2017-11-15 2018-04-03 北京云知声信息技术有限公司 语音识别功能的唤醒方法及装置
US10872599B1 (en) * 2018-06-28 2020-12-22 Amazon Technologies, Inc. Wakeword training
CN110600008A (zh) * 2019-09-23 2019-12-20 苏州思必驰信息科技有限公司 语音唤醒的优化方法及系统
CN111883121A (zh) * 2020-07-20 2020-11-03 北京声智科技有限公司 唤醒方法、装置及电子设备
CN112151015A (zh) * 2020-09-03 2020-12-29 腾讯科技(深圳)有限公司 关键词检测方法、装置、电子设备以及存储介质
CN112652306A (zh) * 2020-12-29 2021-04-13 珠海市杰理科技股份有限公司 语音唤醒方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113707132A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN110890093B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN110096580B (zh) 一种faq对话方法、装置及电子设备
EP2821992B1 (en) Method for updating voiceprint feature model and terminal
CN111402866B (zh) 语义识别方法、装置及电子设备
CN108735209A (zh) 唤醒词绑定方法、智能设备及存储介质
CN110570840B (zh) 一种基于人工智能的智能设备唤醒方法和装置
CN108668024B (zh) 一种语音处理方法及终端
CN110827826B (zh) 语音转换文字方法、电子设备
CN107919138B (zh) 一种语音中的情绪处理方法及移动终端
CN109065060B (zh) 一种语音唤醒方法及终端
CN113782012B (zh) 一种唤醒模型训练方法、唤醒方法及电子设备
CN109992753B (zh) 一种翻译处理方法及终端设备
CN109949809B (zh) 一种语音控制方法及终端设备
CN109858447B (zh) 一种信息处理方法及终端
WO2022227507A1 (zh) 唤醒程度识别模型训练方法及语音唤醒程度获取方法
CN108597495B (zh) 一种处理语音数据的方法及装置
CN109063076B (zh) 一种图片生成方法及移动终端
CN111292727B (zh) 一种语音识别方法及电子设备
CN111062200B (zh) 一种话术泛化方法、话术识别方法、装置及电子设备
CN111145734A (zh) 一种语音识别方法及电子设备
CN107957789B (zh) 一种文本输入方法及移动终端
CN113707132B (zh) 一种唤醒方法及电子设备
CN116127966A (zh) 文本处理方法、语言模型训练方法及电子设备
CN111338598B (zh) 一种消息处理方法及电子设备
CN111753047B (zh) 一种文本处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant