CN108520743A - 智能设备的语音控制方法、智能设备及计算机可读介质 - Google Patents

智能设备的语音控制方法、智能设备及计算机可读介质 Download PDF

Info

Publication number
CN108520743A
CN108520743A CN201810106479.5A CN201810106479A CN108520743A CN 108520743 A CN108520743 A CN 108520743A CN 201810106479 A CN201810106479 A CN 201810106479A CN 108520743 A CN108520743 A CN 108520743A
Authority
CN
China
Prior art keywords
control
word
phonetic order
smart machine
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810106479.5A
Other languages
English (en)
Other versions
CN108520743B (zh
Inventor
李润祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810106479.5A priority Critical patent/CN108520743B/zh
Publication of CN108520743A publication Critical patent/CN108520743A/zh
Application granted granted Critical
Publication of CN108520743B publication Critical patent/CN108520743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

本发明提供一种智能设备的语音控制方法、智能设备及计算机可读介质。其方法包括:接收用户发出的对智能设备的语音指令;根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的语音指令为控制命令还是唤醒词;若语音指令为控制命令,执行控制命令对应的操作。本发明的技术方案,在执行某些控制指令时,用户可以省去唤醒词,仅发出相应的控制指令,智能设备可以进行免唤醒服务,直接执行控制指令对应的操作,从而能够有效地提高智能设备的控制效率;同时还可以避免用户在每一次发出语音指令时都先说唤醒词,从而能够有效地提高用户的使用体验。

Description

智能设备的语音控制方法、智能设备及计算机可读介质
【技术领域】
本发明涉及计算机应用技术领域,尤其涉及一种智能设备的语音控制方法、智能设备及计算机可读介质。
【背景技术】
随着智能科技的发展,涌现出越来越多的智能设备。智能设备的智能化一方面表现在:用户不用操作智能设备上的按键,可以远距离控制该智能设备,大大地方便了用户的使用。
例如,现有的很多智能设备可以通过语音来控制。例如,使用时,用户可以语音发出携带唤醒词和语音query命令的语音请求,例如若某智能设备的唤醒词为小A,语音query命令为打开音乐,用户的语音请求可以为“小A,请打开音乐”。在该智能设备内会预存储有该小A的唤醒词。智能设备先对该语音请求进行语音识别,获取对应的文字形式的唤醒词和query,智能设备先根据预存储的唤醒词检测该唤醒词是否为自己的唤醒词,若是,则进一步来识别唤醒词之后的语音query命令的真实意图,从而根据识别的语音query命令的真实意图,执行相应的操作。
但是,现有技术采用上述方法来对智能设备进行语音控制的过程中,用户与智能设备交互时,每一次发出语音query命令之前都需要携带唤醒词。在对智能设备进行控制的过程中,有很多短的语音query命令,也需要频繁按照上述方式进行,造成唤醒词识别过于频繁,智能设备的语音控制效率较低。
【发明内容】
本发明提供了一种智能设备的语音控制方法、智能设备及计算机可读介质,用于提高智能设备的语音控制效率。
本发明提供一种智能设备的语音控制方法,所述方法包括:
接收用户发出的对智能设备的语音指令;
对所述语音指令进行语音识别;
根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词;
若所述语音指令为控制命令,执行所述控制命令对应的操作。
进一步可选地,如上所述的方法中,根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词,具体包括:
根据各所述控制指令识别模型识别语音识别后的所述语音指令是否为对应的控制命令;
根据语音唤醒模型识别语音识别后的所述语音指令是否为唤醒词;
根据识别结果,确定语音识别后的所述语音指令为控制命令还是唤醒词。
进一步可选地,如上所述的方法中,根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词之前,所述方法还包括:
预先采集各所述控制指令识别模型对应的数个训练指令词;
根据各所述控制指令识别模型对应的所述数个训练指令词,训练对应的所述控制指令识别模型。
进一步可选地,如上所述的方法中,各所述控制指令识别模型对应的数个训练指令词包括不同声调、不同方言和符合模糊匹配的指令词;
所述多个控制指令识别模型分别用于识别短控制指令。
进一步可选地,如上所述的方法中,若所述语音指令为唤醒词,所述方法还包括:
对所述唤醒词之后的语音指令进行识别,并执行。
本发明提供一种智能设备,所述设备包括:
接收模块,用于接收用户发出的对智能设备的语音指令;
语音识别模块,用于对所述语音指令进行语音识别;
指令识别模块,用于根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词;
执行模块,用于若所述语音指令为控制命令,执行所述控制命令对应的操作。
进一步可选地,如上所述的设备中,所述指令识别模块,具体用于:
根据各所述控制指令识别模型识别语音识别后的所述语音指令是否为对应的控制命令;
根据语音唤醒模型识别语音识别后的所述语音指令是否为唤醒词;
根据识别结果,确定语音识别后的所述语音指令为控制命令还是唤醒词。
进一步可选地,如上所述的设备中,所述设备还包括:
采集模块,用于预先采集各所述控制指令识别模型对应的数个训练指令词;
训练模块,用于根据各所述控制指令识别模型对应的所述数个训练指令词,训练对应的所述控制指令识别模型。
进一步可选地,如上所述的设备中,各所述控制指令识别模型对应的数个训练指令词包括不同声调、不同方言和符合模糊匹配的指令词;
所述多个控制指令识别模型分别用于识别短控制指令。
进一步可选地,如上所述的设备中,所述指令识别模块,还用于若所述语音指令为唤醒词,对所述唤醒词之后的语音指令进行识别;
所述执行模块,还用于执行识别出的所述唤醒词之后的语音指令。
本发明还提供一种计算机设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的智能设备的语音控制方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的智能设备的语音控制方法。
本发明的智能设备的语音控制方法、智能设备及计算机可读介质,通过接收用户发出的对智能设备的语音指令;根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的语音指令为控制命令还是唤醒词;若语音指令为控制命令,执行控制命令对应的操作。本发明的技术方案,在执行某些控制指令时,用户可以省去唤醒词,仅发出相应的控制指令,智能设备可以进行免唤醒服务,直接执行控制指令对应的操作,从而能够有效地提高智能设备的控制效率;同时还可以避免用户在每一次发出语音指令时都先说唤醒词,从而能够有效地提高用户的使用体验。
【附图说明】
图1为本发明的智能设备的语音控制方法实施例一的流程图。
图2为本发明的智能设备的语音控制方法实施例二的流程图。
图3为本发明的智能设备实施例一的结构图。
图4为本发明的智能设备实施例二的结构图。
图5为本发明的计算机设备实施例的结构图。
图6为本发明提供的一种计算机设备的示例图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的智能设备的语音控制方法实施例一的流程图。如图1所示,本实施例的智能设备的语音控制方法,具体可以包括如下步骤:
100、接收用户发出的对智能设备的语音指令;
101、对语音指令进行语音识别;
102、根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的语音指令为控制命令还是唤醒词;若语音指令为控制命令,执行步骤103;若语音指令为唤醒词,执行步骤104;
103、执行控制命令对应的操作,结束
104、对唤醒词之后的语音指令进行识别,并执行。
本实施例的智能设备的语音控制方法的执行主体为智能设备,该智能设备能够接收用户的语音输入,从而便于用户基于语音实现对该智能设备的控制。
与现有技术的智能设备不同的是:现有技术的智能设备中仅设置有一个语音唤醒模型,智能设备通过语音唤醒模型识别用户的语音开头中是否为唤醒词,若是,智能设备确定用户的语音指令是对其发出的,才对唤醒词之后的语音指令进行识别,这样会导致暂停、继续、大声一点、小声一点、上一首、下一首等词语较少的短控制指令之前也需要携带唤醒词。这样,就好像人和人之间的说话,每说一句话都需要叫一次对应的名字,用户本身的体验不好,而且智能设备也需要频繁使用语音唤醒模型来唤醒,并进行后续识别,导致智能设备的语音控制效率较低。
而本实施例中,智能设备中除了设置语音唤醒模型,还可以设置多个控制指令识别模型。例如本实施例的多个控制指令识别模型可以分别用于识别短控制指令,例如本实施例的短控制指令为字数不超过预设阈值的控制命令。例如,预设阈值可以为4个字、5个字或者其他较少数量的字数。例如对于智能音箱,其内可以设置多个控制指令识别模型,分别用于识别暂停、继续、大声一点、小声一点、上一首、下一首等等的短控制指令。对于智能空调,其内也可以设置多个控制指令识别模型,分别用于识别温度高一点、温度低一点、风大一点、风小一点、摇摆风、不摇摆等等短控制指令。同理,对于智能电视,其内也可以设置多个控制指令识别模型,分别用于识别声音大一点、声音小一点、下一个频道、上一频道以及A频道、B频道等等多个频道。采用类似的方式,对于任一智能设备,均可以按照类似的方式,设置有多个控制指令识别模型,分别用于识别用户对该智能设备发出的一些短控制指令,从而实现用户在发出短控制指令时,免除唤醒的操作,提高智能设备的控制效率,而且能够有效地提高用户的使用体验。
具体使用时,智能设备的接收模块可以接收用户发出的对该智能设备的语音指令;先对该语音指令进行语音识别,得到对应的文字形式的语音指令。例如,如用户的输入的语音指令为中文,则对应的文字形式的语音指令可以为对用户输入的语音指令识别得到的中文拼音。然后由智能设备中的识别模块根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的语音指令为控制命令还是唤醒词;若语音指令为控制命令,识别结果会上报至智能设备的操作系统的服务处理模块中,由智能设备的操作系统的服务处理模块下传对应的控制指令到智能设备的处理器,由智能设备的处理器执行相应的控制指令。本实施例的智能设备可以采用DuerOS操作系统。若语音指令为唤醒词,此时可以按照现有的处理方式,对唤醒词之后的语音指令进行识别,确定用户的真实意图及对应的控制指令,从而由智能设备的处理器执行相应的控制指令。
例如,当智能音箱正在播放歌曲的时候,用户直接发出语音query“暂停”或者“继续”,实现即可暂停或者继续播放。用户直接发出语音query“下一首”、“声音大一点”、“声音小一点”,智能音箱即会直接执行相应的操作。
进一步可选地,该步骤102“根据语音唤醒模型和多个控制指令识别模型,识别语音指令为控制命令还是唤醒词”,具体可以包括如下步骤:
(a1)根据各控制指令识别模型识别语音指令是否为对应的控制命令;
(b1)根据语音唤醒模型识别语音指令是否为唤醒词;
(c1)根据识别结果,确定语音指令为控制命令还是唤醒词。
本实施例中,该步骤(a1)和(b1)可以同时执行,也可以其中一个位于另一个之前执行,并根据两者的识别结果,确定接收的语音指令是控制命令还是唤醒词。
另外,需要说明的是,本实施例中的识别结果是以当前接收的语音指令要么是唤醒词要么是控制指令为例,实际应用中,若识别到当前的语音指令既不是唤醒词也不是控制指令,此时不做进一步处理,忽略当前的语音指令,此时该语音指令可能是用户发给其他智能设备的。
本实施例的智能设备的语音控制方法,通过接收用户发出的对智能设备的语音指令;根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的语音指令为控制命令还是唤醒词;若语音指令为控制命令,执行控制命令对应的操作。本实施例的技术方案,在执行某些控制指令时,用户可以省去唤醒词,仅发出相应的控制指令,智能设备可以进行免唤醒服务,直接执行控制指令对应的操作,从而能够有效地提高智能设备的控制效率;同时还可以避免用户在每一次发出语音指令时都先说唤醒词,从而能够有效地提高用户的使用体验。
图2为本发明的智能设备的语音控制方法实施例二的流程图。如图2所示,本实施例的智能设备的语音控制方法,在上述图1所示实施例的技术方案的基础上,还可以包括本实施例的如下技术方案。例如,本实施例的智能设备的语音控制方法,在上述图1所示实施例的步骤101之前,具体还可以包括如下步骤:
200、预先采集各控制指令识别模型对应的数个训练指令词;
201、根据各控制指令识别模型对应的数个训练指令词,训练对应的控制指令识别模型。
对于各控制指令识别模型,可以预先采集对应的数个训练指令词。需要说明的是,本实施例的各控制指令识别模型对应的数个训练指令词包括不同声调、不同方言和符合模糊匹配的指令词,以增加控制指令识别模型具有更广的兼容性。其中符合模糊匹配的训练指令词,可以指的是根据发音习惯获取的与对应的控制指令的读音能够符合模糊匹配的指令词。例如,“下一首”对应的读音为“xia yi shou”无论什么声调,只要读音相同,都可以作为该指令词的训练指令词。另外,由于“shou”与“sou”读音相同,“xia yi sou”的读音可以作为“xiayi shou”的模糊匹配的训练指令词。采用类似的方式,对于每一个控制指令,都可以采集到对应的数个训练指令词。然后根据数个训练指令词,来训练对应的控制指令识别模型,使得训练好的控制指令识别模型,能够在收到用户的训练指令词或者与训练指令词相似度较高的指令词时,根据该控制指令识别模型能够识别用户当前输入的语音指令是否为对应的控制指令。另外,上述采集的各控制指令识别模型对应的数个训练指令词作为训练数据的正例,在训练对应的控制指令识别模型时,还可以采用训练数据的反例,例如可以选择一些读音与对应的控制指令的读音完全不相关的词,且正例与负例的比例可以为4:1、5:1或者10:1等其他大于1的比例,具体地训练过程详细可以参考相关现有技术,在此不再赘述。
另外,需要说明的是,本实施例中的多个控制指令识别模型也可以不采用上述训练过程,仅在控制指令识别模型中预存对应的控制指令的读音的不同声调、不同方言和符合模糊匹配的多个训练指令词。然后识别时,分别计算语音识别后的语音指令与该控制指令识别模型中的多个训练指令词的相似度,只要与其中一个训练指令词的相似度打分超出预设分值,便可以认为该语音识别后的语音指令为某个控制指令识别模型对应的控制命令。
有数据显示,用户真实的query中有近40%的query为控制指令。其中绝大部分短指令又集中在“暂停”“下一首”“大声点”“小声点”等有限个超高频的短控制指令上。于是本发明采用上述方案针对性的解决超高频的短控制指令的免唤醒问题,可以大大提升用户的使用体验。
本发明的技术方案可以应用在某些特定场景,譬如音乐wifi、蓝牙播放、有声播放、新闻播放等等特定场景,可以通过采用上述实施例的方式实现免唤醒词的语音控制,即通过把多个超高频的短控制指令如:暂停、继续、大声一点、小声一点、上一首、下一首等,在特定场景下经过“模型训练”成在特定场景下支持的多个指令词,当用户说出“暂停”query时,直接命中“暂停”指令词,系统直接上报“暂停”事件,不走普通的语音唤醒后的query识别,从而实现“免唤醒”对端的控制。另外,本实施例的短控制指令的指令词,一定意义上也可以作为另一种唤醒词。
本实施例的智能设备的语音控制方法,通过本实施例训练的多个控制指令识别模型,可以对相应的控制执行进行有效识别,从而在执行某些控制指令时,用户可以省去唤醒词,仅发出相应的控制指令,智能设备可以进行免唤醒服务,直接执行控制指令对应的操作,从而能够有效地提高智能设备的控制效率;同时还可以避免用户在每一次发出语音指令时都先说唤醒词,从而能够有效地提高用户的使用体验。
图3为本发明的智能设备实施例一的结构图。如图3所示,本实施例的智能设备,具体可以包括:
接收模块10用于接收用户发出的对智能设备的语音指令;
语音识别模块11用于对接收模块10接收的语音指令进行语音识别;
指令识别模块12用于根据语音唤醒模型和多个控制指令识别模型,识别语音识别模块11语音识别后的语音指令为控制命令还是唤醒词;
执行模块13用于若指令识别模块12识别语音指令为控制命令,执行控制命令对应的操作。
本实施例的智能设备,通过采用上述模块实现智能设备的语音控制的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图4为本发明的智能设备实施例二的结构图。如图4所示,本实施例的智能设备,在上述图3所示实施例的技术方案的基础上,进一步更加详细地描述本发明的技术方案。
本实施例的智能设备中,指令识别模块12具体用于:
根据各控制指令识别模型识别语音识别模块11语音识别后的语音指令是否为对应的控制命令;
根据语音唤醒模型识别语音识别模块11语音识别后的语音指令是否为唤醒词;
根据识别结果,确定语音识别模块11语音识别后的语音指令为控制命令还是唤醒词。
进一步可选地,本实施例的智能设备中,还包括:
采集模块14用于预先采集各控制指令识别模型对应的数个训练指令词;
训练模块15用于根据采集模块14采集的各控制指令识别模型对应的数个训练指令词,训练对应的控制指令识别模型。
其中各控制指令识别模型对应的数个训练指令词包括不同声调、不同方言和符合模糊匹配的指令词;
多个控制指令识别模型分别用于识别短控制指令。
对应地,指令识别模块12用于根据语音唤醒模型和训练模块15训练得到的多个控制指令识别模型,识别语音识别模块11语音识别后的语音指令为控制命令还是唤醒词。
进一步可选地,本实施例的智能设备中,语音识别模块11还用于若指令识别模块12识别语音指令为唤醒词,对唤醒词之后的语音指令进行识别;
执行模块13还用于执行语音识别模块11识别出的唤醒词之后的语音指令。
本实施例的智能设备,通过采用上述模块实现智能设备的语音控制的实现原理以及技术效果与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。
图5为本发明的计算机设备实施例的结构图。如图5所示,本实施例的计算机设备,包括:一个或多个处理器30,以及存储器40,存储器40用于存储一个或多个程序,当存储器40中存储的一个或多个程序被一个或多个处理器30执行,使得一个或多个处理器30实现如上图1-图2所示实施例的智能设备的语音控制方法。图5所示实施例中以包括多个处理器30为例。
例如,图6为本发明提供的一种计算机设备的示例图。图6示出了适于用来实现本发明实施方式的示例性计算机设备12a的框图。图6显示的计算机设备12a仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机设备12a以通用计算设备的形式表现。计算机设备12a的组件可以包括但不限于:一个或者多个处理器16a,系统存储器28a,连接不同系统组件(包括系统存储器28a和处理器16a)的总线18a。
总线18a表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12a典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12a访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28a可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30a和/或高速缓存存储器32a。计算机设备12a可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34a可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18a相连。系统存储器28a可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明上述图1-图4各实施例的功能。
具有一组(至少一个)程序模块42a的程序/实用工具40a,可以存储在例如系统存储器28a中,这样的程序模块42a包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42a通常执行本发明所描述的上述图1-图4各实施例中的功能和/或方法。
计算机设备12a也可以与一个或多个外部设备14a(例如键盘、指向设备、显示器24a等)通信,还可与一个或者多个使得用户能与该计算机设备12a交互的设备通信,和/或与使得该计算机设备12a能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22a进行。并且,计算机设备12a还可以通过网络适配器20a与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20a通过总线18a与计算机设备12a的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12a使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16a通过运行存储在系统存储器28a中的程序,从而执行各种功能应用以及数据处理,例如实现上述实施例所示的智能设备的语音控制方法。
本发明还提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所示的智能设备的语音控制方法。
本实施例的计算机可读介质可以包括上述图6所示实施例中的系统存储器28a中的RAM30a、和/或高速缓存存储器32a、和/或存储系统34a。
随着科技的发展,计算机程序的传播途径不再受限于有形介质,还可以直接从网络下载,或者采用其他方式获取。因此,本实施例中的计算机可读介质不仅可以包括有形的介质,还可以包括无形的介质。
本实施例的计算机可读介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种智能设备的语音控制方法,其特征在于,所述方法包括:
接收用户发出的对智能设备的语音指令;
对所述语音指令进行语音识别;
根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词;
若所述语音指令为控制命令,执行所述控制命令对应的操作。
2.根据权利要求1所述的方法,其特征在于,根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词,具体包括:
根据各所述控制指令识别模型识别语音识别后的所述语音指令是否为对应的控制命令;
根据语音唤醒模型识别语音识别后的所述语音指令是否为唤醒词;
根据识别结果,确定语音识别后的所述语音指令为控制命令还是唤醒词。
3.根据权利要求2所述的方法,其特征在于,根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词之前,所述方法还包括:
预先采集各所述控制指令识别模型对应的数个训练指令词;
根据各所述控制指令识别模型对应的所述数个训练指令词,训练对应的所述控制指令识别模型。
4.根据权利要求3所述的方法,其特征在于,各所述控制指令识别模型对应的数个训练指令词包括不同声调、不同方言和符合模糊匹配的指令词;
所述多个控制指令识别模型分别用于识别短控制指令。
5.根据权利要求1所述的方法,其特征在于,若所述语音指令为唤醒词,所述方法还包括:
对所述唤醒词之后的语音指令进行识别,并执行。
6.一种智能设备,其特征在于,所述设备包括:
接收模块,用于接收用户发出的对智能设备的语音指令;
语音识别模块,用于对所述语音指令进行语音识别;
指令识别模块,用于根据语音唤醒模型和多个控制指令识别模型,识别语音识别后的所述语音指令为控制命令还是唤醒词;
执行模块,用于若所述语音指令为控制命令,执行所述控制命令对应的操作。
7.根据权利要求6所述的设备,其特征在于,所述指令识别模块,具体用于:
根据各所述控制指令识别模型识别语音识别后的所述语音指令是否为对应的控制命令;
根据语音唤醒模型识别语音识别后的所述语音指令是否为唤醒词;
根据识别结果,确定语音识别后的所述语音指令为控制命令还是唤醒词。
8.根据权利要求7所述的设备,其特征在于,所述设备还包括:
采集模块,用于预先采集各所述控制指令识别模型对应的数个训练指令词;
训练模块,用于根据各所述控制指令识别模型对应的所述数个训练指令词,训练对应的所述控制指令识别模型。
9.根据权利要求8所述的设备,其特征在于,各所述控制指令识别模型对应的数个训练指令词包括不同声调、不同方言和符合模糊匹配的指令词;
所述多个控制指令识别模型分别用于识别短控制指令。
10.根据权利要求6所述的设备,其特征在于,所述指令识别模块,还用于若所述语音指令为唤醒词,对所述唤醒词之后的语音指令进行识别;
所述执行模块,还用于执行识别出的所述唤醒词之后的语音指令。
11.一种计算机设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN201810106479.5A 2018-02-02 2018-02-02 智能设备的语音控制方法、智能设备及计算机可读介质 Active CN108520743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810106479.5A CN108520743B (zh) 2018-02-02 2018-02-02 智能设备的语音控制方法、智能设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810106479.5A CN108520743B (zh) 2018-02-02 2018-02-02 智能设备的语音控制方法、智能设备及计算机可读介质

Publications (2)

Publication Number Publication Date
CN108520743A true CN108520743A (zh) 2018-09-11
CN108520743B CN108520743B (zh) 2021-01-22

Family

ID=63432752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810106479.5A Active CN108520743B (zh) 2018-02-02 2018-02-02 智能设备的语音控制方法、智能设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN108520743B (zh)

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215658A (zh) * 2018-11-30 2019-01-15 广东美的制冷设备有限公司 设备的语音唤醒方法、装置和家电设备
CN109360564A (zh) * 2018-12-10 2019-02-19 珠海格力电器股份有限公司 语言识别模式的选择方法及装置、家用电器
CN109364477A (zh) * 2018-12-24 2019-02-22 苏州思必驰信息科技有限公司 基于语音控制进行打麻将游戏的方法及装置
CN109448709A (zh) * 2018-10-16 2019-03-08 华为技术有限公司 一种终端投屏的控制方法和终端
CN109524010A (zh) * 2018-12-24 2019-03-26 出门问问信息科技有限公司 一种语音控制方法、装置、设备及存储介质
CN109545206A (zh) * 2018-10-29 2019-03-29 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN109545211A (zh) * 2018-12-07 2019-03-29 苏州思必驰信息科技有限公司 语音交互方法及系统
CN109686372A (zh) * 2019-01-02 2019-04-26 百度在线网络技术(北京)有限公司 资源播放控制方法和装置
CN109686370A (zh) * 2018-12-24 2019-04-26 苏州思必驰信息科技有限公司 基于语音控制进行斗地主游戏的方法及装置
CN109697980A (zh) * 2018-12-26 2019-04-30 与德科技有限公司 一种唤醒词的响应方法、装置、存储介质及智能音箱
CN109830232A (zh) * 2019-01-11 2019-05-31 北京猎户星空科技有限公司 人机交互方法、装置和存储介质
CN109859752A (zh) * 2019-01-02 2019-06-07 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及语音联控系统
CN110060681A (zh) * 2019-04-26 2019-07-26 广东昇辉电子控股有限公司 具有智能语音识别功能的智能网关的控制方法
CN110310628A (zh) * 2019-06-27 2019-10-08 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN111028846A (zh) * 2019-12-25 2020-04-17 北京梧桐车联科技有限责任公司 免唤醒词注册的方法和装置
CN111081217A (zh) * 2019-12-03 2020-04-28 珠海格力电器股份有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN111261151A (zh) * 2018-12-03 2020-06-09 中移(杭州)信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN111369992A (zh) * 2020-02-27 2020-07-03 Oppo(重庆)智能科技有限公司 指令执行方法、装置、存储介质及电子设备
CN111681655A (zh) * 2020-05-21 2020-09-18 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
CN111968631A (zh) * 2020-06-29 2020-11-20 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、设备及存储介质
CN112017651A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112614487A (zh) * 2020-12-09 2021-04-06 国网冀北电力有限公司 一种基于语音对话的调控保电辅助机器人交互方法
CN112882394A (zh) * 2021-01-12 2021-06-01 北京小米松果电子有限公司 设备控制方法、控制装置及可读存储介质
CN113380246A (zh) * 2021-06-08 2021-09-10 阿波罗智联(北京)科技有限公司 指令执行方法、相关装置及计算机程序产品
US11205431B2 (en) 2019-01-02 2021-12-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for presenting state of voice interaction device, and storage medium
CN114090166A (zh) * 2021-11-29 2022-02-25 云知声智能科技股份有限公司 一种交互的方法和装置
US20230054011A1 (en) * 2021-08-20 2023-02-23 Beijing Xiaomi Mobile Software Co., Ltd. Voice collaborative awakening method and apparatus, electronic device and storage medium

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1859557A (zh) * 2006-02-16 2006-11-08 华为技术有限公司 一种可视电话控制方法及设备
CN101067780A (zh) * 2007-06-21 2007-11-07 腾讯科技(深圳)有限公司 智能设备的文字输入系统及方法
CN102638620A (zh) * 2012-04-13 2012-08-15 深圳市金立通信设备有限公司 语音短信无法识别时自动转换为文字短信的系统及方法
CN102833610A (zh) * 2012-09-24 2012-12-19 北京多看科技有限公司 一种节目选择的方法、装置及数字电视终端
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
CN105009203A (zh) * 2013-03-12 2015-10-28 纽昂斯通讯公司 用于检测语音命令的方法和装置
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN105825870A (zh) * 2016-03-14 2016-08-03 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置
CN105843466A (zh) * 2016-03-14 2016-08-10 广州趣丸网络科技有限公司 一种实时语音的方法及装置
US20160293164A1 (en) * 2015-03-30 2016-10-06 Alibaba Group Holding Limited Method and apparatus for voice control
CN106297784A (zh) * 2016-08-05 2017-01-04 智能终端游戏快速响应语音识别的方法和系统
CN107528755A (zh) * 2017-09-30 2017-12-29 百度在线网络技术(北京)有限公司 智能设备的控制方法、装置、设备和存储介质
CN107622652A (zh) * 2016-07-15 2018-01-23 青岛海尔智能技术研发有限公司 家电系统的语音控制方法与家电控制系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1859557A (zh) * 2006-02-16 2006-11-08 华为技术有限公司 一种可视电话控制方法及设备
CN101067780A (zh) * 2007-06-21 2007-11-07 腾讯科技(深圳)有限公司 智能设备的文字输入系统及方法
CN102638620A (zh) * 2012-04-13 2012-08-15 深圳市金立通信设备有限公司 语音短信无法识别时自动转换为文字短信的系统及方法
CN102833610A (zh) * 2012-09-24 2012-12-19 北京多看科技有限公司 一种节目选择的方法、装置及数字电视终端
CN105009203A (zh) * 2013-03-12 2015-10-28 纽昂斯通讯公司 用于检测语音命令的方法和装置
CN103578467A (zh) * 2013-10-18 2014-02-12 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US20160293164A1 (en) * 2015-03-30 2016-10-06 Alibaba Group Holding Limited Method and apparatus for voice control
CN105654943A (zh) * 2015-10-26 2016-06-08 乐视致新电子科技(天津)有限公司 一种语音唤醒方法、装置及系统
CN105825870A (zh) * 2016-03-14 2016-08-03 江苏时间环三维科技有限公司 一种语音指令数据获取方法及装置
CN105843466A (zh) * 2016-03-14 2016-08-10 广州趣丸网络科技有限公司 一种实时语音的方法及装置
CN107622652A (zh) * 2016-07-15 2018-01-23 青岛海尔智能技术研发有限公司 家电系统的语音控制方法与家电控制系统
CN106297784A (zh) * 2016-08-05 2017-01-04 智能终端游戏快速响应语音识别的方法和系统
CN107528755A (zh) * 2017-09-30 2017-12-29 百度在线网络技术(北京)有限公司 智能设备的控制方法、装置、设备和存储介质

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109448709A (zh) * 2018-10-16 2019-03-08 华为技术有限公司 一种终端投屏的控制方法和终端
CN109545206B (zh) * 2018-10-29 2024-01-30 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN109545206A (zh) * 2018-10-29 2019-03-29 百度在线网络技术(北京)有限公司 智能设备的语音交互处理方法、装置和智能设备
CN109215658A (zh) * 2018-11-30 2019-01-15 广东美的制冷设备有限公司 设备的语音唤醒方法、装置和家电设备
CN111261151A (zh) * 2018-12-03 2020-06-09 中移(杭州)信息技术有限公司 一种语音处理方法、装置、电子设备及存储介质
CN109545211A (zh) * 2018-12-07 2019-03-29 苏州思必驰信息科技有限公司 语音交互方法及系统
CN109360564A (zh) * 2018-12-10 2019-02-19 珠海格力电器股份有限公司 语言识别模式的选择方法及装置、家用电器
CN109686370A (zh) * 2018-12-24 2019-04-26 苏州思必驰信息科技有限公司 基于语音控制进行斗地主游戏的方法及装置
CN109364477A (zh) * 2018-12-24 2019-02-22 苏州思必驰信息科技有限公司 基于语音控制进行打麻将游戏的方法及装置
CN109524010A (zh) * 2018-12-24 2019-03-26 出门问问信息科技有限公司 一种语音控制方法、装置、设备及存储介质
CN109697980A (zh) * 2018-12-26 2019-04-30 与德科技有限公司 一种唤醒词的响应方法、装置、存储介质及智能音箱
CN109686372A (zh) * 2019-01-02 2019-04-26 百度在线网络技术(北京)有限公司 资源播放控制方法和装置
CN109859752A (zh) * 2019-01-02 2019-06-07 珠海格力电器股份有限公司 一种语音控制方法、装置、存储介质及语音联控系统
CN109686372B (zh) * 2019-01-02 2022-02-22 百度在线网络技术(北京)有限公司 资源播放控制方法和装置
US11205431B2 (en) 2019-01-02 2021-12-21 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for presenting state of voice interaction device, and storage medium
CN109830232A (zh) * 2019-01-11 2019-05-31 北京猎户星空科技有限公司 人机交互方法、装置和存储介质
CN110060681A (zh) * 2019-04-26 2019-07-26 广东昇辉电子控股有限公司 具有智能语音识别功能的智能网关的控制方法
CN112017651A (zh) * 2019-05-31 2020-12-01 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
CN110310628A (zh) * 2019-06-27 2019-10-08 百度在线网络技术(北京)有限公司 唤醒模型的优化方法、装置、设备及存储介质
CN111081217B (zh) * 2019-12-03 2021-06-04 珠海格力电器股份有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN111081217A (zh) * 2019-12-03 2020-04-28 珠海格力电器股份有限公司 一种语音唤醒方法、装置、电子设备及存储介质
CN111028846B (zh) * 2019-12-25 2022-08-16 北京梧桐车联科技有限责任公司 免唤醒词注册的方法和装置
CN111028846A (zh) * 2019-12-25 2020-04-17 北京梧桐车联科技有限责任公司 免唤醒词注册的方法和装置
CN111369992A (zh) * 2020-02-27 2020-07-03 Oppo(重庆)智能科技有限公司 指令执行方法、装置、存储介质及电子设备
CN111681655A (zh) * 2020-05-21 2020-09-18 北京声智科技有限公司 语音控制方法、装置、电子设备及存储介质
CN111968631A (zh) * 2020-06-29 2020-11-20 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、设备及存储介质
CN111968631B (zh) * 2020-06-29 2023-10-10 百度在线网络技术(北京)有限公司 智能设备的交互方法、装置、设备及存储介质
CN112201246A (zh) * 2020-11-19 2021-01-08 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112201246B (zh) * 2020-11-19 2023-11-28 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN112614487A (zh) * 2020-12-09 2021-04-06 国网冀北电力有限公司 一种基于语音对话的调控保电辅助机器人交互方法
CN112882394A (zh) * 2021-01-12 2021-06-01 北京小米松果电子有限公司 设备控制方法、控制装置及可读存储介质
CN113380246A (zh) * 2021-06-08 2021-09-10 阿波罗智联(北京)科技有限公司 指令执行方法、相关装置及计算机程序产品
US20230054011A1 (en) * 2021-08-20 2023-02-23 Beijing Xiaomi Mobile Software Co., Ltd. Voice collaborative awakening method and apparatus, electronic device and storage medium
CN114090166A (zh) * 2021-11-29 2022-02-25 云知声智能科技股份有限公司 一种交互的方法和装置

Also Published As

Publication number Publication date
CN108520743B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN108520743A (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
CN108133707B (zh) 一种内容分享方法及系统
CN107134279A (zh) 一种语音唤醒方法、装置、终端和存储介质
CN107340991A (zh) 语音角色的切换方法、装置、设备以及存储介质
CN108958810A (zh) 一种基于声纹的用户识别方法、装置及设备
US10811005B2 (en) Adapting voice input processing based on voice input characteristics
WO2020029500A1 (zh) 语音命令定制方法、装置和设备及计算机存储介质
CN108597509A (zh) 智能语音交互实现方法、装置、计算机设备及存储介质
CN106356059A (zh) 语音控制方法、装置及投影仪设备
JP7158217B2 (ja) 音声認識方法、装置及びサーバ
JP6814871B2 (ja) 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
CN107545029A (zh) 智能设备的语音反馈方法、设备及可读介质
WO2020233363A1 (zh) 语音识别的方法、装置、电子设备和存储介质
WO2019228138A1 (zh) 音乐播放方法、装置、存储介质及电子设备
CN109215646A (zh) 语音交互处理方法、装置、计算机设备及存储介质
US10714087B2 (en) Speech control for complex commands
CN205451551U (zh) 一种语音识别驱动的增强现实人机交互视频语言学习系统
JP7152384B2 (ja) 電子デバイスの音声制御方法、電子デバイスの音声制御装置、コンピュータ機器及び記憶媒体
CN104427125A (zh) 一种接听来电的方法及移动终端
WO2020199963A1 (zh) 点餐机器人对用户的点餐意图进行识别的方法及机器人
WO2019228140A1 (zh) 指令执行方法、装置、存储介质及电子设备
KR102584324B1 (ko) 음성 인식 서비스 제공 방법 및 이를 위한 장치
WO2023206928A1 (zh) 语音处理方法、装置、计算机设备及计算机可读存储介质
US11580974B2 (en) Method for exiting a voice skill, apparatus, device and storage medium
CN109243424A (zh) 一种一键语音翻译终端及翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210508

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Patentee after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right