CN109545206B - 智能设备的语音交互处理方法、装置和智能设备 - Google Patents

智能设备的语音交互处理方法、装置和智能设备 Download PDF

Info

Publication number
CN109545206B
CN109545206B CN201811268757.3A CN201811268757A CN109545206B CN 109545206 B CN109545206 B CN 109545206B CN 201811268757 A CN201811268757 A CN 201811268757A CN 109545206 B CN109545206 B CN 109545206B
Authority
CN
China
Prior art keywords
user
voice
intelligent equipment
intelligent
operation result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811268757.3A
Other languages
English (en)
Other versions
CN109545206A (zh
Inventor
蒋絮霏
张刚
李晓男
鞠强
罗兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811268757.3A priority Critical patent/CN109545206B/zh
Publication of CN109545206A publication Critical patent/CN109545206A/zh
Application granted granted Critical
Publication of CN109545206B publication Critical patent/CN109545206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提供一种智能设备的语音交互处理方法、装置和智能设备,其中,方法包括:在智能设备被唤醒后,接收用户输入的第一语音指令;若根据第一语音指令确定用户与智能设备之间需要继续进行语音交互,则控制智能设备启动免唤醒功能,以实现用户与智能设备之间的连续语音交互。在用户与智能设备之间需要连续语音交互的场景中,通过开启免唤醒功能,避免了用户每次唤醒智能设备的重复操作,提升了用户体验。

Description

智能设备的语音交互处理方法、装置和智能设备
技术领域
本发明涉及人工智能技术领域,尤其涉及一种智能设备的语音交互处理方法、装置和智能设备。
背景技术
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。例如,智能音箱。
智能音箱通常包括显示屏和音箱两部分。音箱包括多个麦克或者麦克风矩阵,用于收集语音指令。智能音箱在语音交互的基础上,可以根据语音指令实现讲故事、观影、听歌、视频通话、地图搜索、照片相册显示、控制其他智能家居设备等多种互动场景下的服务,满足用户的需求。例如,用户发出语音指令“听音乐”。智能音箱获取到该语音指令后,可以播放音乐,并在显示屏上显示音乐播放界面。
目前,智能音箱在语音交互的过程中,通常采用“一问一答”的方式。用户每次发出语音指令之前,必须要唤醒设备,从而完成语音需求的输入,得要答案的满足。但是,“一问一答”式的唤醒模式,导致用户输入语音指令的操作复杂、冗余,不便于智能音箱与用户的沟通。
发明内容
本发明提供一种智能设备的语音交互处理方法、装置和智能设备,避免了用户频繁唤醒智能设备的重复操作,简化了语音交互流程,提升了用户与智能设备之间语音交互的用户体验。
第一方面,本发明提供一种智能设备的语音交互处理方法,包括:
在智能设备被唤醒后,接收用户输入的第一语音指令;
若根据所述第一语音指令确定所述用户与所述智能设备之间需要继续进行语音交互,则控制所述智能设备启动免唤醒功能,以实现所述用户与所述智能设备之间的连续语音交互。
可选的,在第一方面的一种可能的实施方式中,所述控制所述智能设备启动免唤醒功能,包括:
若根据所述第一语音指令无法获得业务运行结果,则控制所述智能设备启动对应的免唤醒功能;或者,
若根据所述第一语音指令获得业务运行结果,则输出所述业务运行结果,并控制所述智能设备启动对应的免唤醒功能。
可选的,在第一方面的一种可能的实施方式中,控制所述智能设备启动免唤醒功能,包括:
若根据所述第一语音指令生成提示信息,则输出所述提示信息,并控制所述智能设备进入监听状态;所述提示信息用于引导用户继续输入第二语音指令;
或者,若根据所述第一语音指令确定所述用户将继续输入第二语音指令,则控制所述智能设备进入监听状态。
可选的,在第一方面的一种可能的实施方式中,所述控制所述智能设备进入监听状态,包括:
启动定时器,以接收所述用户继续输入的所述第二语音指令。
可选的,在第一方面的一种可能的实施方式中,在根据所述第一语音指令无法获得业务运行结果的第一应用场景中,和在根据所述第一语音指令获得业务运行结果的第二应用场景中,下列中的至少一项不同:
输出所述提示信息的方式;
所述智能设备进入监听状态后显示屏显示的动画效果;
所述定时器的时长。
可选的,在第一方面的一种可能的实施方式中,还包括:
若在所述定时器超时之前未接收到所述用户继续输入的所述第二语音指令,则控制所述智能设备关闭所述免唤醒功能。
可选的,在第一方面的一种可能的实施方式中,还包括:
若在所述定时器超时之前接收到所述用户继续输入的所述第二语音指令,且所述第一语音指令与所述第二语音指令分别对应的业务不同,则控制所述智能设备关闭所述免唤醒功能。
可选的,在第一方面的一种可能的实施方式中,还包括:
从所述用户输入的所述第一语音指令开始,若根据用户连续输入的语音指令均无法获得业务运行结果的次数达到预设次数,则控制所述智能设备关闭所述免唤醒功能。
第二方面,本发明提供一种智能设备的语音交互处理装置,包括:
接收模块,用于在智能设备被唤醒后,接收用户输入的第一语音指令;
处理模块,用于若根据所述第一语音指令确定所述用户与所述智能设备之间需要继续进行语音交互,则控制所述智能设备启动免唤醒功能,以实现所述用户与所述智能设备之间的连续语音交互。
可选的,在第二方面的一种可能的实施方式中,所述处理模块具体用于:
若根据所述第一语音指令无法获得业务运行结果,则控制所述智能设备启动对应的免唤醒功能;或者,
若根据所述第一语音指令获得业务运行结果,则输出所述业务运行结果,并控制所述智能设备启动对应的免唤醒功能。
可选的,在第二方面的一种可能的实施方式中,所述处理模块具体用于:
若根据所述第一语音指令生成提示信息,则输出所述提示信息,并控制所述智能设备进入监听状态;所述提示信息用于引导用户继续输入第二语音指令;
或者,若根据所述第一语音指令确定所述用户将继续输入第二语音指令,则控制所述智能设备进入监听状态。
可选的,在第二方面的一种可能的实施方式中,所述处理模块具体用于:
启动定时器,以接收所述用户继续输入的所述第二语音指令。
可选的,在第二方面的一种可能的实施方式中,在根据所述第一语音指令无法获得业务运行结果的第一应用场景中,和在根据所述第一语音指令获得业务运行结果的第二应用场景中,下列中的至少一项不同:
输出所述提示信息的方式;
所述智能设备进入监听状态后显示屏显示的动画效果;
所述定时器的时长。
可选的,在第二方面的一种可能的实施方式中,所述处理模块还用于:
若在所述定时器超时之前未接收到所述用户继续输入的所述第二语音指令,则控制所述智能设备关闭所述免唤醒功能。
可选的,在第二方面的一种可能的实施方式中,所述处理模块还用于:
若在所述定时器超时之前接收到所述用户继续输入的所述第二语音指令,且所述第一语音指令与所述第二语音指令分别对应的业务不同,则控制所述智能设备关闭所述免唤醒功能。
可选的,在第二方面的一种可能的实施方式中,所述处理模块还用于:
从所述用户输入的所述第一语音指令开始,若根据用户连续输入的语音指令均无法获得业务运行结果的次数达到预设次数,则控制所述智能设备关闭所述免唤醒功能。
第三方面,本发明提供一种智能设备,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述存储器中存储的所述程序指令以实现本发明第一方面任一实施方式提供的智能设备的语音交互处理方法。
可选的,在第三方面的一种可能的实施方式中,所述智能设备为智能音箱。
第四方面,本发明提供一种存储介质,包括:可读存储介质和计算机程序,所述计算机程序用于实现本发明第一方面任一实施方式提供的智能设备的语音交互处理方法。
第五方面,本发明提供一种程序产品,该程序产品包括计算机程序(即执行指令),该计算机程序存储在可读存储介质中。处理器可以从可读存储介质读取该计算机程序,处理器执行该计算机程序用于执行本发明第一方面任一实施方式提供的智能设备的语音交互处理方法。
本发明提供一种智能设备的语音交互处理方法、装置和智能设备,包括:在智能设备被唤醒后,接收用户输入的第一语音指令,若根据第一语音指令确定用户与智能设备之间需要继续进行语音交互,则控制智能设备启动免唤醒功能,以实现用户与智能设备之间的连续语音交互。通过开启免唤醒功能,避免了用户输入语音指令时每次都需要唤醒智能设备的重复的、冗余的操作,简化了语音交互流程,提升了用户与智能设备之间语音交互的用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明适用的智能音箱的结构示意图;
图2为本发明实施例提供的智能设备的语音交互处理方法的流程图;
图3为本发明实施例提供的智能设备的语音交互处理方法的应用场景示意图;
图4为本发明实施例提供的智能音箱的显示屏的一种界面显示图;
图5为本发明实施例提供的智能音箱的显示屏的另一种界面显示图;
图6为本发明实施例提供的智能设备的语音交互处理装置的结构示意图;
图7为本发明实施例提供的智能设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的智能设备的语音交互处理方法,可以适用于具有语音交互功能的智能设备。本发明对于智能设备的类型不做限定。示例性的,本发明中的各个实施例均以智能设备为智能音箱为例进行示例性说明。
图1为本发明适用的智能音箱的结构示意图。如图1所示,智能音箱100可以包括外壳11,设置在外壳11上的显示屏12,设置在外壳11内部的处理器、存储器、声音采集装置、声音发出装置和收发器(均未示出)等。声音采集装置用于获取用户输入的语音信号。从而,处理器可以对语音信号进行处理,并通过显示屏12和/或声音发出装置输出业务运行结果,从而为用户提供相应的服务。例如,用户询问“今天的天气”。智能音箱获取相应的语音信号,可以将天气信息显示在显示屏12上,展示给用户。或者,通过声音发出装置播报今天的天气情况。其中,收发器用于与其他设备进行通信。例如,智能音箱100可以通过收发器与业务服务器或者云服务器实现通信。
可选的,显示屏12可以为触摸显示屏。
可选的,声音采集装置可以为麦克风阵列或者多个麦克风。
可选的,声音发出装置可以包括至少一个喇叭。外壳11上与喇叭对应的位置可以设置有放音孔13。
可选的,外壳11上还可以设置有摄像头14,用于脸部识别、视频通话等。
需要说明的是,本发明对于智能音箱的形状、外壳11的材质、外壳11内部设置的各个装置或者模块的类型、型号和实现方式不做限定。
图2为本发明实施例提供的智能设备的语音交互处理方法的流程图。本实施例提供的智能设备的语音交互处理方法,执行主体可以为智能设备的语音交互处理装置或者智能设备。如图2所示,本实施例提供的智能设备的语音交互处理方法,可以包括:
S201、在智能设备被唤醒后,接收用户输入的第一语音指令。
具体的,用户与智能音箱进行首次语音交互时,需要先唤醒智能音箱。本实施例对于如何唤醒智能音箱的方式不做限定,根据智能音箱的不同可以有所不同。比如,智能音箱的唤醒词语为“小度小度”。当用户说出“小度小度”时,智能音箱被唤醒。智能音箱处于被唤醒状态时,用户可以输入语音指令。相应的,在智能音箱被唤醒后,可以接收用户输入的语音指令。
需要说明的是,在本申请实施例中,为了区分不同的语音指令,用户在前输入的语音指令可以称为第一语音指令,用户后续继续输入的语音指令可以称为第二语音指令。
S202、若根据第一语音指令确定用户与智能设备之间需要继续进行语音交互,则控制智能设备启动免唤醒功能,以实现用户与智能设备之间的连续语音交互。
具体的,在一些场景中,用户与智能音箱之间在短期内可能会存在连续的语音交互。当根据第一语音指令可以确定用户与智能音箱之间将进行连续的语音交互时,可以控制智能音箱启动免唤醒功能。所谓免唤醒功能,是指用户每次输入语音指令时不需要每次都唤醒智能音箱,而是在唤醒智能音箱之后,可以连续的输入语音指令的功能。
可见,本实施例提供的智能设备的语音交互处理方法,在用户与智能设备之间需要进行连续的语音交互时,通过开启免唤醒功能,避免了用户输入语音指令时每次都需要唤醒智能设备的重复的、冗余的操作,简化了语音交互流程,提升了用户与智能设备之间语音交互的用户体验。
下面结合图3对本申请实施例涉及的应用场景进行说明。图3为本发明实施例提供的智能设备的语音交互处理方法的应用场景示意图。
可选的,在一种应用场景中,S202中,控制智能设备启动免唤醒功能,可以包括:
若根据第一语音指令无法获得业务运行结果,则控制智能设备启动对应的免唤醒功能。
具体的,该种应用场景可以称为第一应用场景或者强势多轮交互应用场景。在该应用场景中,根据第一语音指令无法获得业务运行结果,用户想要达到的目的没有完成。必须要进一步澄清意图才能够有正确的业务运行结果输出。
下面通过具体示例进行说明。
示例一、闹钟提醒多轮填槽。
所谓“填槽”,是指为了让用户意图转换为用户明确的指令而补全信息的过程。
假设,用户输入的第一语音指令为“我要设置一个闹钟”。智能音箱接收后,由于槽位不明确,无法给出响应。智能音箱在设置闹钟时,还需要获得槽位“闹钟设置时间”。可选的,还需要获得槽位“闹钟重复次数”、“闹钟重复间隔时间”、“闹钟提示语音”,等等。因此,当根据第一语音指令“我要设置一个闹钟”无法成功设置闹钟时,可以控制智能音箱启动该场景对应的免唤醒功能,以通过用户与智能音箱之间的多轮语音交互,最终可以为用户设置一个准确的闹钟。
示例二、多意图澄清。
假设,用户输入的第一语音指令为“我要听”。智能音箱接收后,由于“听”的意图太多,比如,“听音乐”、“听故事”、“听相声”等,导致无法给出响应。因此,可以控制智能音箱启动该场景对应的免唤醒功能,以通过用户与智能音箱之间的多轮语音交互,最终明确用户的意图,达到用户想要的目的。
可选的,在另一种应用场景中,S202中,控制智能音箱启动免唤醒功能,可以包括:
若根据第一语音指令获得业务运行结果,则输出业务运行结果,并控制智能音箱启动对应的免唤醒功能。
具体的,该种应用场景可以称为第二应用场景或者弱势多轮交互应用场景。在该应用场景中,根据第一语音指令可以获得业务运行结果,并通过智能音箱的显示屏和/或声音发出装置输出业务运行结果。但是,基于当前的业务运行结果,用户与智能音箱之间绝大概率会有连续的语音交互。在该种场景中,智能音箱可以基于当前的业务运行结果,猜测用户可能的意图。
下面通过具体示例进行说明。
示例三、列表页。
假设,用户输入的第一语音指令为“我要看电视剧”。智能音箱接收后,可以通过列表页向用户推送电视剧列表。但是,由于列表页中包括的电视剧很多,因此,可以控制智能音箱启动该场景对应的免唤醒功能,以通过用户与智能音箱之间的多轮语音交互,最终明确用户的意图,为用户播放用户想看的电视剧。
示例四、Q到Q’。
假设,用户输入的第一语音指令为“我要听XX(歌手名)的A(歌曲名)”。智能音箱接收后,通过歌手名XX和歌曲名A进行搜索。获得的业务运行结果包括:XX(歌手名)的A’(歌曲名),以及XX’(歌手名)的A(歌曲名)。智能音箱可以将上述歌手和歌曲名输出给用户。由于用户输入的信息与业务运行结果存在偏差,因此,可以控制智能音箱启动该场景对应的免唤醒功能,以通过用户与智能音箱之间的多轮语音交互,最终明确用户输入的歌手名和歌曲名,为用户播放用户想听的歌曲。
示例五、槽位补齐
假设,用户输入的第一语音指令为“我要看”。智能音箱接收后,可以获得业务运行结果。该业务运行结果包括可以看的各种选项,例如,看电视、看视频、看小说,等。但是,由于槽位不明确,因此,可以控制智能音箱启动该场景对应的免唤醒功能,以通过用户与智能音箱之间的多轮语音交互,最终播放用户要看的内容。
下面对本申请实施例中涉及的如何控制智能设备启动免唤醒功能进行说明。需要说明的是,在上述强势多轮交互应用场景和弱势多轮交互应用场景中,实现原理相似,仅是对应的相关参数不同。
可选的,在一种实现方式中,S202中,控制智能设备启动免唤醒功能,可以包括:
若根据第一语音指令生成提示信息,则输出提示信息,并控制智能设备进入监听状态。提示信息用于引导用户继续输入第二语音指令。
具体的,在该种实现方式中,智能音箱接收用户输入的第一语音指令后,可以通过输出提示信息主动引导用户继续输入第二语音指令,从而完成用户与智能音箱之间的多轮语音交互,提升了语音交互的灵活性和准确性,提升了用户感受。
需要说明的是,本实施例对于提示信息的实现方式不做限定。可选的,提示信息可以为语音信息,也可以为在显示屏上显示的显示信息。
可选的,在另一种实现方式中,S202中,控制智能设备启动免唤醒功能,可以包括:
若根据第一语音指令确定用户将继续输入第二语音指令,则控制智能设备进入监听状态。
具体的,在该种实现方式中,智能音箱接收用户输入的第一语音指令后,可以等待用户继续输入第二语音指令,从而完成用户与智能音箱之间的多轮语音交互。
可选的,控制智能设备进入监听状态,可以包括:
启动定时器,以接收用户继续输入的第二语音指令。
需要说明的是,本实施例对于定时器的具体取值不做限定,可以为预设值,也可以根据不同的业务以及不同业务的复杂度进行设置。
可选的,在根据第一语音指令获得业务运行结果的第一应用场景(强势多轮交互应用场景)中,和在根据第一语音指令无法获得业务运行结果的第二应用场景(弱势多轮交互应用场景)中,下列中的至少一项不同:
输出提示信息的方式。
智能设备进入监听状态后显示屏显示的动画效果。
定时器的时长。
其中,对于提示信息的输出方式,根据提示信息类型的不同可以不同。可选的,当提示信息为语音信息时,可以通过智能音箱的声音发出装置播放所述提示信息。可选的,提示信息可以通过智能音箱的显示屏进行显示。对于智能音箱进入监听状态后显示屏显示的动画效果,可以保持不变,也可以发生变化。本实施例对于发生变化的动画效果不做限定。例如,显示屏显示的明暗程度发生变化,显示屏显示的背景图案发生变化,等等。
可选的,在第一应用场景中,输出提示信息的方式为在智能设备的显示屏上显示提示信息。在第二应用场景中,输出提示信息的方式为控制智能设备的播放装置播放提示信息。
可选的,在第一应用场景中,智能设备进入监听状态时显示屏显示的动画效果保持不变。在第二应用场景中,智能设备进入监听状态时显示屏显示的动画效果可变。
可选的,第一应用场景对应的定时器的时长小于第二应用场景对应的定时器的时长。
下面通过具体示例进行详细说明。
可选的,在一个示例中,涉及强势多轮交互应用场景,以上述示例一为例进行说明。
用户输入第一语音指令“我要设置一个闹钟”之后,智能音箱无法获得业务运行结果。智能音箱生成文字形式的提示信息“我可能听错了,请您再说一遍”,并显示在显示屏12上,然后消失。可以参见图4的左侧部分和中间部分,图4为本发明提供的智能音箱的显示屏的一种界面显示图。之后,智能音箱进入监听状态,并启动定时器。在定时器超时之前,显示屏12的显示界面保持不变。可以参见图4的中间部分。
如果在定时器超时之前,接收到用户输入的第二语音指令,则可以针对第二语音指令重复执行上述针对第一语音指令的操作。
可选的,在另一个示例中,涉及弱势多轮交互应用场景,以上述示例三为例进行说明。
用户输入第一语音指令“我要看电视剧”。智能音箱接收后,可以通过显示屏12上显示的列表页向用户推送电视剧列表。可以参见图5的左侧部分,
图5为本发明实施例提供的智能音箱的显示屏的另一种界面显示图。在图5的左侧部分中,显示了4个电视剧名称,标号分别为1~4。同时,可以通过智能音箱的声音发出装置播放4个电视剧名称。当播报结束后,智能音箱确定用户将输入第二语音指令,则启动定时器进入监听状态。此时,显示屏显示的动画效果可以发生变化,例如,显示屏在明暗之间间隔变化。
如果在定时器超时之前,接收到用户输入的第二语音指令“下一页”,则可以针对第二语音指令重复执行上述针对第一语音指令的操作。可以参见图5的中间部分。在图5的中间部分中,显示了4个电视剧名称,标号分别为5~8。并可以进行下一轮的监听。
可选的,在另一个示例中,涉及弱势多轮交互应用场景,还以上述示例三结合图5为例进行说明。
用户输入第一语音指令“我要看电视剧”。智能音箱接收后,可以通过显示屏12上显示的列表页向用户推送电视剧列表。可以参见图5的左侧部分。智能音箱可以生成语音形式的提示信息“如果您要看第一个电视剧,请说,播放第一个”。
下面对本申请实施例涉及的如何关闭免唤醒功能进行说明。
可选的,本实施例提供的智能设备的语音交互处理方法,还可以包括:
若在定时器超时之前未接收到用户继续输入的第二语音指令,则控制智能设备关闭免唤醒功能。
具体的,当智能音箱进入监听状态时,会启动定时器。如果定时器超时仍未接收到用户输入的第二语音指令,则控制智能音箱关闭免唤醒功能。
结合图4的右侧部分进行说明。
如果定时器超时前,没有接收到用户输入的第二语音指令,则关闭免唤醒功能。此时,在显示屏12上可以显示“需要我的话,请叫我小度小度”,以提示用户智能音箱已经退出免唤醒功能。
可选的,本实施例提供的智能设备的语音交互处理方法,还可以包括:
若在定时器超时之前接收到用户继续输入的第二语音指令,且第一语音指令与第二语音指令分别对应的业务不同,则控制智能设备关闭免唤醒功能。
具体的,本实施例提供的智能音箱的语音交互处理方法,可以应用于短时间内用户与智能音箱之间需要进行多轮语音交互的场景。通常,短时间内,用户将针对一项业务发出语音指令。因此,当第一语音指令对应的业务与第二语音指令对应的业务不同时,例如,在选择歌曲时询问天气,则控制智能音箱退出免唤醒功能,提升免唤醒功能的有效性。
可选的,本实施例提供的智能设备的语音交互处理方法,还可以包括:
从用户输入的第一语音指令开始,若根据用户连续输入的语音指令均无法获得业务运行结果的次数达到预设次数,则控制智能设备关闭免唤醒功能。
具体的,智能音箱会根据用户输入的语音指令做出相应的反映。如果根据用户连续输入的语音指令均无法获得业务运行结果,则控制智能音箱退出免唤醒功能,提升免唤醒功能的有效性。
需要说明的是,本实施例对于预设次数的具体取值不做限定。例如,预设次数为2次。
可选的,本实施例提供的智能设备的语音交互处理方法,还可以包括:
若通过显示屏接收用户输入的触控指令,则控制智能设备关闭免唤醒功能。
具体的,在智能音箱开启免唤醒功能的过程中,如果用户通过显示屏输入触控指令,则可以根据该触控指令关闭免唤醒功能,提升了免唤醒功能设置的灵活性。
可选的,本实施例提供的智能设备的语音交互处理方法,在控制智能设备关闭免唤醒功能之后,还可以包括:
在智能设备被再次唤醒后,接收用户输入的第三语音指令。
具体的,可以参见图5的右侧部分。在智能音箱关闭免唤醒功能之后,用户想要输入语音指令,则需要重新唤醒智能音箱。在图5的右侧部分中,用户输入“小度小度,下一页”,通过“小度小度”重新唤醒智能音箱,此时,智能音箱可以接收用户输入的第三语音指令“下一页”,并在显示屏12上显示的列表页向用户推送电视剧列表,具体显示了标号为9~12的电视剧名称。
需要说明的是,本实施例提供的智能设备的语音交互处理方法,是重复循环的过程,针对用户每次输入的语音指令,均可以执行上述对第一语音指令的处理方法。
本实施例提供一种智能设备的语音交互处理方法,包括:在智能设备被唤醒后,接收用户输入的第一语音指令,若根据第一语音指令确定用户与智能设备之间需要继续进行语音交互,则控制智能设备启动免唤醒功能,以实现用户与智能设备之间的连续语音交互。本实施例提供的智能设备的语音交互处理方法,通过开启免唤醒功能,避免了用户输入语音指令时每次都需要唤醒智能设备的重复的、冗余的操作,简化了语音交互流程,提升了用户与智能设备之间语音交互的用户体验。
图6为本发明实施例提供的智能设备的语音交互处理装置的结构示意图。本实施例提供的智能设备的语音交互处理装置,用于执行图2~图5所示实施例提供的智能设备的语音交互处理方法。如图6所示,本实施例提供的智能设备的语音交互处理装置,可以包括:
接收模块61,用于在智能设备被唤醒后,接收用户输入的第一语音指令。
处理模块62,用于若根据第一语音指令确定用户与智能设备之间需要继续进行语音交互,则控制智能设备启动免唤醒功能,以实现用户与智能设备之间的连续语音交互。
可选的,处理模块62具体用于:
若根据第一语音指令无法获得业务运行结果,则控制智能设备启动对应的免唤醒功能。或者,
若根据第一语音指令获得业务运行结果,则输出业务运行结果,并控制智能设备启动对应的免唤醒功能。
可选的,处理模块62具体用于:
若根据第一语音指令生成提示信息,则输出提示信息,并控制智能设备进入监听状态。提示信息用于引导用户继续输入第二语音指令。
或者,若根据第一语音指令确定用户将继续输入第二语音指令,则控制智能设备进入监听状态。
可选的,处理模块62具体用于:
启动定时器,以接收用户继续输入的第二语音指令。
可选的,在根据第一语音指令无法获得业务运行结果的第一应用场景中,和在根据第一语音指令获得业务运行结果的第二应用场景中,下列中的至少一项不同:
输出提示信息的方式。
智能设备进入监听状态后显示屏显示的动画效果。
定时器的时长。
可选的,处理模块62还用于:
若在定时器超时之前未接收到用户继续输入的第二语音指令,则控制智能设备关闭免唤醒功能。
可选的,处理模块62还用于:
若在定时器超时之前接收到用户继续输入的第二语音指令,且第一语音指令与第二语音指令分别对应的业务不同,则控制智能设备关闭免唤醒功能。
可选的,处理模块62还用于:
从用户输入的第一语音指令开始,若根据用户连续输入的语音指令均无法获得业务运行结果的次数达到预设次数,则控制智能设备关闭免唤醒功能。
本实施例提供的智能设备的语音交互处理装置,用于执行图2~图5所示实施例提供的智能设备的语音交互处理方法,其技术原理和技术效果类似,此处不再赘述。
图7为本发明实施例提供的智能设备的结构示意图。如图7所示,所述智能设备可以包括处理器71和存储器72。所述存储器72用于存储指令,所述处理器71用于执行所述存储器72中存储的指令,以使所述智能设备执行图2~图5所示实施例提供的智能设备的语音交互处理方法,具体实现方式和技术效果类似,这里不再赘述。可选的,所述智能设备还可以包括:收发器73、显示屏74、声音采集装置75和声音发出装置76。所述收发器73用于和其他设备通信,例如业务服务器或者云服务器。
可选的,智能设备可以为智能音箱。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (15)

1.一种智能设备的语音交互处理方法,其特征在于,包括:
在智能设备被唤醒后,接收用户输入的第一语音指令;
若根据所述第一语音指令确定所述用户与所述智能设备之间需要继续进行语音交互,则控制所述智能设备启动免唤醒功能,以实现所述用户与所述智能设备之间的连续语音交互;
所述若根据所述第一语音指令确定所述用户与所述智能设备之间需要继续进行语音交互,则控制所述智能设备启动免唤醒功能,包括:
若根据所述第一语音指令表征的用户意图无法获得业务运行结果,则控制所述智能设备启动对应的免唤醒功能;或者,
若根据所述第一语音指令表征的用户意图可以获得业务运行结果,但基于获得的业务运行结果判定所述用户与所述智能设备之间会有连续的语音交互,则输出所述业务运行结果,并控制所述智能设备启动对应的免唤醒功能;
从所述用户输入的所述第一语音指令开始,若根据用户连续输入的语音指令均无法获得业务运行结果的次数达到预设次数,则控制所述智能设备关闭所述免唤醒功能;
根据所述第一语音指令表征的用户意图无法获得业务运行结果,包括:由于槽位不明确无法给出响应,所述槽位是使所述用户意图转换为明确的指令而须补全的信息;
基于获得的业务运行结果判定所述用户与所述智能设备之间会有连续的语音交互,包括:若所述业务运行结果与所述用户输入的信息存在偏差,则判定所述用户与所述智能设备之间会有连续的语音交互。
2.根据权利要求1所述的方法,其特征在于,控制所述智能设备启动免唤醒功能,包括:
若根据所述第一语音指令生成提示信息,则输出所述提示信息,并控制所述智能设备进入监听状态;所述提示信息用于引导用户继续输入第二语音指令;
或者,若根据所述第一语音指令确定所述用户将继续输入第二语音指令,则控制所述智能设备进入监听状态。
3.根据权利要求2所述的方法,其特征在于,所述控制所述智能设备进入监听状态,包括:
启动定时器,以接收所述用户继续输入的所述第二语音指令。
4.根据权利要求3所述的方法,其特征在于,在根据所述第一语音指令无法获得业务运行结果的第一应用场景中,和在根据所述第一语音指令获得业务运行结果的第二应用场景中,下列中的至少一项不同:
输出所述提示信息的方式;
所述智能设备进入监听状态后显示屏显示的动画效果;
所述定时器的时长。
5.根据权利要求3所述的方法,其特征在于,还包括:
若在所述定时器超时之前未接收到所述用户继续输入的所述第二语音指令,则控制所述智能设备关闭所述免唤醒功能。
6.根据权利要求3所述的方法,其特征在于,还包括:
若在所述定时器超时之前接收到所述用户继续输入的所述第二语音指令,且所述第一语音指令与所述第二语音指令分别对应的业务不同,则控制所述智能设备关闭所述免唤醒功能。
7.一种智能设备的语音交互处理装置,其特征在于,包括:
接收模块,用于在智能设备被唤醒后,接收用户输入的第一语音指令;
处理模块,用于若根据所述第一语音指令确定所述用户与所述智能设备之间需要继续进行语音交互,则控制所述智能设备启动免唤醒功能,以实现所述用户与所述智能设备之间的连续语音交互;
所述处理模块具体用于:
若根据所述第一语音指令表征的用户意图无法获得业务运行结果,则控制所述智能设备启动对应的免唤醒功能;或者,
若根据所述第一语音指令表征的用户意图可以获得业务运行结果,但基于获得的业务运行结果判定所述用户与所述智能设备之间会有连续的语音交互,则输出所述业务运行结果,并控制所述智能设备启动对应的免唤醒功能;
所述处理模块还用于:
从所述用户输入的所述第一语音指令开始,若根据用户连续输入的语音指令均无法获得业务运行结果的次数达到预设次数,则控制所述智能设备关闭所述免唤醒功能;
根据所述第一语音指令表征的用户意图无法获得业务运行结果,包括:由于槽位不明确无法给出响应,所述槽位是使所述用户意图转换为明确的指令而须补全的信息;
基于获得的业务运行结果判定所述用户与所述智能设备之间会有连续的语音交互,包括:若所述业务运行结果与所述用户输入的信息存在偏差,则判定所述用户与所述智能设备之间会有连续的语音交互。
8.根据权利要求7所述的装置,其特征在于,所述处理模块具体用于:
若根据所述第一语音指令生成提示信息,则输出所述提示信息,并控制所述智能设备进入监听状态;所述提示信息用于引导用户继续输入第二语音指令;
或者,若根据所述第一语音指令确定所述用户将继续输入第二语音指令,则控制所述智能设备进入监听状态。
9.根据权利要求8所述的装置,其特征在于,所述处理模块具体用于:
启动定时器,以接收所述用户继续输入的所述第二语音指令。
10.根据权利要求9所述的装置,其特征在于,在根据所述第一语音指令无法获得业务运行结果的第一应用场景中,和在根据所述第一语音指令获得业务运行结果的第二应用场景中,下列中的至少一项不同:
输出所述提示信息的方式;
所述智能设备进入监听状态后显示屏显示的动画效果;
所述定时器的时长。
11.根据权利要求9所述的装置,其特征在于,所述处理模块还用于:
若在所述定时器超时之前未接收到所述用户继续输入的所述第二语音指令,则控制所述智能设备关闭所述免唤醒功能。
12.根据权利要求9所述的装置,其特征在于,所述处理模块还用于:
若在所述定时器超时之前接收到所述用户继续输入的所述第二语音指令,且所述第一语音指令与所述第二语音指令分别对应的业务不同,则控制所述智能设备关闭所述免唤醒功能。
13.一种智能设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述存储器中存储的所述程序指令以实现如权利要求1-6中任一项所述的智能设备的语音交互处理方法。
14.根据权利要求13所述的智能设备,其特征在于,所述智能设备为智能音箱。
15.一种存储介质,其特征在于,包括:可读存储介质和计算机程序,所述计算机程序用于实现如权利要求1-6中任一项所述的智能设备的语音交互处理方法。
CN201811268757.3A 2018-10-29 2018-10-29 智能设备的语音交互处理方法、装置和智能设备 Active CN109545206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811268757.3A CN109545206B (zh) 2018-10-29 2018-10-29 智能设备的语音交互处理方法、装置和智能设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811268757.3A CN109545206B (zh) 2018-10-29 2018-10-29 智能设备的语音交互处理方法、装置和智能设备

Publications (2)

Publication Number Publication Date
CN109545206A CN109545206A (zh) 2019-03-29
CN109545206B true CN109545206B (zh) 2024-01-30

Family

ID=65845276

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811268757.3A Active CN109545206B (zh) 2018-10-29 2018-10-29 智能设备的语音交互处理方法、装置和智能设备

Country Status (1)

Country Link
CN (1) CN109545206B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110160551B (zh) * 2019-05-14 2021-09-24 深兰科技(上海)有限公司 一种导航方法及装置
CN112017651B (zh) * 2019-05-31 2024-06-04 百度在线网络技术(北京)有限公司 电子设备的语音控制方法、装置、计算机设备和存储介质
CN110413250B (zh) * 2019-06-14 2021-06-01 华为技术有限公司 一种语音交互方法、装置及系统
CN112397062A (zh) 2019-08-15 2021-02-23 华为技术有限公司 语音交互方法、装置、终端及存储介质
CN110619873A (zh) * 2019-08-16 2019-12-27 北京小米移动软件有限公司 音频处理方法、装置及存储介质
CN110737335B (zh) * 2019-10-11 2021-03-23 深圳追一科技有限公司 机器人的交互方法、装置、电子设备及存储介质
CN110751948A (zh) * 2019-10-18 2020-02-04 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及语音设备
CN110794741B (zh) * 2019-11-18 2021-05-18 北京蓦然认知科技有限公司 一种智能控制配置的控制方法、装置、智能设备及计算机可读存储介质
CN113393834B (zh) * 2020-03-11 2024-04-16 阿里巴巴集团控股有限公司 一种控制方法及装置
JP2021148817A (ja) * 2020-03-16 2021-09-27 本田技研工業株式会社 車両制御システム、車両制御方法、及び、車両制御用プログラム
CN112233670A (zh) * 2020-08-28 2021-01-15 福州智象信息技术有限公司 一种基于alexa云服务的语音交互方法及系统
CN112201246B (zh) * 2020-11-19 2023-11-28 深圳市欧瑞博科技股份有限公司 基于语音的智能控制方法、装置、电子设备及存储介质
CN117292687B (zh) * 2023-11-24 2024-04-05 荣耀终端有限公司 语音交互方法、装置、芯片、电子设备及介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789176A (zh) * 2012-07-04 2012-11-21 北京捷通华声语音技术有限公司 一种家电终端控制方法和系统
CN106875945A (zh) * 2017-03-09 2017-06-20 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN107145329A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 设备控制方法、装置及智能设备
CN107146612A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 语音引导方法、装置、智能设备及服务器
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
CN107895578A (zh) * 2017-11-15 2018-04-10 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN108182943A (zh) * 2017-12-29 2018-06-19 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
WO2018131775A1 (ko) * 2017-01-13 2018-07-19 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789176A (zh) * 2012-07-04 2012-11-21 北京捷通华声语音技术有限公司 一种家电终端控制方法和系统
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
WO2018131775A1 (ko) * 2017-01-13 2018-07-19 삼성전자주식회사 전자 장치 및 그의 동작 방법
CN106875945A (zh) * 2017-03-09 2017-06-20 广东美的制冷设备有限公司 语音控制方法、装置和空调器
CN107145329A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 设备控制方法、装置及智能设备
CN107146612A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 语音引导方法、装置、智能设备及服务器
CN107895578A (zh) * 2017-11-15 2018-04-10 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN108182943A (zh) * 2017-12-29 2018-06-19 北京奇艺世纪科技有限公司 一种智能设备控制方法、装置及智能设备
CN108520743A (zh) * 2018-02-02 2018-09-11 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质

Also Published As

Publication number Publication date
CN109545206A (zh) 2019-03-29

Similar Documents

Publication Publication Date Title
CN109545206B (zh) 智能设备的语音交互处理方法、装置和智能设备
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
EP3680896B1 (en) Method for controlling terminal by voice, terminal, server and storage medium
EP4346218A1 (en) Audio processing method and apparatus, and electronic device and storage medium
JP2020149038A (ja) デバイスをウェイクアップするための方法及び装置
JP7204804B2 (ja) スマートバックミラーのインタラクション方法、装置、電子機器及び記憶媒体
CN105721904B (zh) 显示装置和控制显示装置的内容输出的方法
CN113672748A (zh) 多媒体信息播放方法及装置
CN112511877B (zh) 一种智能电视语音连续对话及交互的方法
EP3407096B1 (en) Method and device for determining descriptive information of precipitation trend, and readable storage medium
WO2024037480A1 (zh) 交互方法、装置、电子设备和存储介质
CN116320642B (zh) 多媒体资源的播放方法、装置、终端及存储介质
CN109658924B (zh) 会话消息处理方法、装置及智能设备
CN109903762B (zh) 一种语音控制方法、装置、存储介质及语音设备
CN111161734A (zh) 基于指定场景的语音交互方法及装置
CN111063349A (zh) 基于人工智能语音的按键查询方法及装置
CN110012359A (zh) 答案提示方法及装置
EP3955099A1 (en) Method and device for controlling the operation mode of a terminal device, and storage medium
EP3823238A1 (en) Method and apparatus for controlling devices and storage medium
CN115424623A (zh) 语音交互方法、装置、设备及计算机可读存储介质
CN109348353B (zh) 智能音箱的服务处理方法、装置和智能音箱
KR20200092464A (ko) 전자 장치 및 이를 이용하는 어시스턴트 서비스를 제공하는 방법
CN110225380B (zh) 电视桌面的显示方法和装置
CN104519394B (zh) 节目播放方法及装置
CN117809642A (zh) 一种显示设备及唤醒提示音的音量调整方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210518

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BAIDU ONLINE NETWORK TECHNOLOGY (BEIJING) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant