CN109658924B - 会话消息处理方法、装置及智能设备 - Google Patents

会话消息处理方法、装置及智能设备 Download PDF

Info

Publication number
CN109658924B
CN109658924B CN201811265443.8A CN201811265443A CN109658924B CN 109658924 B CN109658924 B CN 109658924B CN 201811265443 A CN201811265443 A CN 201811265443A CN 109658924 B CN109658924 B CN 109658924B
Authority
CN
China
Prior art keywords
state
time
user
voice
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811265443.8A
Other languages
English (en)
Other versions
CN109658924A (zh
Inventor
蒋絮霏
张刚
李晓男
鞠强
罗兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811265443.8A priority Critical patent/CN109658924B/zh
Publication of CN109658924A publication Critical patent/CN109658924A/zh
Application granted granted Critical
Publication of CN109658924B publication Critical patent/CN109658924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/61Network streaming of media packets for supporting one-way streaming services, e.g. Internet radio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Abstract

本发明实施例提供一种会话消息处理方法、装置及智能设备,该方法包括:智能设备在第一状态下,在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息;根据所述会话消息,输出会话响应。该方法使得用户在不说出固定的唤醒语音时也可以直接向智能设备发出语音指令,并获取到智能设备对于该语音指令的处理结果,从而避免用户频繁说出唤醒语音所产生的反感情绪,极大提升用户的体验。

Description

会话消息处理方法、装置及智能设备
技术领域
本发明实施例涉及计算机技术,尤其涉及一种会话消息处理方法、装置及智能设备。
背景技术
随着人工智能技术的不断发展,出现了越来越多的可以应用在各种领域的人工智能设备。例如,在家居生活领域,出现了智能音箱、智能灯泡、智能扫地机等。这些人工智能设备能够通过与用户的简单交互分析出用户的意图,并根据用户的意图为用户提供相应的服务。
现有技术中,用户可以通过语音向人工智能设备发出指令,人工智能设备对用户的语音进行解析,并根据解析结果为用户提供相应的服务。用户在发出语音指令之前,需要说出特定的语音内容以唤醒人工智能设备。
但是,现有技术的方法需要用户频繁说出特定的语音内容,可能导致用户的体验不佳。
发明内容
本发明实施例提供一种会话消息处理方法、装置及智能设备,用于解决现有技术中需要用户频繁说出特定的语音内容导致的用户体验不佳的问题。
本发明实施例第一方面提供一种会话消息处理方法,应用于智能设备,包括:
智能设备在第一状态下,在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息;
根据所述会话消息,输出会话响应。
进一步的,所述在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息之前,还包括:
确定所述智能设备是否满足第一条件,若是,则将所述智能设备的状态从第二状态切换为所述第一状态,其中,在所述第二状态下,所述智能设备在接收到所述预设的唤醒指令后,识别用户语音输入的会话消息;
所述第一条件包括:
所述智能设备未播放媒体数据,所述媒体数据包括音频数据。
进一步的,还包括:
确定所述智能设备是否满足第二条件中的任意一个,若是,则将所述智能设备的状态从所述第一状态切换为所述第二状态;
所述第二条件包括:
在第一时刻与第二时刻之间的任意时刻,所述智能设备均未接收到用户语音输入的会话消息,所述第一时刻为所述智能设备切换至所述第一状态的时刻,所述第二时刻为所述第一时刻之后的时刻,所述第二时刻与所述第一时刻间隔预设时长;
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的所述唤醒指令;
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的会话消息,并且所述会话消息的置信度低于预设的置信度。
进一步的,所述媒体数据还包括视频数据;
所述第一条件还包括:
所述智能设备在显示文本时所播放的所述文本对应的语音已播放完毕;
所述第二条件还包括:
在所述第一时刻与第二时刻之间,所述智能设备接收到用户通过点击所述智能设备的屏幕所发出的暂停指令。
进一步的,还包括:
若所述智能设备的当前状态为所述第一状态,则在所述智能设备的屏幕的第一预设位置显示第一图标,所述第一图标用于指示所述智能设备处于所述第一状态。
进一步的,还包括:
若所述智能设备的当前状态为所述第一状态,则不在所述智能设备的屏幕的第二预设位置上显示所述预设的唤醒指令对应的文本信息。
进一步的,还包括:
若所述智能设备的当前状态为所述第一状态,则在接收到用户语音输入的会话消息时,在当前显示页面显示预设信息或查询结果信息,所述当前显示页面上不包括蒙层。
进一步的,所述智能设备为智能音箱。
本发明实施例第二方面提供一种会话消息处理装置,应用于智能设备,包括:
识别模块,用于当智能设备在第一状态下,在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息;
输出模块,用于根据所述会话消息,输出会话响应。
进一步的,还包括:
第一确定模块,用于确定所述智能设备是否满足第一条件,若是,则将所述智能设备的状态从第二状态切换为所述第一状态,其中,在所述第二状态下,所述智能设备在接收到所述预设的唤醒指令后,识别用户语音输入的会话消息;
所述第一条件包括:
所述智能设备未播放媒体数据,所述媒体数据包括音频数据。
进一步的,还包括:
第二确定模块,用于确定所述智能设备是否满足第二条件中的任意一个,若是,则将所述智能设备的状态从所述第一状态切换为所述第二状态;
所述第二条件包括:
在第一时刻与第二时刻之间的任意时刻,所述智能设备均未接收到用户语音输入的会话消息,所述第一时刻为所述智能设备切换至所述第一状态的时刻,所述第二时刻为所述第一时刻之后的时刻,所述第二时刻与所述第一时刻间隔预设时长;
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的所述唤醒指令;
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的会话消息,并且所述会话消息的置信度低于预设的置信度。
进一步的,所述媒体数据还包括视频数据;
所述第一条件还包括:
所述智能设备在显示文本时所播放的所述文本对应的语音已播放完毕;
所述第二条件还包括:
在所述第一时刻与第二时刻之间,所述智能设备接收到用户通过点击所述智能设备的屏幕所发出的暂停指令。
进一步的,还包括:
显示模块,用于在所述智能设备的当前状态为所述第一状态时,在所述智能设备的屏幕的第一预设位置显示第一图标,所述第一图标用于指示所述智能设备处于所述第一状态。
进一步的,还包括:
第一隐藏模块,用于在所述智能设备的当前状态为所述第一状态时,不在所述智能设备的屏幕的第二预设位置上显示所述预设的唤醒指令对应的文本信息。
进一步的,还包括:
第二隐藏模块,用于在所述智能设备的当前状态为所述第一状态时,在接收到用户语音输入的会话消息时,在当前显示页面显示预设信息或查询结果信息,所述当前显示页面上不包括蒙层。
进一步的,所述智能设备为智能音箱。
本发明实施例第三方面提供一种智能设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行上述第一方面所述的方法步骤。
本发明实施例第四方面提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行上述第一方面所述的方法。
本发明实施例所提供的会话消息处理方法、装置及智能设备,在智能设备处于特定的第一状态时,智能设备在未接收到用户语音输入的唤醒指令时,可以识别用户语音输入的会话消息,并输出针对该会话消息的会话响应。从而使得用户在不说出固定的唤醒语音时也可以直接向智能设备发出语音指令,并获取到智能设备对于该语音指令的处理结果,从而避免用户频繁说出唤醒语音所产生的反感情绪,极大提升用户的体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的语音信息处理方法所涉及的一种示例性系统架构图;
图2为本发明实施例提供的会话消息处理方法的流程示意图;
图3为本发明实施例提供的一种会话消息处理装置的模块结构图;
图4为本发明实施例提供的一种会话消息处理装置的模块结构图;
图5为本发明实施例提供的一种会话消息处理装置的模块结构图;
图6为本发明实施例提供的一种会话消息处理装置的模块结构图;
图7为本发明实施例提供的一种会话消息处理装置的模块结构图;
图8为本发明实施例提供的一种会话消息处理装置的模块结构图;
图9为本发明实施例提供的一种智能设备的实体框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有技术中,用户在向智能设备发出语音指令之前,需要说出特定的语音内容以唤醒人工智能设备。示例性的,用户希望使用智能音箱查询天气情况,该智能音箱支持视频通话、音视频播放以及信息查询功能,用户需要首先向智能音箱说出“小度小度”的固定唤醒语音,智能音箱识别出该语音后进入唤醒状态,在该状态下,用户继续说出“请帮我查下明天的天气”的语音指令,智能音箱才能针对该语音指令进行查询处理。在实际使用智能设备的过程中,用户可能需要频繁指示智能设备执行不同的操作,因此用户就需要频繁向智能设备说出例如“小度小度”的固定唤醒语音,这会造成用户的反感,导致用户的体验不佳。
本发明实施例基于上述问题,提出一种会话消息处理方法,在智能设备处于特定的第一状态时,智能设备在未接收到用户语音输入的唤醒指令时,可以识别用户语音输入的会话消息,并输出针对该会话消息的会话响应。从而使得用户在不说出固定的唤醒语音时也可以直接向智能设备发出语音指令,并获取到智能设备对于该语音指令的处理结果,从而避免用户频繁说出唤醒语音所产生的反感情绪,极大提升用户的体验。
图1为本发明实施例提供的语音信息处理方法所涉及的一种示例性系统架构图,如图1所示,该方法可以涉及智能设备和服务器。其中,该智能设备可以是智能音箱、智能灯泡、智能扫地机等与用户直接进行交互的设备,该服务器是与智能设备建立通信连接的服务器,智能设备通过与服务器交互可以获取查询信息、进行系统升级等。在具体实施过程中,与智能设备建立通信连接的服务器可能为一个,也可能为多个。示例性的,智能设备可以分别从不同的服务器上获取不同的查询信息。
图2为本发明实施例提供的会话消息处理方法的流程示意图,该方法的执行主体为上述的智能设备,如图2所示,该方法包括:
S201、智能设备在第一状态下,在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息。
可选的,上述第一状态为智能设备所处的一种特定状态,当智能设备满足特定的条件后可以进入该第一状态。在该第一状态下,智能设备不需要被用户语音输入的预设的唤醒指令唤醒后才识别用户的会话消息,而是直接将用户语音输入的会话消息作为待处理的操作指令进行识别及响应处理。
可选的,智能设备可以首先对用户语音输入的会话消息进行语义分析,以识别出该会话消息的类型、对象等。其中,该会话消息的类型可以包括查询、播放等,该会话消息的对象可以是查询的对象、播放的对象等。示例性的,用户说出“请帮我查下明天的天气”的会话消息,智能设备经过语音分析,可以识别该会话消息的类型为查询,对象为明天的天气。
可选的,用户语音输入的会话消息可以指示查询的消息、指示进行音视频播放的消息,或者指示拨打电话的消息等。
S202、根据上述会话消息,输出会话响应。
可选的,针对属于不同类型的会话消息,智能设备可以执行不同的响应处理。
示例性的,用户说出“请给我播放ABC这首歌”,则智能设备通过语音分析确定该会话消息为播放类,智能设备可以首先判断本地是否保存了“ABC”这首歌,如果保存,则智能设备直接启动音频播放器播放歌曲“ABC”,如果未保存,则智能设备可以向已进行通信连接的服务器发送请求,以请求服务器提供歌曲“ABC”并进行播放。
示例性的,用户说出“请帮我查下明天的天气”,则智能设备通过语音分析确定该会话消息为查询类,智能设备可以向已进行通信连接的服务器发送请求,以请求查询“明天的天气”。
在具体实施过程中,智能设备上可以提供控制开关,该控制开关例如可以是智能设备设置页面中的一个选项。用户可以选择打开或者关闭该控制开关。当打开该控制开关后,智能设备可以在满足第一状态的条件时进入第一状态,并在第一状态下无需用户输入预设的唤醒指令而直接识别用户的会话消息。当关闭该控制开关后,智能设备不会进行是否满足第一状态的判断,即不会进入第一状态,进而不会则直接识别会话消息。即当关闭该控制开关后,智能设备按照现有技术中的方法执行。
本实施例中,在智能设备处于特定的第一状态时,智能设备在未接收到用户语音输入的唤醒指令时,可以识别用户语音输入的会话消息,并输出针对该会话消息的会话响应。从而使得用户在不说出固定的唤醒语音时也可以直接向智能设备发出语音指令,并获取到智能设备对于该语音指令的处理结果,从而避免用户频繁说出唤醒语音所产生的反感情绪,极大提升用户的体验。
在上述实施例的基础上,本实施例涉及智能设备进入第一状态的处理过程。
可选的,在上述步骤S201之前,该方法还包括:
智能设备确定智能设备是否满足第一条件,若是,则将上述智能设备的状态从第二状态切换为上述第一状态。
其中,在上述第二状态下,上述智能设备在接收到所述预设的唤醒指令后,识别用户语音输入的会话消息。
其中,在第一种可选的实施方式中,上述第一条件包括:
上述智能设备未播放媒体数据,该媒体数据包括音频数据。
该第一种方式可以应用于主要通过音频方式输出数据的智能设备中,例如可以播放音频但不支持播放视频的智能音箱中。
在第二种可选的实施方式中,上述第一条件包括:
(1)上述智能设备未播放音频数据以及视频数据。
(2)上述智能设备在显示文本时所播放的所述文本对应的语音已播放完毕。
该第二种方式可以应用于既可以通过音频方式又可以通过视频方式输出数据的智能设备中,例如设置有显示屏幕的智能音箱中。
可选的,上述第二状态是智能设备所处的区别于上述第一状态的另一种特定状态。智能设备在运行过程中,可以在这两种状态下切换。本实施例中,如果智能设备当前处于第二状态,并且满足上述第一条件,则智能设备进入第一状态。
针对上述第一种可选的实施方式,在上述第一条件中,需要智能设备当前未播放音频数据。示例性的,该音频数据可以是一首歌曲对应的数据。
示例性的,智能设备可以判断当前是否启动了音频播放器,如果未启动音频播放器,则可以确定当前未播放音频数据。
在上述第一状态下,智能设备可以实时采集用户的会话消息,并对其进行识别,当智能设备正在播放音频数据时,如果智能设备进入第一状态,则智能设备可能会将自身所播放的声音识别为用户输入的会话消息,从而产生错误。因此,本实施例中,智能设备在确定当前未播放音频数据时,可以从当前所处的第二状态切换为第一状态,进而执行上述第一状态下所执行的操作,从而避免产生智能设备错误地识别会话消息。
针对上述第二种可选的实施方式,在上述第一条件的第一项中,需要智能设备当前未播放音频数据以及视频数据。示例性的,该音频数据可以是一首歌曲对应的数据,该视频数据可以是一部电影对应的数据。
示例性的,智能设备可以判断当前是否启动了音频播放器或视频播放器,如果既未启动音频播放器也未启动视频播放器,则可以确定当前未播放音频数据以及视频数据。
在上述第一条件的第二项中,需要智能设备当前在显示文本时所播放的文本对应的语音已播放完毕。智能设备在显示文本时,会同步将这些文本转化为语音播放出来。
在上述第一状态下,智能设备可以实时采集用户的会话消息,并对其进行识别,当智能设备正在播放音频数据,或者视频数据,或者播放显示文本的语音时,如果智能设备进入第一状态,则智能设备可能会将自身所播放的声音识别为用户输入的会话消息,从而产生错误。因此,本实施例中,智能设备在确定当前未播放音频数据、视频数据并且未播放显示文本对应的语音时,可以从当前所处的第二状态切换为第一状态,进而执行上述第一状态下所执行的操作,从而避免产生智能设备错误地识别会话消息。
在具体实施过程中,智能设备可以在启动运行之后,按照一定的周期,持续地执行本实施例的判断过程,只要满足上述第一条件,则智能设备即进入上述第一状态。
在上述实施例的基础上,本实施例涉及从上述第一状态切换到上述第二状态的过程。
可选的,上述方法还包括:
智能设备确定智能设备是否满足第二条件中的任意一个,若是,则将上述智能设备的状态从上述第一状态切换为上述第二状态。
在第一种可选的实施方式中,上述第二条件包括:
(1)在第一时刻与第二时刻之间的任意时刻,上述智能设备均未接收到用户语音输入的会话消息,上述第一时刻为上述智能设备切换至上述第一状态的时刻,上述第二时刻为上述第一时刻之后的时刻,上述第二时刻与所述第一时刻间隔预设时长。
示例性的,上述预设时长例如可以为5秒。
上述预设时长可以看作是智能设备为第一状态所设置的最长持续时长,以预设时长为5秒为例,从智能设备进入第一状态开始,如果在5秒的时间内,用户没有输入任何会话消息,则智能设备退出第一状态,回到第二状态。
(2)在上述第一时刻与第二时刻之间,上述智能设备接收到用户语音输入的上述唤醒指令。
以上述的预设时长为5秒为例,从智能设备进入第一状态开始,如果在5秒时间内的某个时刻,用户说出例如“小度小度”的固定唤醒语音,则智能设备可以认为用户希望使用首先唤醒的方式进行交互,则智能设备退出第一状态,回到第二状态。
(3)在上述第一时刻与第二时刻之间,上述智能设备接收到用户语音输入的会话消息,并且上述会话消息的置信度低于预设的置信度。
上述置信度用于标识会话消息属于有效的可以被解析成功的消息的概率,置信度越高,则说明该会话消息被解析成功的概率越高。
在该条件中,如果在第一状态的最长持续时间内智能设备接收到了一个会话消息,但是该会话消息的置信度过低,则说明该会话消息可能为环境音,而并非用户所发出的指令,在这种情况下,智能设备退出第一状态,回到第二状态,以避免在用户未输入会话消息时错误地执行会话消息处理。
需要说明的是,在具体实施过程中,上述第二条件的三项之间的判断相互独立。
如果智能设备当前正处于第一状态时,如果智能设备满足上述第二条件中的一项或多项,则智能设备从第一状态切换至第二状态,即智能设备继续按照用户首先说出固定的唤醒语音的方式进行处理,以满足用户的真正需求,以及避免执行错误的处理。当智能设备在下一个周期经过判断确定可以再次进入第一状态时,则再次进入第一状态。
上述第一种可选的实施方式可以应用于主要通过音频方式输出数据的智能设备中,例如可以播放音频但不支持播放视频的智能音箱中。
在第二种可选的实施方式中,上述第二条件包括:
(1)在第一时刻与第二时刻之间的任意时刻,上述智能设备均未接收到用户语音输入的会话消息,上述第一时刻为上述智能设备切换至上述第一状态的时刻,上述第二时刻为上述第一时刻之后的时刻,上述第二时刻与所述第一时刻间隔预设时长。
(2)在上述第一时刻与第二时刻之间,上述智能设备接收到用户语音输入的上述唤醒指令。
(3)在上述第一时刻与第二时刻之间,上述智能设备接收到用户语音输入的会话消息,并且上述会话消息的置信度低于预设的置信度。
(4)在上述第一时刻与第二时刻之间,上述智能设备接收到用户通过点击上述智能设备的屏幕所发出的暂停指令。
上述第二条件中的(1)、(2)、(3)项的具体含义与上述上述第一种实施方式中的(1)、(2)、(3)项相同,此处不再赘述。
上述第二条件中的(4)项中,当智能设备接收到用户通过点击智能设备的屏幕发出的暂停指令后,可以确定用户不希望使用语音的方式与智能设备进行交互,智能设备退出第一状态,回到第二状态,在该第二状态下,用户可以先说出固定的唤醒语音以同智能设备进行交互,或者通过手动操作方式与智能设备进行交互。
需要说明的是,在具体实施过程中,上述第二条件的四项之间的判断相互独立。
如果智能设备当前正处于第一状态时,如果智能设备满足上述第二条件中的一项或多项,则智能设备从第一状态切换至第二状态,即智能设备继续按照用户首先说出固定的唤醒语音的方式进行处理,以满足用户的真正需求,以及避免执行错误的处理。当智能设备在下一个周期经过判断确定可以再次进入第一状态时,则再次进入第一状态。
上述第二种可选的实施方式可以应用于既可以通过音频方式又可以通过视频方式输出数据的智能设备中,例如设置有显示屏幕的智能音箱中。
在上述实施例的基础上,本实施例涉及智能设备处于第一状态时的显示方法。
在一种可选的实施方式中,如果上述智能设备的当前状态为上述第一状态,则在上述智能设备的屏幕的第一预设位置显示第一图标,该第一图标用于指示上述智能设备处于上述第一状态。
可选的,上述第一图标可以为以高亮形式显示的图标、以闪烁形式显示的图标或者以预设颜色组成的光带显示的图标的任意一种。
示例性的,在智能设备从第二状态切换为第一状态时,智能设备可以在屏幕的右下方的一个特定区域显示一个闪烁的图标,在智能设备处于第一状态的过程中,该闪烁的图标持续显示,用户可以据此获知,当前可以不说出固定的唤醒语音而直接输入会话消息。
相应的,当智能设备退出上述第一状态时,可以隐藏上述第一图标。
在一种可选的实施方式中,如果上述智能设备的当前状态为上述第一状态,则不在上述智能设备的屏幕的第二预设位置上显示上述预设的唤醒指令对应的文本信息。
可选的,当智能设备处于第二状态时,用户在说出唤醒语音以及输入会话消息时,智能设备可以在屏幕的第二预设位置显示唤醒指令的文本以及会话消息的文本,以向用户展示智能设备对用户所输入的语音的解析结果。而当智能设备处于第一状态时,用户不需要说出唤醒语音,因此,智能设备不会在该第二预设位置显示唤醒指令对应的文本,以避免引起用户的困扰。
相应的,当智能设备退出上述第一状态时,可以在该第二预设位置恢复显示唤醒指令对应的文本。
在一种可选的实施方式中,如果上述智能设备的当前状态为上述第一状态,则在接收到用户语音输入的会话消息时,在当前显示页面显示预设信息或查询结果信息,上述当前显示页面上不包括蒙层。
可选的,当智能设备处于第二状态时,用户通过唤醒指令唤醒智能设备后,智能设备在接收用户输入的会话消息的过程中,会在智能设备的当前显示页面显示黑色的蒙层,而当智能设备处于第一状态时,用户可能会针对当前页面所显示的内容进行询问等,如果使用蒙层会遮挡当前页面所显示的内容,造成用户无法查看内容。因此,本实施例中,当智能设备处于第一状态时,智能设备在当前页面显示内容时不显示蒙层,以保证用户可以查看页面显示的内容。其中,所显示的内容可以是预设信息,例如预设的画面,或者,也可以是查询结果信息等。
相应的,当智能设备退出上述第一状态进入第二状态时,智能设备可以恢复显示蒙层,或者,智能设备在第二状态下,也可以不在当前显示页面上显示蒙层。
图3为本发明实施例提供的一种会话消息处理装置的模块结构图,该装置应用于智能设备,如图3所示,该装置包括:
识别模块301,用于当智能设备在第一状态下,在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息。
输出模块302,用于根据所述会话消息,输出会话响应。
图4为本发明实施例提供的一种会话消息处理装置的模块结构图,如图4所示,该装置还包括:
第一确定模块303,用于确定所述智能设备是否满足第一条件,若是,则将所述智能设备的状态从第二状态切换为所述第一状态,其中,在所述第二状态下,所述智能设备在接收到所述预设的唤醒指令后,识别用户语音输入的会话消息。
所述第一条件包括:
所述智能设备未播放媒体数据,所述媒体数据包括音频数据。
图5为本发明实施例提供的一种会话消息处理装置的模块结构图,如图5所示,该装置还包括:
第二确定模块304,用于确定所述智能设备是否满足第二条件中的任意一个,若是,则将所述智能设备的状态从所述第一状态切换为所述第二状态。
所述第二条件包括:
在第一时刻与第二时刻之间的任意时刻,所述智能设备均未接收到用户语音输入的会话消息,所述第一时刻为所述智能设备切换至所述第一状态的时刻,所述第二时刻为所述第一时刻之后的时刻,所述第二时刻与所述第一时刻间隔预设时长。
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的所述唤醒指令。
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的会话消息,并且所述会话消息的置信度低于预设的置信度。
另一实施例中,所述媒体数据还包括视频数据。
所述第一条件还包括:
所述智能设备在显示文本时所播放的所述文本对应的语音已播放完毕。
所述第二条件还包括:
在所述第一时刻与第二时刻之间,所述智能设备接收到用户通过点击所述智能设备的屏幕所发出的暂停指令。
图6为本发明实施例提供的一种会话消息处理装置的模块结构图,如图6所示,该装置还包括:
显示模块305,用于在所述智能设备的当前状态为所述第一状态时,在所述智能设备的屏幕的第一预设位置显示第一图标,所述第一图标用于指示所述智能设备处于所述第一状态。
图7为本发明实施例提供的一种会话消息处理装置的模块结构图,如图7所示,该装置还包括:
第一隐藏模块306,用于在所述智能设备的当前状态为所述第一状态时,不在所述智能设备的屏幕的第二预设位置上显示所述预设的唤醒指令对应的文本信息。
图8为本发明实施例提供的一种会话消息处理装置的模块结构图,如图8所示,该装置还包括:
第二隐藏模块307,用于在所述智能设备的当前状态为所述第一状态时,在接收到用户语音输入的会话消息时,在当前显示页面显示预设信息或查询结果信息,所述当前显示页面上不包括蒙层。
另一实施例中,所述智能设备为智能音箱。
图9为本发明实施例提供的一种智能设备的实体框图,如图9所示,该智能设备包括:
存储器901,用于存储程序指令。
处理器902,用于调用并执行存储器901中的程序指令,执行上述方法实施例中所述的方法步骤。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种会话消息处理方法,应用于智能设备,其特征在于,包括:
智能设备在第一状态下,在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息;
根据所述会话消息,输出会话响应;
所述在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息之前,还包括:
确定所述智能设备是否满足第一条件,若是,则将所述智能设备的状态从第二状态切换为所述第一状态,其中,在所述第二状态下,所述智能设备在接收到所述预设的唤醒指令后,识别用户语音输入的会话消息;
所述第一条件包括:
所述智能设备未播放媒体数据,所述媒体数据包括音频数据。
2.根据权利要求1所述的方法,其特征在于,还包括:
确定所述智能设备是否满足第二条件中的任意一个,若是,则将所述智能设备的状态从所述第一状态切换为所述第二状态;
所述第二条件包括:
在第一时刻与第二时刻之间的任意时刻,所述智能设备均未接收到用户语音输入的会话消息,所述第一时刻为所述智能设备切换至所述第一状态的时刻,所述第二时刻为所述第一时刻之后的时刻,所述第二时刻与所述第一时刻间隔预设时长;
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的所述唤醒指令;
在所述第一时刻与第二时刻之间,所述智能设备接收到用户语音输入的会话消息,并且所述会话消息的置信度低于预设的置信度。
3.根据权利要求2所述的方法,其特征在于,
所述媒体数据还包括视频数据;
所述第一条件还包括:
所述智能设备在显示文本时所播放的所述文本对应的语音已播放完毕;
所述第二条件还包括:
在所述第一时刻与第二时刻之间,所述智能设备接收到用户通过点击所述智能设备的屏幕所发出的暂停指令。
4.根据权利要求3所述的方法,其特征在于,还包括:
若所述智能设备的当前状态为所述第一状态,则在所述智能设备的屏幕的第一预设位置显示第一图标,所述第一图标用于指示所述智能设备处于所述第一状态。
5.根据权利要求3所述的方法,其特征在于,还包括:
若所述智能设备的当前状态为所述第一状态,则不在所述智能设备的屏幕的第二预设位置上显示所述预设的唤醒指令对应的文本信息。
6.根据权利要求3所述的方法,其特征在于,还包括:
若所述智能设备的当前状态为所述第一状态,则在接收到用户语音输入的会话消息时,在当前显示页面显示预设信息或查询结果信息,所述当前显示页面上不包括蒙层。
7.一种会话消息处理装置,应用于智能设备,其特征在于,包括:
识别模块,用于当智能设备在第一状态下,在未接收到用户语音输入的预设的唤醒指令时,识别用户语音输入的会话消息;
输出模块,用于根据所述会话消息,输出会话响应;
还包括:第一确定模块,用于确定所述智能设备是否满足第一条件,若是,则将所述智能设备的状态从第二状态切换为所述第一状态,其中,在所述第二状态下,所述智能设备在接收到所述预设的唤醒指令后,识别用户语音输入的会话消息;所述第一条件包括:所述智能设备未播放媒体数据,所述媒体数据包括音频数据。
8.一种智能设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行权利要求1-6任一项所述的方法步骤。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行权利要求1-6任一项所述的方法。
CN201811265443.8A 2018-10-29 2018-10-29 会话消息处理方法、装置及智能设备 Active CN109658924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811265443.8A CN109658924B (zh) 2018-10-29 2018-10-29 会话消息处理方法、装置及智能设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811265443.8A CN109658924B (zh) 2018-10-29 2018-10-29 会话消息处理方法、装置及智能设备

Publications (2)

Publication Number Publication Date
CN109658924A CN109658924A (zh) 2019-04-19
CN109658924B true CN109658924B (zh) 2020-09-01

Family

ID=66110455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811265443.8A Active CN109658924B (zh) 2018-10-29 2018-10-29 会话消息处理方法、装置及智能设备

Country Status (1)

Country Link
CN (1) CN109658924B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949118A (zh) * 2019-05-17 2020-11-17 深圳欧博思智能科技有限公司 设备状态切换方法、装置、存储介质及音箱
CN111949117A (zh) * 2019-05-17 2020-11-17 深圳欧博思智能科技有限公司 设备状态切换方法、装置、存储介质及音箱

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106653021A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN107291451A (zh) * 2017-05-25 2017-10-24 深圳市冠旭电子股份有限公司 语音唤醒方法及装置
CN107315561A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 一种数据处理方法和电子设备
WO2018045154A1 (en) * 2016-09-01 2018-03-08 Amazon Technologies, Inc. Voice-based communications

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018045154A1 (en) * 2016-09-01 2018-03-08 Amazon Technologies, Inc. Voice-based communications
CN106653021A (zh) * 2016-12-27 2017-05-10 上海智臻智能网络科技股份有限公司 语音唤醒的控制方法、装置及终端
CN107291451A (zh) * 2017-05-25 2017-10-24 深圳市冠旭电子股份有限公司 语音唤醒方法及装置
CN107315561A (zh) * 2017-06-30 2017-11-03 联想(北京)有限公司 一种数据处理方法和电子设备

Also Published As

Publication number Publication date
CN109658924A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN110634483B (zh) 人机交互方法、装置、电子设备及存储介质
US20210125604A1 (en) Systems and methods for determining whether to trigger a voice capable device based on speaking cadence
CN107370649B (zh) 家电控制方法、系统、控制终端、及存储介质
JP7418526B2 (ja) 自動アシスタントを起動させるための動的および/またはコンテキスト固有のホットワード
CN109545206B (zh) 智能设备的语音交互处理方法、装置和智能设备
JP2019117623A (ja) 音声対話方法、装置、デバイス及び記憶媒体
US20210280172A1 (en) Voice Response Method and Device, and Smart Device
CN110853619B (zh) 人机交互方法、控制装置、被控装置及存储介质
CN112201246B (zh) 基于语音的智能控制方法、装置、电子设备及存储介质
CN109643548A (zh) 用于将内容路由到相关联输出设备的系统和方法
WO2017141530A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112313930B (zh) 管理保持的方法和装置
US20220399020A1 (en) Man-machine dialogue mode switching method
CN109658924B (zh) 会话消息处理方法、装置及智能设备
CN109686370A (zh) 基于语音控制进行斗地主游戏的方法及装置
CN109686372B (zh) 资源播放控制方法和装置
CN108648754A (zh) 语音控制方法及装置
CN103095927A (zh) 基于移动通讯终端及眼镜的显示及语音输出方法及系统
CN109215642A (zh) 人机会话的处理方法、装置及电子设备
CN112511877B (zh) 一种智能电视语音连续对话及交互的方法
CN111862965A (zh) 唤醒处理方法、装置、智能音箱及电子设备
CN110782886A (zh) 语音处理的系统、方法、电视、设备和介质
CN111710339A (zh) 一种基于数据可视化展示技术的语音识别交互系统及方法
CN109147776A (zh) 具有声控功能的显示装置及声控时机指示方法
CN109903762B (zh) 一种语音控制方法、装置、存储介质及语音设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210517

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Patentee after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Patentee before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right