CN109657091B - 语音交互设备的状态呈现方法、装置、设备及存储介质 - Google Patents

语音交互设备的状态呈现方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109657091B
CN109657091B CN201910002528.5A CN201910002528A CN109657091B CN 109657091 B CN109657091 B CN 109657091B CN 201910002528 A CN201910002528 A CN 201910002528A CN 109657091 B CN109657091 B CN 109657091B
Authority
CN
China
Prior art keywords
state
full
duplex
interaction
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910002528.5A
Other languages
English (en)
Other versions
CN109657091A (zh
Inventor
王莎莎
张刚
刁雅文
王天雨
陈虹宇
杨宇宁
温宗亮
鞠强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd, Shanghai Xiaodu Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910002528.5A priority Critical patent/CN109657091B/zh
Publication of CN109657091A publication Critical patent/CN109657091A/zh
Priority to US16/659,137 priority patent/US11205431B2/en
Application granted granted Critical
Publication of CN109657091B publication Critical patent/CN109657091B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例提出一种语音交互设备的状态呈现方法和装置,其中方法包括:获取语音交互设备的当前状态;根据所述当前状态查找预先存储的状态与呈现方式的对应关系,得到所述当前状态对应的当前呈现方式;采用所述当前呈现方式进行呈现。本发明实施例能够为用户呈现语音交互设备所处的状态,从而为用户提供必要的推荐及提示,提高用户体验。

Description

语音交互设备的状态呈现方法、装置、设备及存储介质
技术领域
本发明涉及语音交互技术领域,尤其涉及一种语音交互设备的状态呈现方法、装置、设备及存储介质。
背景技术
现有的语音交互技术中,用户在于语音交互设备进行全双工语音交互时,存在不会使用、语音交互预期不明确等体验问题。目前的语音交互设备尚不能较好地向用户呈现设备所处的状态,因此无法为用户提供必要的使用推荐及提示,无法提供较好的用户体验。
发明内容
本发明实施例提供一种语音交互设备的状态呈现方法及装置,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种语音交互设备的状态呈现方法,包括:
获取语音交互设备的当前状态;
根据所述当前状态查找预先存储的状态与呈现方式的对应关系,得到所述当前状态对应的当前呈现方式;
采用所述当前呈现方式进行呈现。
在一种实施方式中,所述采用所述当前呈现方式进行呈现,包括:
采用播放语音数据、播放音效数据、显示全双工交互状态对应的静态图像数据及显示全双工交互状态对应的动态图像数据中的至少一项进行呈现。
在一种实施方式中,所述当前状态为半双工交互状态,并且对全双工交互功能进行介绍时,所述采用所述当前呈现方式进行呈现的方式包括以下至少一项:
播放包含全双工交互功能介绍信息的语音数据;
显示用于展示全双工交互状态的静态图像数据;
显示用于展示全双工交互状态的动态图像数据;
播放包含全双工交互功能推荐信息的语音数据。
在一种实施方式中,所述当前状态为全双工交互状态时,所述采用所述当前呈现方式进行呈现包括:
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第一门限时,播放表示处于全双工交互状态的语音数据;和/或
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第二门限时,播放表示处于全双工交互状态的音效数据;
在一种实施方式中,所述当前状态为全双工交互状态时,所述采用所述当前呈现方式进行呈现包括:
显示表示处于全双工交互状态的静态图像数据和/或动态图像数据。
在一种实施方式中,所述当前状态为全双工交互状态时,所述采用所述当前呈现方式进行呈现包括:
根据所述语音交互设备处于全双工交互状态的剩余时间,显示表示所述剩余时间的动态图像数据和/或静态图像数据。
在一种实施方式中,所述当前状态为由全双工交互切换为半双工交互时,所述采用所述当前呈现方式进行呈现包括:
播放表示全双工交互状态结束的语音数据;或者,
播放表示全双工交互状态结束并且可以再次开启全双工交互状态的语音数据。
第二方面,本发明实施例提供了一种语音交互设备的状态呈现装置,包括:
获取模块,用于获取语音交互设备的当前状态;
查找模块,用于根据所述当前状态查找预先存储的状态与呈现方式的对应关系,得到所述当前状态对应的当前呈现方式;
呈现模块,用于采用所述当前呈现方式进行呈现。
在一种实施方式中,所述呈现模块,用于采用播放语音数据、播放音效数据、显示全双工交互状态对应的静态图像数据及显示全双工交互状态对应的动态图像数据中的至少一项进行呈现。
在一种实施方式中,所述当前状态为半双工交互状态,并且对全双工交互功能进行介绍时,所述呈现模块用于,采用以下至少一项进行呈现:
播放包含全双工交互功能介绍信息的语音数据;
显示用于展示全双工交互状态的静态图像数据;
显示用于展示全双工交互状态的动态图像数据;
播放包含全双工交互功能推荐信息的语音数据。
在一种实施方式中,所述当前状态为全双工交互状态时,所述呈现模块用于,采用以下至少一项进行呈现:
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第一门限时,播放表示处于全双工交互状态的语音数据;和/或
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第二门限时,播放表示处于全双工交互状态的音效数据。
在一种实施方式中,所述当前状态为全双工交互状态时,所述呈现模块用于,显示表示处于全双工交互状态的静态图像数据和/或动态图像数据。
在一种实施方式中,所述当前状态为全双工交互状态时,所述呈现模块用于,根据所述语音交互设备处于全双工交互状态的剩余时间,显示表示所述剩余时间的动态图像数据和/或静态图像数据。
在一种实施方式中,所述当前状态为由全双工交互切换为半双工交互时,所述呈现模块用于,播放表示全双工交互状态结束的语音数据;或者,播放表示全双工交互状态结束并且可以再次开启全双工交互状态的语音数据。
第三方面,本发明实施例提供了一种语音交互设备的状态呈现设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述语音交互设备的状态呈现方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储语音交互设备的状态呈现设备所用的计算机软件指令,其包括用于执行上述语音交互设备的状态呈现方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明实施例提出的语音交互设备的状态呈现方法及装置,预先存储语音交互设备不同状态对应的呈现方式;在语音交互设备开启之后,根据当前状态查找对应的当前呈现方式,并采用该方式进行呈现。从而为用户呈现设备所处的状态,为用户提供必要的推荐及提示,提高用户体验。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为本发明实施例的一种语音交互设备的状态呈现方法实现流程图;
图2为本发明实施例在屏幕上显示用于展示全双工交互状态的波浪画面的示意图;
图3为本发明实施例在屏幕上显示表示全双工交互状态逐渐结束的波浪画面的示意图;
图4为本发明实施例语音交互设备在播放音乐时,接收到用户语音指令时的屏幕显示示意图;
图5为本发明实施例语音交互设备在播放视频文件时,接收到用户语音指令时的屏幕显示示意图;
图6为本发明实施例的一种语音交互设备的状态呈现装置结构示意图;
图7为本发明实施例的一种语音交互设备的状态呈现设备结构示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例主要提供了一种语音交互设备的状态呈现方法和装置,下面分别通过以下实施例进行技术方案的展开描述。
如图1为本发明实施例的一种语音交互设备的状态呈现方法实现流程图,包括:
S11:获取语音交互设备的当前状态。
S12:根据所述当前状态查找预先存储的状态与呈现方式的对应关系,得到所述当前状态对应的当前呈现方式;
S13:采用所述当前呈现方式进行呈现。
本发明实施例可以应用于具有语音交互功能的设备,包括但不限于智能音箱、带屏幕智能音箱、带有语音交互功能的电视、智能手表及车载智能语音设备。
在一种可能的实施方式中,采用当前呈现方式进行呈现,包括:
采用播放语音数据、播放音效数据、显示全双工交互状态对应的静态图像数据及显示全双工交互状态对应的动态图像数据中的至少一项进行呈现。
以下分别对应不同的场景,详细介绍上述方法的具体实施方式。
场景一:语音交互设备的当前状态为半双工交互状态,并且对全双工交互功能进行介绍。本场景用于用户初次或前几次使用全双工交互功能时,对用户进行全双工交互功能介绍及推荐。
对应本场景,步骤S13中进行呈现的方式可以包括以下至少一项:
播放包含全双工交互功能介绍信息的语音数据;
显示用于展示全双工交互状态的静态图像数据;
显示用于展示全双工交互状态的动态图像数据;
播放包含全双工交互功能推荐信息的语音数据。
应用本实施方式,可以在向用户介绍全双工交互功能的过程中,引导用户参与全双工交互功能的呈现。
在一种可能的实施方式中,在语音播放时,为了便于用户理解,将全双工模式称为“极客模式”,并解释“极客模式”的具体含义。例如,播放包含极客模式功能介绍信息的语音数据。
进一步地,可以播放类似“波浪出现的时候代表我在听,可以直接对我说话”的语音,并在播放该语音的同时显示波浪画面的静态图像数据或动态图像数据。如图2为本发明实施例在屏幕上显示用于展示全双工交互状态的波浪画面的示意图。图2中的波浪画面可以为静态图像、也可以为动态图像。在一种实施方式中,可以将该波浪画面显示在屏幕的下方,避免影响屏幕上其他内容的显示。
之后,可以播放类似“你可以直接对我说放首歌,试试吧”的语音,引导用户尝试了解全双工模式。此时,语音交互设备切换至全双工交互状态,等待用户发出语音指令。
又如,播放类似“如果你想打开极客模式,请XXX”的语音数据,即为用户播放包含全双工交互功能推荐信息的语音数据。
场景二:
语音交互设备的当前状态为全双工交互状态,并且当前处于弱多轮对话过程中时,向用户呈现当前状态。以下首先介绍强多轮对话和弱多轮对话。
语音交互设备处于全双工交互状态时,与用户的对话方式有2种,即强多轮对话和弱多轮对话。
其中,强多轮对话表示相邻两轮对话之间有较强的逻辑关联。例如以下对话一:
用户:设定闹钟。
设备:设定几点的闹钟?
用户:7点。
设备:上午7点还是下午7点?
用户:上午7点。
设备:为您设定上午7点的闹钟,设定完毕。
在上述对话中,出现了三轮对话,相邻两轮对话之间具有逻辑关联,称为强多轮对话。
弱多轮对话表示相邻两轮对话之间基本没有逻辑关联。例如以下对话二:
用户:今天天气怎样?
设备:今天天气晴朗。
用户:我想看电影。
设备:为您推荐最新电影。(同时配合屏幕显示电影资源列表)
上述对话中,出现了两轮对话,两轮对话之间没有逻辑关联,称为弱多轮对话。
在强多轮对话过程中,语音交互设备直接询问并引导用户对话即可,可以不向用户呈现当前状态。在弱多轮对话过程中,上述步骤S13中进行呈现的方式可以包括:
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第一门限时,播放表示处于全双工交互状态的语音数据;和/或
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第二门限时,播放表示处于全双工交互状态的音效数据;
进一步地,上述步骤S13中进行呈现的方式还可以包括:显示表示处于全双工交互状态的静态图像数据和/或动态图像数据。
以上述对话二为例,设备在回答完“今天天气晴朗”之后,可以显示表示语音交互设备处于全双工交互状态的静态图像数据和/或动态图像数据,例如显示波浪画面的静态图像内容或动态视频内容。进一步地,在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第一门限时,可以播放表示处于全双工交互状态的语音数据,例如播放类似“您还需要什么吗,可以直接对我说话哦”的语音数据。或者,在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第二门限时,可以播放表示处于全双工交互状态的音效数据。
场景三:
语音交互设备的当前状态为全双工交互状态,并且语音交互设备与用户暂时没有进行交互。这种场景下,上述步骤S13中进行呈现的方式还可以包括:根据所述语音交互设备处于全双工交互状态的剩余时间,显示表示所述剩余时间的动态图像数据和/或静态图像数据。
为便于理解,以下首先介绍语音交互设备的状态切换方式。
语音交互设备可以在全双工交互状态与半双工交互状态之间切换。当语音交互设备处于全双工交互状态时,如果超过预定的时间没有收到用户的语音指令,则可以自动从全双工交互状态切换至半双工交互状态。如果需要从半双工交互状态切换至全双工交互状态,则可以由用户按照预定的方式指示设备进行切换。以前述预定的时间为8秒为例,当设备切换至全双工交互状态时,如果8秒之内未收到用户的语音指令,则自动切换至半双工交互状态;如果8秒之内收到用户的语音指令,则响应该语音指令,并重新开始计时。
上述表示剩余时间的动态图像数据可以为逐渐变短的进度条、或者幅度逐渐减小的波浪线等,以向用户表达“逐渐减弱”或“逐渐退场”的意思。如图3为本发明实施例在屏幕上显示表示全双工交互状态逐渐结束的波浪画面的示意图。图3中波浪的幅度比图2中波浪的幅度小;并且随着时间的推移,图3中波浪的幅度继续逐渐减小,表示全双工交互状态逐渐结束。
例如,语音交互设备从半双工交互状态切换至全双工交互状态时、或者语音交互设备刚完成一次语音交互时,显示进度条的长度为最长状态;进度条的长度随着时间的推移逐渐变短;经过2秒之后,达到预定时间的25%,则此时进度条的长度为最长状态的75%;直至经过8秒,达到预定时间,此时进度条的长度为0。
又如,语音交互设备从半双工交互状态切换至全双工交互状态时、或者语音交互设备刚完成一次语音交互时,显示波浪线,向用户呈现当前处于全双工交互状态,波浪线的幅度随着时间的推移逐渐变小;经过6秒之后,达到预定时间的75%,则此时波浪线的幅度为最大状态的25%;直至经过8秒,达到预定时间,此时波浪线消失。
场景四:
语音交互设备的当前状态为由全双工交互切换为半双工交互。这种情况下,上述步骤S13中进行呈现的方式可以包括:
播放表示全双工交互状态结束的语音数据和/或音效数据;或者,
播放表示全双工交互状态结束并且可以再次开启全双工交互状态的语音数据和/或音效数据。
例如,语音交互设备的全双工交互状态结束时,播放类似“退出极客模式”的语音数据,同时可以播放表示退场的音效数据,向用户明确展示全双工交互状态结束。之后,还可以向用户播放类似“如果想要再次开启极客模式,可以XXX”的语音数据,提示用户再次开启全双工交互状态的操作方式。
场景五:
语音交互设备的当前状态为全双工交互状态,并且语音交互设备正在播放音频文件,例如播放音乐。
此时,用户可以直接发起语音指令,例如,“下一首”、“收藏”等。语音交互设备能够识别出用户的语音指令,并做出响应。
如图4为本发明实施例语音交互设备在播放音乐时,接收到用户语音指令时的屏幕显示示意图。在图4中,屏幕下方显示用于表示处于语音交互状态的波浪线。接收到用户“下一首”的语音指令时,将该语音指令转换为对应的文本信息,并将该文本信息(即“下一首”)显示在屏幕下方。同时,语音交互设备执行播放下一首音乐文件的操作。
场景六:
语音交互设备的当前状态为全双工交互状态,并且语音交互设备正在显示资源播放列表、或者正在播放视频文件。此时,用户可以直接发起语音指令,例如“下一页”、“看下一个”等。语音交互设备能够识别出用户的语音指令,并做出响应。
如图5为本发明实施例语音交互设备在播放视频文件时,接收到用户语音指令时的屏幕显示示意图。在图5中,屏幕上方显示视频图像,屏幕下方显示用于表示处于语音交互状态的波浪线。接收到用户“看下一个”的语音指令时,将该语音指令转换为对应的文本信息,并将该文本信息(即“看下一个”)显示在屏幕下方。同时,语音交互设备执行播放下一个视频文件的操作。
上述介绍了多个场景下向用户呈现语音交互设备当前状态的实施方式,可以利用语音交互设备的声音播放装置、视频播放装置进行呈现。在呈现时,不影响语音交互设备正在执行的操作。例如,当语音交互设备正在播放视频内容时,可以在屏幕中不遮挡视频内容的位置显示对应当前状态的图像数据或动态图像数据。又如,当语音交互设备正在播放音频内容时,可以不播放对应当前状态的语音数据或音效数据,而仅显示对应当前状态的图像数据或动态图像数据。
以上介绍了几种场景下的状态呈现方式。本发明实施例不限于上述场景,在其他场景下,也可以采用本发明实施例提出的呈现方式对语音交互设备所处的状态进行呈现。
本发明实施例还提出一种语音交互设备的状态呈现装置,如图6为该装置结构示意图,包括:
获取模块601,用于获取语音交互设备的当前状态;
查找模块602,用于根据所述当前状态查找预先存储的状态与呈现方式的对应关系,得到所述当前状态对应的当前呈现方式;
呈现模块603,用于采用所述当前呈现方式进行呈现。
在一种可能的实施方式中,所述呈现模块603,用于采用播放语音数据、播放音效数据、显示全双工交互状态对应的静态图像数据及显示全双工交互状态对应的动态图像数据中的至少一项进行呈现。
在一种可能的实施方式中,所述当前状态为半双工交互状态、并且对全双工交互功能进行介绍时,所述呈现模块603用于,采用以下至少一项进行呈现:
播放包含全双工交互功能介绍信息的语音数据;
显示用于展示全双工交互状态的静态图像数据;
显示用于展示全双工交互状态的动态图像数据;
播放包含全双工交互功能推荐信息的语音数据。
在一种可能的实施方式中,所述当前状态为全双工交互状态时,所述呈现模块603用于,采用以下方式进行呈现:
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第一门限时,播放表示处于全双工交互状态的语音数据;和/或
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第二门限时,播放表示处于全双工交互状态的音效数据。
在一种可能的实施方式中,所述当前状态为全双工交互状态时,所述呈现模块603用于,显示表示处于全双工交互状态的静态图像数据和/或动态图像数据。
在一种可能的实施方式中,所述当前状态为全双工交互状态时,所述呈现模块603用于,根据所述语音交互设备处于全双工交互状态的剩余时间,显示表示所述剩余时间的动态图像数据和/或静态图像数据。
在一种可能的实施方式中,所述当前状态为由全双工交互切换为半双工交互时,所述呈现模块603用于,播放表示全双工交互状态结束的语音数据;或者,播放表示全双工交互状态结束并且可以再次开启全双工交互状态的语音数据。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本发明实施例还提出一种语音交互设备的状态呈现设备,如图7为本发明实施例的语音交互设备的状态呈现结构示意图,包括:
存储器11和处理器12,存储器11存储有可在处理器12上运行的计算机程序。所述处理器12执行所述计算机程序时实现上述实施例中的语音交互设备的状态呈现方法。所述存储器11和处理器12的数量可以为一个或多个。
所述设备还可以包括:
通信接口13,用于与外界设备进行通信,进行数据交换传输。
存储器11可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器11、处理器12和通信接口13独立实现,则存储器11、处理器12和通信接口13可以通过总线相互连接并完成相互之间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线,外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器11、处理器12和通信接口13集成在一块芯片上,则存储器11、处理器12和通信接口13可以通过内部接口完成相互间的通信。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
综上所述,本发明实施例提出的语音交互设备的状态呈现方法和装置,预先存储语音交互设备不同状态对应的呈现方式;根据当前状态查找对应的当前呈现方式,并采用该方式进行呈现。从而为用户呈现设备所处的状态,为用户提供必要的推荐及提示,提高用户体验。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种语音交互设备的状态呈现方法,其特征在于,包括:
获取语音交互设备的当前状态,其中所述当前状态至少包括全双工交互状态,在所述全双工交互状态下,用户直接发出语音指令,所述语音交互设备识别出所述用户的所述语音指令并直接执行对应于所述语音指令的操作;
根据所述当前状态查找预先存储的状态与呈现方式的对应关系,得到所述当前状态对应的当前呈现方式;
采用所述当前呈现方式进行呈现。
2.根据权利要求1所述的方法,其特征在于,所述采用所述当前呈现方式进行呈现,包括:
采用播放语音数据、播放音效数据、显示所述全双工交互状态对应的静态图像数据及显示所述全双工交互状态对应的动态图像数据中的至少一项进行呈现。
3.根据权利要求1或2所述的方法,其特征在于,所述当前状态还包括半双工交互状态,当所述当前状态为所述半双工交互状态,并且对全双工交互功能进行介绍时,所述采用所述当前呈现方式进行呈现的方式包括以下至少一项:
播放包含全双工交互功能介绍信息的语音数据;
显示用于展示所述全双工交互状态的静态图像数据;
显示用于展示所述全双工交互状态的动态图像数据;
播放包含全双工交互功能推荐信息的语音数据。
4.根据权利要求1或2所述的方法,其特征在于,所述当前状态为所述全双工交互状态时,所述采用所述当前呈现方式进行呈现包括:
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第一门限时,播放表示处于所述全双工交互状态的语音数据;和/或
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第二门限时,播放表示处于所述全双工交互状态的音效数据。
5.根据权利要求1或2所述的方法,其特征在于,所述当前状态为所述全双工交互状态时,所述采用所述当前呈现方式进行呈现包括:
显示表示处于所述全双工交互状态的静态图像数据和/或动态图像数据。
6.根据权利要求1或2所述的方法,其特征在于,所述当前状态为所述全双工交互状态时,所述采用所述当前呈现方式进行呈现包括:
根据所述语音交互设备处于所述全双工交互状态的剩余时间,显示表示所述剩余时间的动态图像数据和/或静态图像数据。
7.根据权利要求1或2所述的方法,其特征在于,所述当前状态还包括由所述全双工交互状态切换为半双工交互状态,当所述当前状态为由所述全双工交互状态切换为所述半双工交互状态时,所述采用所述当前呈现方式进行呈现包括:
播放表示所述全双工交互状态结束的语音数据;或者,
播放表示所述全双工交互状态结束并且可以再次开启所述全双工交互状态的语音数据。
8.一种语音交互设备的状态呈现装置,其特征在于,包括:
获取模块,用于获取语音交互设备的当前状态,其中所述当前状态至少包括全双工交互状态,在所述全双工交互状态下,用户直接发出语音指令,所述语音交互设备识别出所述用户的所述语音指令并直接执行对应于所述语音指令的操作;
查找模块,用于根据所述当前状态查找预先存储的状态与呈现方式的对应关系,得到所述当前状态对应的当前呈现方式;
呈现模块,用于采用所述当前呈现方式进行呈现。
9.根据权利要求8所述的装置,其特征在于,所述呈现模块,用于采用播放语音数据、播放音效数据、显示所述全双工交互状态对应的静态图像数据及显示所述全双工交互状态对应的动态图像数据中的至少一项进行呈现。
10.根据权利要求8或9所述的装置,其特征在于,所述当前状态还包括半双工交互状态,当所述当前状态为所述半双工交互状态,并且对全双工交互功能进行介绍时,所述呈现模块用于,采用以下至少一项进行呈现:
播放包含全双工交互功能介绍信息的语音数据;
显示用于展示所述全双工交互状态的静态图像数据;
显示用于展示所述全双工交互状态的动态图像数据;
播放包含全双工交互功能推荐信息的语音数据。
11.根据权利要求8或9所述的装置,其特征在于,所述当前状态为所述全双工交互状态时,所述呈现模块用于,采用以下方式进行呈现:
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第一门限时,播放表示处于所述全双工交互状态的语音数据;和/或
在当前时刻与上一轮语音交互结束时刻的时间间隔达到预设第二门限时,播放表示处于所述全双工交互状态的音效数据。
12.根据权利要求8或9所述的装置,其特征在于,所述当前状态为所述全双工交互状态时,所述呈现模块用于,显示表示处于所述全双工交互状态的静态图像数据和/或动态图像数据。
13.根据权利要求8或9所述的装置,其特征在于,所述当前状态为所述全双工交互状态时,所述呈现模块用于,根据所述语音交互设备处于所述全双工交互状态的剩余时间,显示表示所述剩余时间的动态图像数据和/或静态图像数据。
14.根据权利要求8或9所述的装置,其特征在于,所述当前状态还包括由所述全双工交互状态切换为半双工交互状态,当所述当前状态为由所述全双工交互状态切换为所述半双工交互状态时,所述呈现模块用于,播放表示所述全双工交互状态结束的语音数据;或者,播放表示所述全双工交互状态结束并且可以再次开启所述全双工交互状态的语音数据。
15.一种语音交互设备的状态呈现设备,其特征在于,所述设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201910002528.5A 2019-01-02 2019-01-02 语音交互设备的状态呈现方法、装置、设备及存储介质 Active CN109657091B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910002528.5A CN109657091B (zh) 2019-01-02 2019-01-02 语音交互设备的状态呈现方法、装置、设备及存储介质
US16/659,137 US11205431B2 (en) 2019-01-02 2019-10-21 Method, apparatus and device for presenting state of voice interaction device, and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910002528.5A CN109657091B (zh) 2019-01-02 2019-01-02 语音交互设备的状态呈现方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109657091A CN109657091A (zh) 2019-04-19
CN109657091B true CN109657091B (zh) 2021-06-22

Family

ID=66117423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910002528.5A Active CN109657091B (zh) 2019-01-02 2019-01-02 语音交互设备的状态呈现方法、装置、设备及存储介质

Country Status (2)

Country Link
US (1) US11205431B2 (zh)
CN (1) CN109657091B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110557451B (zh) * 2019-08-30 2021-02-05 北京百度网讯科技有限公司 对话交互处理方法、装置、电子设备和存储介质
CN112732340B (zh) * 2019-10-14 2022-03-15 思必驰科技股份有限公司 人机对话处理方法及装置
CN112735398B (zh) * 2019-10-28 2022-09-06 思必驰科技股份有限公司 人机对话模式切换方法及系统
CN112037779A (zh) * 2020-07-01 2020-12-04 海信(山东)空调有限公司 智能家电及语音交互方法、装置及存储介质
CN112002315B (zh) * 2020-07-28 2023-12-29 珠海格力节能环保制冷技术研究中心有限公司 一种语音控制方法、装置、电器设备、存储介质及处理器
CN112820290A (zh) * 2020-12-31 2021-05-18 广东美的制冷设备有限公司 家电设备及其语音控制方法、语音装置、计算机存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401728A (zh) * 2013-07-29 2013-11-20 华为技术有限公司 一种用于检测设备间接口连接的方法和装置
CN103746815A (zh) * 2014-02-14 2014-04-23 浙江中控研究院有限公司 安全通信方法及装置

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7366535B2 (en) * 2004-04-21 2008-04-29 Nokia Corporation Push-to-talk mobile communication terminals
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US8542617B2 (en) * 2008-06-02 2013-09-24 Apple Inc. Adaptive operational full-duplex and half-duplex FDD modes in wireless networks
GB2499786A (en) * 2012-02-23 2013-09-04 Renesas Mobile Corp Indication of a preferred duplex operating mode
US9204263B2 (en) * 2012-05-23 2015-12-01 Mark A. Lindner Systems and methods for establishing a group communication based on motion of a mobile device
CN104144192A (zh) 2013-05-10 2014-11-12 北京四维图新科技股份有限公司 语音交互方法、装置及车载通讯终端
US10775996B2 (en) * 2014-11-26 2020-09-15 Snap Inc. Hybridization of voice notes and calling
CN104572407A (zh) * 2014-12-29 2015-04-29 联想(北京)有限公司 显示方法及电子设备
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
US9596349B1 (en) 2015-06-29 2017-03-14 State Farm Mutual Automobile Insurance Company Voice and speech recognition for call center feedback and quality assurance
WO2017025141A1 (en) * 2015-08-12 2017-02-16 Telefonaktiebolaget Lm Ericsson (Publ) Method of determining a mode of operation for a wireless terminal
CN106468987B (zh) 2015-08-18 2020-05-12 腾讯科技(深圳)有限公司 一种信息处理方法及客户端
CN105912247B (zh) * 2016-04-15 2017-12-26 广州阿里巴巴文学信息技术有限公司 一种数字内容的处理方法、装置和信息设备
CN107665708B (zh) 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及系统
CN106227430B (zh) * 2016-08-01 2020-08-25 腾讯科技(深圳)有限公司 交互式信息处理方法及交互式信息处理装置
CN107145329A (zh) 2017-04-10 2017-09-08 北京猎户星空科技有限公司 设备控制方法、装置及智能设备
CN107240398B (zh) 2017-07-04 2020-11-17 科大讯飞股份有限公司 智能语音交互方法及装置
CN107564518B (zh) 2017-08-21 2021-10-22 百度在线网络技术(北京)有限公司 智能设备控制方法、装置及计算机设备
CN107895578B (zh) 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN108520743B (zh) 2018-02-02 2021-01-22 百度在线网络技术(北京)有限公司 智能设备的语音控制方法、智能设备及计算机可读介质
CN108510986A (zh) 2018-03-07 2018-09-07 北京墨丘科技有限公司 语音交互方法、装置、电子设备及计算机可读存储介质
CN108509619B (zh) 2018-04-04 2021-05-04 科大讯飞股份有限公司 一种语音交互方法及设备
CN108538294B (zh) 2018-04-27 2020-11-17 科大讯飞股份有限公司 一种语音交互方法及装置
CN108449105A (zh) * 2018-05-30 2018-08-24 南京耀泽电子科技有限公司 提供全双工分组协同通信能力的语音肩咪装置及其通讯方法
CN109003605B (zh) 2018-07-02 2020-04-21 北京百度网讯科技有限公司 智能语音交互处理方法、装置、设备及存储介质
CN109040226B (zh) * 2018-07-27 2021-11-26 中船电子科技有限公司 一种海关缉私指挥系统及方法
CN109005190B (zh) * 2018-08-31 2020-10-30 浙江百应科技有限公司 一种在网页上实现全双工语音对话和页面控制的方法
CN109036430A (zh) * 2018-09-29 2018-12-18 芜湖星途机器人科技有限公司 语音控制终端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103401728A (zh) * 2013-07-29 2013-11-20 华为技术有限公司 一种用于检测设备间接口连接的方法和装置
CN103746815A (zh) * 2014-02-14 2014-04-23 浙江中控研究院有限公司 安全通信方法及装置

Also Published As

Publication number Publication date
US11205431B2 (en) 2021-12-21
US20200211551A1 (en) 2020-07-02
CN109657091A (zh) 2019-04-19

Similar Documents

Publication Publication Date Title
CN109657091B (zh) 语音交互设备的状态呈现方法、装置、设备及存储介质
CN109377987B (zh) 智能语音设备间的交互方法、装置、设备及存储介质
US20210218893A1 (en) Method and apparatus for video shooting, terminal device and storage medium
CN109410944B (zh) 语音交互方法、装置和终端
CN109147784B (zh) 语音交互方法、设备以及存储介质
US20200412976A1 (en) Video processing method and apparatus, terminal device, and storage medium
CN110162343B (zh) 应用启动方法及装置、电子设备及存储介质
EP2815290B1 (en) Method and apparatus for smart voice recognition
CN105828101B (zh) 生成字幕文件的方法及装置
CN109725869B (zh) 连续交互控制方法和装置
US11200899B2 (en) Voice processing method, apparatus and device
CN110070866B (zh) 语音识别方法及装置
CN108320751B (zh) 一种语音交互方法、装置、设备和服务器
CN112735398B (zh) 人机对话模式切换方法及系统
CN109195009B (zh) 音视频播放方法及播放系统、智能音箱、存储装置
US20230307004A1 (en) Audio data processing method and apparatus, and device and storage medium
CN111601154B (zh) 一种视频处理方法及相关设备
CN109686372B (zh) 资源播放控制方法和装置
CN114071792A (zh) 基于车辆座舱的控制方法、车辆及存储介质
CN107454265B (zh) 基于通话模式变化记录通话信息的方法及装置
CN105791932B (zh) 一种切换音视频应用的方法、装置和智能电视
CN108366297B (zh) 终端信息的跟随方法、装置及智能电视机
CN112860214B (zh) 基于语音会话的动画展示方法、装置、存储介质及设备
CN113542785B (zh) 应用于直播的音频的输入输出的切换方法、直播设备
CN112055238B (zh) 视频播放的控制方法、设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210508

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant