CN110299137B - 语音交互方法和装置 - Google Patents

语音交互方法和装置 Download PDF

Info

Publication number
CN110299137B
CN110299137B CN201810241401.4A CN201810241401A CN110299137B CN 110299137 B CN110299137 B CN 110299137B CN 201810241401 A CN201810241401 A CN 201810241401A CN 110299137 B CN110299137 B CN 110299137B
Authority
CN
China
Prior art keywords
information
terminal
wake
voice data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810241401.4A
Other languages
English (en)
Other versions
CN110299137A (zh
Inventor
王少鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Tencent Cloud Computing Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Tencent Cloud Computing Beijing Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810241401.4A priority Critical patent/CN110299137B/zh
Publication of CN110299137A publication Critical patent/CN110299137A/zh
Application granted granted Critical
Publication of CN110299137B publication Critical patent/CN110299137B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音交互方法和装置。其中,该方法包括:在终端上对检测到的第一语音进行连续录音得到语音数据;将所述语音数据传输给信息处理设备;在所述语音数据包括所述终端的唤醒词和第一待处理信息的情况下,在所述终端上获取所述信息处理设备发送的对所述第一待处理信息进行处理的第一结果信息,其中,所述唤醒词用于将所述终端的状态切换到唤醒状态;在所述终端上执行与所述第一结果信息对应的操作。本发明解决了现有与终端设备进行语音交互的方式,存在语音交互准确性较低的技术问题。

Description

语音交互方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种语音交互方法和装置。
背景技术
目前,在用户与终端设备进行语音交互的过程中,用户需要先使用唤醒词唤醒终端设备;在终端设备被唤醒后,再使用语音指令与终端设备进行交互。然而,在采用上述方式与终端设备进行语音交互时,若连续输入唤醒词与语音指令,由于终端设备无法被及时唤醒,将使得终端设备获取到的语音指令出现信息丢失,从而导致语音交互准确性较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例了提供一种语音交互方法和装置,以至少解决现有与终端设备进行语音交互的方式,存在语音交互准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种语音交互方法,包括:在终端上对检测到的第一语音进行连续录音得到语音数据;将所述语音数据传输给信息处理设备;在所述语音数据包括所述终端的唤醒词和第一待处理信息的情况下,在所述终端上获取所述信息处理设备发送的对所述第一待处理信息进行处理的第一结果信息,其中,所述唤醒词用于将所述终端的状态切换到唤醒状态;在所述终端上执行与所述第一结果信息对应的操作。
根据本发明实施例的另一方面,还提供了一种语音交互方法,包括:在信息处理设备上接收终端传输的语音数据;在所述语音数据包括所述终端的唤醒词和第一待处理信息的情况下,在所述信息处理设备上获取对所述第一待处理信息进行处理的第一结果信息;将获取的所述第一结果信息发送给所述终端。
根据本发明实施例的又一方面,还提供了一种语音交互装置,包括:第一录音单元,用于在终端上对检测到的第一语音进行连续录音得到语音数据;第一传输单元,用于将所述语音数据传输给信息处理设备;第一获取单元,用于在所述语音数据包括所述终端的唤醒词和第一待处理信息的情况下,在所述终端上获取所述信息处理设备发送的对所述第一待处理信息进行处理的第一结果信息,其中,所述唤醒词用于将所述终端的状态切换到唤醒状态;第一执行单元,用于在所述终端上执行与所述第一结果信息对应的操作。
根据本发明实施例的又一方面,还提供了一种语音交互装置,包括:第一接收单元,用于在信息处理设备上接收终端传输的语音数据;第一获取单元,用于在所述语音数据包括所述终端的唤醒词和第一待处理信息的情况下,在所述信息处理设备上获取对所述第一待处理信息进行处理的第一结果信息;第一发送单元,用于将获取的所述第一结果信息发送给所述终端。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述方法。
根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的方法。
在本发明实施例中,采用终端对检测到的语音进行连续录音得到语音数据的方式,通过将连续录音得到的语音数据传输给信息处理设备,在语音数据包括终端的唤醒词和待处理信息的情况下,在终端上获取信息处理设备发送的对待处理信息进行处理的结果信息,并执行与处理结果对应的操作,由于对检测到的语音进行连续录音,在终端被唤醒前输入的语音指令不会丢失,达到了终端设备获取到完整的语音指令的目的,从而实现了提高语音交互准确性的技术效果,进而解决了现有与终端设备进行语音交互的方式,存在语音交互准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种语音交互方法的应用环境的示意图;
图2是根据本发明实施例的一种语音交互方法的流程示意图;
图3是根据本发明实施例的将语音交互方法应用到辅助学习的示意图;
图4是根据本发明实施例的另一种语音交互方法的流程示意图;
图5是根据本发明实施例的一种可选的语音交互方法的示意图;
图6是根据本发明实施例的另一种可选的语音交互方法的示意图;
图7是根据本发明实施例的又一种可选的语音交互方法的示意图;
图8是根据本发明实施例的一种语音交互装置的结构示意图;
图9是根据本发明实施例的另一种语音交互装置的结构示意图;
图10是根据本发明实施例的一种可选的电子装置的结构示意图;
图11是根据本发明实施例的另一种可选的电子装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的一个方面,提供了一种语音交互方法。可选地,上述语音交互方法可以但不限于应用于如图1所示的应用环境中。如图1所示,终端102内的录音部件对检测到的第一语音进行连续录音得到语音数据,并将得到的语音数据通过网络104传输给信息处理设备106(可以是服务器)。信息处理设备106在接收到的语音数据包括终端的唤醒词和第一待处理信息的情况下,获取对第一待处理信息进行处理的第一结果信息,并将第一结果信息通过网络104发送给终端102,其中,唤醒词用于将终端的状态切换到唤醒状态。终端102获取该第一结果信息,并执行与第一结果信息对应的操作。
可选地,在本实施例中,上述终端102可以包括但不限于以下至少之一:智能音箱、智能机器人、智能家电等。上述网络104可以包括但不限于无线网络,其中,该无线网络包括:蓝牙、WIFI及其他实现无线通信的网络。上述信息处理设备106可以包括但不限于以下至少之一:PC机及其他用于计算服务的设备。可选地,终端102与信息处理设备106可以为同一设备,即,获取语音数据与对语音数据进行处理是在同一终端设备中完成的。上述只是一种示例,本实施例对此不做任何限定。
可选地,在本实施例中,作为一种可选的实施方式,如图2所示,上述语音交互方法可以包括:
S202,在终端上对检测到的第一语音进行连续录音得到语音数据;
S204,将语音数据传输给信息处理设备;
S206,在语音数据包括终端的唤醒词和第一待处理信息的情况下,在终端上获取信息处理设备发送的对第一待处理信息进行处理的第一结果信息,其中,唤醒词用于将终端的状态切换到唤醒状态;
S208,在终端上执行与第一结果信息对应的操作。
可选地,上述语音交互方法可以但不限于与智能音箱或智能机器人之间的语音交互过程。例如应用于智能家电的语音控制过程中。上述与智能音箱或智能机器人之间的语音交互可以包括但不限于:语音查询、语音控制、语音需求。上述语音查询可以是百科知识。上述语音控制可以是控制智能音箱或智能机器人执行指定操作,例如,控制智能机器人执行指定动作(例如,前进、后退等)。上述语音需求可以是讲故事、将笑话等。上述与智能音箱或智能机器人之间的语音交互过程可以用于辅助学习(如图3所示)、辅助研究、辅助治疗等方面。上述智能家电可以是智能空调、智能冰箱、智能洗衣机等。对智能家电的语音控制可以是控制调整智能家电的参数。例如,智能空调的开、关机、将温度设定到指定值、设置工作模式等。又例如,控制智能冰箱的开门、关门、移动等。以上只是一种示例,本实施例对此不作任何限定。
例如,以智能音箱为例,智能音箱对检测到的语音(即,第一语音)进行连续录音得到语音数据,并将语音数据传输给后台(即,信息处理设备);在语音数据包括智能音箱的唤醒词和查询语音指令(即,第一待处理信息)的情况下,在智能音箱上获取后台返回的该查询语音指令的查询结果(即,第一结果信息);在智能音箱上通过语音的方式播放该查询结果,和/或者通过显示屏显示查询结果。
又例如,以智能空调为例,智能空调对检测到的语音(即,第一语音)进行连续录音得到语音数据,并将语音数据传输给智能空调的处理部件(相当于信息处理设备);在语音数据包括智能空调的唤醒词和用于指示调整温度至27度的控制信息(第一待处理信息)的情况下,处理部件将智能空调的设定温度调整至27度,并返回用于指示调整完成的结果信息(第一结果信息);在智能空调上给出调整完成的提示信息。
以上只是一种示例,并不对本实施例的语音交互方法作任何限定。
需要说明的是,在相关技术中,语音交互是通过“唤醒词,语音指令”的方式实现的:用户在说完唤醒词后,需要等待终端进入待机状态才能发布语音指令,假如在进入唤醒状态前的发布语音指令则会丢失,容易引起误识别。而在本申请中,通过终端上对检测到的第一语音进行连续录音得到语音数据,将语音数据传输给信息处理设备,在语音数据包括终端的唤醒词和第一待处理信息(如,语音指令)的情况下,获取信息处理设备发送的对第一待处理信息进行处理的第一结果信息,并在终端上执行与第一结果信息对应的操作。由于对检测到的语音进行连续录音,在终端被唤醒前输入的语音指令不会丢失,从而实现提高语音交互准确性,进而解决了现有与终端设备进行语音交互的方式,存在语音交互准确性较低的问题。
可选地,在本实施例中,在终端上对检测到的第一语音进行连续录音得到语音数据。其中,上述语音数据可以包括是但不限于终端的内部的录音器或者外部插件对检测到的语音进行连续录音得到的语音数据。语音数据可以包括但不限于:终端的唤醒词、待处理信息、无效语音信息。
其中,上述唤醒词可以用于将终端的状态切换到唤醒状态。可选地,在本实施例中,在开机后或无语音交互的阶段,终端设备可以处于待机状态,即,不处理用户数据的状态。唤醒词为让终端设备从待机状态到激活状态的语音指令。不同终端设备的唤醒词可以不同,同一终端设备的唤醒词可以变化。唤醒词可以是终端设备的厂商预先设定,可以由用户进行设定,可以由在上一次交互完成后由终端设备提供。上述仅为一种示例,本实施例中对此不作任何限定。
其中,上述待处理信息可以包括但不限于:语音指令及其他可以被信息处理设备识别并处理的信息。上述语音指令可以包括但不限于:语音查询指令、语音控制指令、语音需求指令。以上仅为一种示例,本实施例中对此不作限定。
其中,上述无效语音信息可以包括但不限于:不包含可被识别的内容的噪声或杂音。上述噪声或杂音可以包括但不限于:环境音、终端设备内容的声音。上述环境音可以包括但不限于:白噪声、走路声、汽车声、鸟鸣声等其他周围环境中的事物发出的声音。
可选地,在本实施例中,可以但不限于通过以下方法将语音数据传输给信息处理设备:
1)通过连接终端和信息处理设备的网络完成的,上述网络可以包括但不限于无线网络;
2)通过终端内部的线路完成的,该线路可以包括但不限于:数据总线,连接到内存区或存储器上的线路。
可选地,在本实施例中,终端向信息处理设备传输的语音数据可以是录音得到的全部语音数据,也可以是全部数据中满足目标条件的部分语音数据。例如,录音得到的语音数据中终端的唤醒词及唤醒词之后的语音数据,又例如,录取得到的语音数据中终端的唤醒词的前缀及唤醒词前缀之后的语音数据。可选地,上述唤醒词的前缀可以是唤醒词的前n个字。
例如,终端的唤醒词为“小明你好”,该唤醒词的前缀可以是“小”,“小明”,或者“小明你”。唤醒词的前缀可以预先指定。
可选地,终端将语音数据传输给信息处理设备可以根据预设的触发条件触发的,可以包括但不限于以下方式:
1)在终端上检测到语音数据中包含唤醒词时,开始将语音数据传输给信息处理设备;
2)在终端上检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备。
可选地,在本实施例中,在终端上检测到语音数据中包含唤醒词的前缀时,终端首先进行本地唤醒,终端在进行本地唤醒时可以给出提示信息(如闪灯、发出提示音),也可以不给出提示信息,仅在终端内执行本地唤醒。执行本地唤醒可以通过开启终端与信息处理设备之间的会话进行的。
可选地,可以从终端激活开始,到响应待处理信息(如,语音指令)完成为一次会话。例如,“小明你好,今天天气怎么样”,在接收到唤醒词“小明你好”终端激活为会话开始,在后台处理完成后,终端播报天气内容为会话结束。
可选地,在本实施例中,终端进行连续录音得到语音数据,并持续将得到的语音数据发送给信息处理设备,在开始将语音数据传输到信息处理设备时,终端并未录入全部的语音数据,即,开始传输给信息处理设备的是语音数据中的一部分,终端传输语音数据的方式可以是边录音边传输的方式,也可以是语音数据录音完成后再传输给信息处理设备的方式,其中,录音完成可以根据预定规则由终端确定,例如,在开始传输语音数据给信息处理设备之后录入的语音数据中,在指定时长内为无效语音数据。
例如,终端的唤醒词为“小明你好”,唤醒词的前缀为“小明”。用户连续输入“小明你好今天天气怎么样”(录入的语音数据),当终端设备检测到唤醒词“小明你好”或者唤醒词的前缀“小明”,开始将语音数据传输到信息处理设备。终端开始传输时,终端录入的语音数据的部分“小明你好今天”,即,开始传输的语音数据中包括“小明你好今天”,对于之后录入的“天气怎么样”,可以通过持续传输的方式获取录取完成后传输的方式传输给信息处理设备。
可选地,在终端上检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备可以包括但不限于以下方法:
1)在终端与信息处理设备之间开启会话;使用开启的会话将得到的语音数据全部传输给信息处理设备;
2)在终端与信息处理设备之间开启会话;使用开启的会话将唤醒词的前缀、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备。
例如,终端的唤醒词为“小明你好”,唤醒词的前缀为“小明”。用户连续输入“哈哈,小明你好今天天气怎么样”(录入的语音数据)。终端检测到语音中包含“小明”时,终端开启终端与信息处理设备之间的会话,并通过开启的会话将全部语音数据“哈哈,小明你好今天天气怎么样”传输给信息处理设备,或者,将唤醒词的前缀“小明”、以及语音数据中唤醒词的前缀之后的部分“你好今天天气怎么样”传输给信息处理设备。
可选地,作为一种可选的实施方式,语音数据可以通过边录音边存储的方式进行保存。终端向信息处理设备发送的语音数据为存储的语音数据。
可选地,为避免录音得到的语音数据占用过多的资源,在得到语音数据之后,可以对得到的语音数据进行选择性删除或存储。可以但不限于通过以下方法选择进行删除或者存储的语音数据:
对于超过指定时长或超过指定大小的语音数据,采用先录入先删除的原则,仅保留最近时间段的语音数据,例如,最近5秒、6秒、10秒或1分钟的语音数据,又例如,最近5M、10M或100M的语音数据。
可选地,作为另一种可选的实施方式,可以在终端上设备用于存储语音数据的缓存区,使用录音得到的语音数据实时更新缓存区中的缓存数据。在终端上对得到的语音数据进行识别,在识别到语音数据中包含唤醒词前缀时,将缓存区中的缓存数据、以及语音数据中在唤醒词的前缀之后的语音数据传输给信息处理设备。
由于缓存区具有一定的大小(例如,100k),因此,在检测到录音得到的语音数据包含唤醒词的前缀时,缓存区中的缓存数据包含唤醒词前缀。将缓存区中的缓存数据、以及之后录入的语音数据传输给信息处理设备,可以保证终端可以获取到完整的语音指令。进一步地,由于不需要保存以检测的语音数据,避免了对终端存储资源的占用,提高了系统资源利用率。
可选地,在本实施例中,可以但不限于通过以下方法控制语音数据向信息处理设备的传输:
1)终端持续将录取得到的语音数据传输给信息处理设备,在信息处理设备检测到唤醒词和第一待处理信息后,向终端返回对第一待处理信息进行处理的第一处理结果,通过第一处理结果控制终端对于此次语音交互停止向信息处理设备发送语音数据。
例如,终端持续将检测到的“小明你好今天天气怎么样”传输给信息处理设备。信息处理设备在检测到唤醒词“小明你好”和语音指令“今天天气怎么样”后,对语音指令“今天天气怎么样”进行处理,得到今天的天气状况“天气晴,温度:19至25度……”并发送给终端,终端在包含今天的天气状况的结果信息后,停止向信息处理设备发送语音数据。
2)终端检测连续录音得到的语音数据,如果在唤醒词之后的语音数据中检测到目标时长的语音数据为无效语音信息,停止向信息处理设备发送语音数据,并等待信息处理设备的进一步指示。
可选地,在本实施例中,在将语音数据传输给信息处理设备的过程中,可以通过接收信息处理设备的状态信息的方式进一步精确的控制语音数据的传输,可以但不限于通过以下方法通过状态信息控制语音数据的传输:
1)在终端已向信息处理设备传输了语音数据中的一部分时,在终端上接收信息处理设备发送的第一状态信息,其中,语音数据中的一部分包括:唤醒词;在第一状态信息指示出终端的状态已处于唤醒状态的情况下,将语音数据中除一部分之外的数据继续传输给信息处理设备。
可选地,在本实施例中,在终端向信息处理设备传输了语音数据中包含了终端的唤醒词时,则确定用户发出了唤醒词,以唤醒终端。信息处理设备可以向终端发送第一状态信息,以指示终端唤醒成功。
例如,用户输入唤醒词“小明你好”和语音指令“今天天气怎么样”。终端将连续录音得到的语音数据(包含唤醒词“小明你好”及语音指令“今天天气怎么样”)发送给信息处理设备。信息处理设备在检测到该语音数据中包含唤醒词“小明你好”之后,向终端发送第一状态信息(例如,唤醒标记“1”),告知终端唤醒成功。
2)在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息;在终端上响应第二状态信息发出提示信息,其中,提示信息用于提示用户通过语音输入第二待处理信息,并在终端上对检测到的第二语音进行连续录音得到该第二待处理信息;将第二待处理信息传输给信息处理设备。
可选地,在本实施例中,在得到的语音数据中不包含除唤醒词之外的其他有效信息时,可认为用户使用现有的“唤醒词,语音指令”的方式进行语音交互。终端接收信息处理设备的第二状态信息;依据该第二状态信息发送提示信息,提示信息用于提示用户通过语音输入语音指令(第二待处理信息),提示信息可以是特定的语音,显示屏上的显示信息;对检测到的用户输入的语音(第二语音)进行录音得到语音指令(第二待处理信息);并将得到的语音指令传输给信息处理设备。
可选地,在本实施例中,再将得到的语音指令传输给信息处理设备之后,终端可以获取(例如,通过接收的方式获取)信息处理设备发送的对第二待处理信息进行处理的第二结果信息;在终端上执行与第二结果信息对应的操作。
可选地,在本实施例中,在终端上响应第二状态信息发出提示信息之前,在终端与信息处理设备之间开启第一会话;使用第一会话将第二待处理信息传输给信息处理设备。
例如,用户输入唤醒词“小明你好”,并等待终端唤醒(等待终端给出输入语音指令的提示)。终端连续录音得到的语音数据包含唤醒词“小明你好”及其之后的无效语音信息(例如,噪声或杂音)。信息处理设备在检测到该语音数据后,向终端发送第二状态信息(例如,唤醒标记“2”),该第二状态信息用于提示终端重开会话。终端在接收到第二状态信息后,接收之前的会话(用于传输唤醒词和无效语音信息的会话),并开启一个新的会话,并发出语音“你好”(提示信息)。用户输入语音指令“今天天气怎么样”,终端连续录音得到的语音数据包含语音指令“今天天气怎么样”(第二待处理信息),并将该语音指令通过新开的会话传输给信息处理设备。信息处理设备对该语音指令进行处理,得到今天的天气状况“天气晴,温度:19至25度……”,并发送给终端,终端在接收到包含今天的天气状况的结果信息(第二结果信息)后,通过语音或者显示屏显示的方式将今天的天气状况告知用户。
可选地,在本实施例中,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息之前,还可以在终端上接收信息处理设备发送的第一状态信息,该第一状态信息是由信息处理设备检测到语音数据中包含“唤醒词”后发送的,用以指示出终端的状态已处于唤醒状态。终端继续将语音数据中位于唤醒词之后的无效语音信息传输给信息处理设备。
3)在将语音数据传输给信息处理设备之后,在语音数据未包括终端的唤醒词的情况下,在终端上接收信息处理设备发送的第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
可选地,在本实施例中,在语音数据未包含终端的唤醒词时,则用户并未输入唤醒词,信息处理设备向终端发送第三状态信息,以指示终端状态仍处于未唤醒。终端在接收到第三状态指示信息以后,可以结束与信息处理设备之间的会话。在此种情况下,终端与信息处理设备之间不产生任何实际交互。
例如,终端的唤醒词为“小明你好”,用户输入“小明哈哈”。终端连续录音得到的语音数据包含“小明哈哈”,不包含唤醒词。信息处理设备在检测到该语音数据后,向终端发送第三状态信息(例如,唤醒标记“3”),该第三状态信息用于指示终端状态仍处于未唤醒。终端在接收到第三状态信息后,结束当前会话,不再向信息处理设备发送语音数据。
可选地,在终端上执行与第一结果信息(第二结果信息与第一结果信息类似)对应的操作包括但不限于以下之一:(1)在终端上将第一结果信息以语音的形式进行播放;(2)在终端的显示屏上显示第一结果信息;(3)在终端上执行与第一结果信息对应的控制操作。
通过本实施例,通过终端上对检测到的第一语音进行连续录音得到语音数据,将语音数据传输给信息处理设备,在语音数据包括终端的唤醒词和第一待处理信息的情况下,获取信息处理设备发送的对语音指令进行处理的第一结果信息,并在终端上执行与第一结果信息对应的操作。由于对检测到的语音进行连续录音,在终端被唤醒前输入的语音指令不会丢失,从而实现终端设备获取到完整的语音指令,以提高语音交互准确性。
作为一种可选的方案,在将语音数据传输给信息处理设备的过程中,上述方法还包括:
S1,在终端已向信息处理设备传输了语音数据中的一部分时,在终端上接收信息处理设备发送的第一状态信息,其中,语音数据包括:唤醒词;
将语音数据传输给信息处理设备包括:
S2,在第一状态信息指示出终端的状态已处于唤醒状态的情况下,将语音数据中除一部分之外的数据继续传输给信息处理设备。
通过本实施例,在终端已向信息处理设备传输了包含唤醒词的语音数据中的一部分时,通过在终端上接收信息处理设备发送的用于指示出终端的状态已处于唤醒状态的第一状态信息,并根据第一状态信息将语音数据中除一部分之外的数据继续传输给信息处理设备,从而可以在语音数据传输的过程中提供中间控制,以提高语音传输的效率。
作为一种可选的方案,在将语音数据传输给信息处理设备之后,上述方法还包括:
S1,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息;
S2,在终端上响应第二状态信息发出提示信息,其中,提示信息用于提示用户通过语音输入第二待处理信息;
S3,在终端上对检测到的第二语音进行连续录音得到第二待处理信息;
S4,将第二待处理信息传输给信息处理设备;
S5,在终端上获取信息处理设备发送的对第二待处理信息进行处理的第二结果信息;
S6,在终端上执行与第二结果信息对应的操作。
可选地,在终端上响应第二状态信息发出提示信息之前,方法还包括:
在终端与信息处理设备之间开启第一会话;
将第二待处理信息传输给信息处理设备包括:
S41,使用第一会话将第二待处理信息传输给信息处理设备。
通过本实施例,通过在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息,响应该第二状态信息发出提示,执行连续录音得到第二待处理信息,执行传输第二待处理信息、获取处理结果并指令对应操作的步骤,可以支持现有的“唤醒词,语音指令”(不连续输入)的语音交互方式,提供了语音交互方式的兼容性。
作为一种可选的方案,在将语音数据传输给信息处理设备之后,上述方法还包括:
S1,在语音数据未包括终端的唤醒词的情况下,在终端上接收信息处理设备发送的第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
通过本实施例,在语音数据未包括终端的唤醒词的情况下,在终端上接收信息处理设备发送的用于指示出终端的状态仍处于未唤醒状态的第三状态信息,使得终端可以快速获知语音数据对应的终端状态,提高了语音数据处理的效率。
作为一种可选的方案,将语音数据传输给信息处理设备包括:
在终端上检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备。
可选地,在终端上检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备包括:
S1,在终端上检测到语音数据中包含唤醒词的前缀时,在终端与信息处理设备之间开启第二会话;
S2,使用第二会话将唤醒词的前缀、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备。
可选地,在开始将语音数据传输给信息处理设备之前,该方法还包括:
使用语音数据实时更新终端的缓存区中保存的缓存数据;
使用第二会话将唤醒词的前缀、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备包括:
S21,使用更新后的缓存数据、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备,其中,更新后的缓存数据包含唤醒词的前缀。
例如,终端的唤醒词为“小明你好”,唤醒词的前缀为“小明”。使用录音得到的语音数据实时更新缓存区中的缓存数据。用户连续输入“哈哈小明你好今天天气怎么样”(录入的语音数据)。终端检测到语音数据中包含“小明”时,开启终端与信息处理设备之间的会话,并通过开启的会话将缓存区中的缓存信息(包含唤醒词的前缀“小明”)、以及语音数据中唤醒词的前缀之后的部分“你好今天天气怎么样”传输给信息处理设备。
通过本实施例,通过在检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备,由于在检测到唤醒词的前缀时即开始传输语音数据,提高了语音数据的传输效率,进而提高了对语音数据的处理效率。进一步地,通过建立会话的方式进行语音数据传输,从而使得语音交互是基于会话进行的,提高了语音数据传输的准确性。进一步地,通过使用语音数据实时更新终端的缓存区中保存的缓存数据,并使用更新后的缓存数据、以及语音数据中所述唤醒词的前缀之后的部分传输给信息处理设备,其中,更新后的缓存数据包含唤醒词的前缀,由于语音数据无需占用过多的存储资源,提高了系统资源利用率。
作为一种可选的方案,在终端上执行与第一结果信息对应的操作包括以下之一:(1)在终端上将第一结果信息以语音的形式进行播放;(2)在终端的显示屏上显示第一结果信息;(3)在终端上执行与第一结果信息对应的控制操作。
通过本实施例,通过在终端上执行与第一结果信息对应的不同操作,从而提高了语音数据处理的多样性,提高用户体验。
根据本发明实施例的另一个方面,还提供了一种语音交互方法,可选地,上述语音交互方法可以但不限于应用于如图1所示的应用环境中。实现步骤可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,作为一种可选的实施方式,如图4所示,上述语音交互方法可以包括:
S402,在信息处理设备上接收终端传输的语音数据;
S404,在语音数据包括终端的唤醒词和第一待处理信息的情况下,在信息处理设备上获取对第一待处理信息进行处理的第一结果信息;
S406,将获取的第一结果信息发送给终端。
可选地,上述语音交互方法可以但不限于与智能音箱或智能机器人之间的语音交互过程。例如应用于智能家电的语音控制过程中。应用方式可以参照上述实施例,本实施例中不再赘述。
需要说明的是,在相关技术中,语音交互是通过“唤醒词,语音指令”的方式实现的,假如在进入唤醒状态前发布语音指令则会丢失,容易引起误识别。而在本申请中,通过在信息处理设备上接收的语音数据包括终端的唤醒词和第一待处理信息的情况下,信息处理设备对第一待处理信息进行处理得到第一待处理信息并发送给终端。由于语音数据中包含了唤醒词和语音指令,因此,在终端被唤醒前输入的语音指令不会丢失,从而实现提高语音交互准确性,进而解决了现有与终端设备进行语音交互的方式,存在语音交互准确性较低的技术问题。
可选地,在本实施例中,在信息处理设备上接收终端传输的语音数据。其中,上述语音数据可以包括是但不限于终端内部的录音器或者外部插件对检测到的语音进行连续录音得到的语音数据。语音数据可以包括但不限于:终端的唤醒词、待处理信息、无效语音信息。
其中,上述语音数据、唤醒词、待处理信息、无效语音信息以及接收语音数据方式的示例可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,在信息处理设备上接收终端发送的语音数据的过程中,可以但不限于通过以下方法通过状态信息控制语音数据的传输:
1)在信息处理设备已接收到语音数据中的一部分时,向终端上发送第一状态信息,其中,语音数据中包括:唤醒词;在第一状态信息指示出终端的状态已处于唤醒状态的情况下,接收终端传输的语音数据中除一部分之外的数据。
可选地,在本实施例中,在信息处理设备已接收到唤醒词时,信息处理设备可以向终端发送第一状态信息,以指示终端唤醒成功。
2)在信息处理设备上接收终端传输的语音数据之后,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在信息处理设备上向终端发送第二状态信息;在信息处理设备上接收终端传输的第二待处理信息;在信息处理设备上获取对第二待处理信息进行处理的第二结果信息;将获取的第二结果信息发送给终端。
可选地,在本实施例中,在接收的语音数据中除唤醒词之外不包含其他有效信息时,在信息处理设备上向终端发送第二状态信息;在信息处理设备上接收终端传输的第二待处理信息;在信息处理设备上获取对第二待处理信息进行处理的第二结果信息;并将获取的第二结果信息发送给终端。
可选地,在本实施例中,在信息处理设备上向终端发送第二状态信息之后,在信息处理设备与终端之间开启第一会话;使用第一会话接收终端传输的第二待处理信息。
可选地,在本实施例中,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在向终端发送第二状态信息之前,还可以在信息处理设备上发送第一状态信息,该第一状态信息是由信息处理设备检测到语音数据中包含唤醒词后发送的,用以指示出终端的状态已处于唤醒状态。终端继续将之后的语音数据传输给信息处理设备。
3)在信息处理设备上接收终端传输的语音数据之后,在语音数据未包括终端的唤醒词的情况下,在信息处理设备上向终端发送第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
可选地,在本实施例中,在语音数据未包含终端的唤醒词时,则用户并未输入唤醒词,信息处理设备向终端发送第三状态信息,以指示终端状态仍处于未唤醒。在发送第三状态指示信息之后,可以结束与终端之间的会话。在此种情况下,信息处理设备与终端之间不产生任何实际交互。
可选地,在本实施例中,在信息处理设备上接收终端传输的语音数据包括:在信息处理设备与终端之间开启第二会话;在信息处理设备上使用第二会话接收终端传输的语音数据。
可选地,在本实施例中,第一结果信息(第二结果信息与第一结果信息类似)对应的操作包括以下之一:(1)在终端上将第一结果信息以语音的形式进行播放;(2)在终端的显示屏上显示第一结果信息;(3)在终端上执行与第一结果信息对应的控制操作。
作为一种可选的方案,在在信息处理设备上接收终端发送的语音数据的过程中,上述方法还包括:
在信息处理设备已接收到语音数据中的一部分时,向终端上发送第一状态信息,其中,语音数据中的一部分包括:唤醒词;
在信息处理设备上接收终端传输的语音数据包括:
S1,在第一状态信息指示出终端的状态已处于唤醒状态的情况下,接收终端传输的语音数据中除一部分之外的数据。
通过本实施例,在信息处理设备已接收到包含唤醒词的语音数据中的一部分时,通过信息处理设备向终端发送用于指示出终端的状态已处于唤醒状态的第一状态信息,并接收终端传输的语音数据中除一部分之外的数据,可以在语音数据传输的过程中提供中间控制,以提高语音传输的效率。
作为一种可选的方案,在信息处理设备上接收终端传输的语音数据之后,上述方法还包括:
S1,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在信息处理设备上向终端发送第二状态信息;
S2,在信息处理设备上接收终端传输的第二待处理信息;
S3,在信息处理设备上获取对第二待处理信息进行处理的第二结果信息;
S4,将获取的第二结果信息发送给终端。
可选地,在信息处理设备上向终端发送第二状态信息之后,上述方法还包括:
S1,在信息处理设备与终端之间开启第一会话;
S2,在信息处理设备上接收终端传输的第二待处理信息包括:
S3,用第一会话接收终端传输的第二待处理信息。
通过本实施例,通过在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在信息处理设备上向终端发送第二状态信息,接收终端传输的第二待处理信息,获取对第二待处理信息进行处理的第二结果信息;将获取的第二结果信息发送给终端,可以支持现有的“唤醒词,语音指令”的语音交互方式,提供了语音交互方式的兼容性。
作为一种可选的方案,在信息处理设备上接收终端传输的语音数据之后,上述方法还包括:
在语音数据未包括终端的唤醒词的情况下,在信息处理设备上向终端发送第三状态指示信息状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
通过本实施例,在语音数据未包括终端的唤醒词的情况下,在信息处理设备上向终端发送用于指示出终端的状态仍处于未唤醒状态的第三状态信息,使得终端可以快速获知语音数据对应的终端状态,提高了语音数据处理的效率。
作为一种可选的方案,在信息处理设备上接收终端传输的语音数据包括:
S1,在信息处理设备与终端之间开启第二会话;
S2,在信息处理设备上使用第二会话接收终端传输的语音数据。
通过本实施例,通过建立会话的方式进行语音数据传输,从而使得语音交互是基于会话进行的,提高了语音数据传输的准确性。
作为一种可选的方案,第一结果信息对应的操作包括以下之一:(1)在终端上将第一结果信息以语音的形式进行播放;(2)在终端的显示屏上显示第一结果信息;(3)在终端上执行与第一结果信息对应的控制操作。
通过本实施例,通过第一结果信息执行终端执行与第一结果信息对应的不同操作,从而提高了语音数据处理的多样性,提高用户体验。
为说明本实施例的语音交互方法,具体结合以下示例说明。在本示例中,终端为智能音箱,信息处理设备为后台设备(简称为后台)。智能音箱的唤醒词为“小明你好”,唤醒词的前缀为“小明”。通过唤醒词的前缀触发智能音箱与后台的交互。后台返回给智能音箱的唤醒标记包括:1、2、3,其中,“1”指示终端已处于唤醒状态,“2”指示需要客户端重开会话,“3”指示终端处于未唤醒状态。在智能音箱待机状态下,内存长期持有一个100k的缓冲区,用于缓存实时录音而来的声音刷新缓存区中的数据,以保存完整唤醒词的前缀数据。
在智能音箱的本地检测到唤醒词“小明你好”的前缀“小明”后,本地唤醒模块(智能音箱中的功能模块或者目标部件)开始回调,此时开启智能音箱与后台之间的会话,通过该会话将缓冲区的前缀数据加上之后用户说话的声音持续发给后台,后台校验识别结果,并返回唤醒标记1、2、3用来标记终端的状态。
用户输入的语音数据的内容可以包括以下几种:(1)“唤醒词的前缀+非唤醒词的后缀的语音数据”;(2)“唤醒词语音指令(连续输入)”;(3)“唤醒词,语音指令(非连续输入)”。
下面分别对上述几种场景分别进行说明。
如图5所示,用户输入的语音数据为“小明哈哈”。语音交互方法包括以下步骤:
S1,智能音箱处于待机状态,时刻更新缓冲区中的录入的语音数据,并且同时将语音数据传给智能音箱的本地唤醒模块;
S2,当检测到唤醒词前缀“小明”时,智能音箱的本地唤醒模块开始回调,开启智能音箱与后台的会话,通过该会话传输缓冲区的前缀数据加上之后用户说话的声音数据,该传输过程是持续的,智能音箱持续录入语音数据,并通过该会话持续传输到后台。
S3,后台检测到传输的语音数据中不包含唤醒词“小明你好”,向智能音箱回包,返回唤醒标记“3”,告诉智能音箱唤醒失败,结束智能音箱与后台的会话,此时智能音箱与后台之间不产生任何实际交互。
如图6所示,用户输入的语音数据为“小明你好今天天气怎么样”。语音交互方法包括以下步骤:
S1,智能音箱处于待机状态,时刻更新缓冲区中的录入的语音数据,并且同时将语音数据传给智能音箱的本地唤醒模块;
S2,当检测到唤醒词前缀“小明”时,智能音箱的本地唤醒模块开始回调,开启智能音箱与后台的会话,通过该会话传输缓冲区的前缀数据加上之后用户说话的声音数据,该传输过程是持续的,智能音箱持续录入语音数据,并通过该会话持续传输到后台。
S3,后台检测到传输的语音数据中包含唤醒词“小明你好”,向智能音箱回包,返回唤醒标记“1”,告诉智能音箱唤醒成功,客户端保持会话。
S4,智能音箱通过建立的会话持续将录取的语音数据传输到后台进行识别,最终将语音数据“小明你好今天天气怎么样”传输到后台,后台回包(包含获取的天气状况)给智能音箱,智能音箱再给予用户进一步响应。
如图7所示,用户输入的语音数据为“小明你好,今天天气怎么样”(不连续输入)。语音交互方法包括以下步骤:
S1,智能音箱处于待机状态,时刻更新缓冲区中的录入的语音数据,并且同时将语音数据传给智能音箱的本地唤醒模块;
S2,当检测到唤醒词前缀“小明”时,智能音箱的本地唤醒模块开始回调,开启智能音箱与后台的会话,通过该会话传输缓冲区的前缀数据加上之后用户说话的声音数据,该传输过程是持续的,智能音箱持续录入语音数据,并通过该会话持续传输到后台。
S3,后台检测到传输的语音数据中包含唤醒词“小明你好”,向智能音箱回包,返回唤醒标记“1”,告诉智能音箱唤醒成功,客户端保持会话。
S4,智能音箱通过建立的会话持续将录取的语音数据传输到后台进行识别,后台识别出唤醒词之后传输的语音数据中无有效音频数据,返回唤醒标记“2”给智能音箱。
S5,智能音箱收到后台返回的唤醒标记“2”后,结束当前会话,并重新开一个会话处理,提示用户输入语音指令,将录音得到的“今天天气怎么样”传输给后台,后台回包(包含获取的天气状况)给智能音箱,智能音箱再给予用户进一步响应。
通过本实施例,通过对检测到语音进行连续录音得到语音数据,并将得到的语音数据传输给信息处理设备,通过信息处理设备对传输的语音数据进行处理,从而实现了支持用户在唤醒词后连续发布待处理数据。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
根据本发明实施例的另一个方面,还提供了一种用于实施上述语音交互方法的语音交互装置,可选地,上述语音交互装置可以但不限于应用于如图1所示的应用环境中。实现步骤可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,作为一种可选的实施方式,如图8所示,该装置包括:
(1)第一录音单元802,用于在终端上对检测到的第一语音进行连续录音得到语音数据;
(2)第一传输单元804,用于将语音数据传输给信息处理设备;
(3)第一获取单元806,用于在语音数据包括终端的唤醒词和第一待处理信息的情况下,在终端上获取信息处理设备发送的对第一待处理信息进行处理的第一结果信息,其中,唤醒词用于将终端的状态切换到唤醒状态;
(4)第一执行单元808,用于在终端上执行与第一结果信息对应的操作。
可选地,上述语音交互装置可以但不限于与智能音箱或智能机器人之间的语音交互过程。例如应用于智能家电的语音控制过程中。应用方式可以参照上述实施例,本实施例中不再赘述。
需要说明的是,在相关技术中,语音交互是通过“唤醒词,语音指令”的方式实现的,假如在进入唤醒状态前发布语音指令则会丢失,容易引起误识别。而在本申请中,通过终端(上述语音交互装置)上对检测到的第一语音进行连续录音得到语音数据,将语音数据传输给信息处理设备,在语音数据包括终端的唤醒词和第一待处理信息的情况下,获取信息处理设备发送的对第一待处理信息进行处理的第一结果信息,并在终端上执行与第一结果信息对应的操作。由于对检测到的语音进行连续录音,在终端被唤醒前输入的语音指令不会丢失,从而提高了语音交互准确性,进而解决了现有与终端设备进行语音交互的方式,存在语音交互准确性较低的问题。
可选地,在本实施例中,在终端上对检测到的第一语音进行连续录音得到语音数据。其中,上述语音数据可以包括是但不限于终端内部的录音器或者外部插件对检测到的语音进行连续录音得到的语音数据。语音数据可以包括但不限于:终端的唤醒词、待处理信息、无效语音信息。
其中,上述语音数据、唤醒词、唤醒词的前缀、待处理信息、无效语音信息传输语音数据方式以及触发传输语音数据的方式的示例可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,在终端上检测到语音数据中包含唤醒词的前缀时,终端首先进行本地唤醒,终端在进行本地唤醒时可以给出提示信息。
可选地,在终端上检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备的方法的示例可以参照上述实施例,本实施例中不再赘述。
可选地,语音数据的存储方式以及基于不同存储方式进行语音数据传输的方式的示例可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,控制语音数据向信息处理设备传输的方式的示例可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,在将语音数据传输给信息处理设备的过程中,可以通过接收信息处理设备的状态信息的方式进一步精确的控制语音数据的传输,可以但不限于通过以下方法通过状态信息控制语音数据的传输:
1)在终端已向信息处理设备传输了语音数据中的一部分时,在终端上接收信息处理设备发送的第一状态信息,其中,所述语音数据中的一部分包括:唤醒词;在第一状态信息指示出终端的状态已处于唤醒状态的情况下,将语音数据中除一部分之外的数据继续传输给信息处理设备。
可选地,在本实施例中,通过第一状态信息控制语音数据的传输的示例可以参照上述实施例,本实施例中不再赘述。
2)在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息;在终端上响应第二状态信息发出提示信息,其中,提示信息用于提示用户通过语音输入第二待处理信息,并在终端上对检测到的第二语音进行连续录音得到该第二待处理信息;将第二待处理信息传输给信息处理设备。
可选地,在本实施例中,通过第二状态信息控制语音数据的传输的示例可以参照上述实施例,本实施例中不再赘述。
3)在将语音数据传输给信息处理设备之后,在语音数据未包括终端的唤醒词的情况下,在终端上接收信息处理设备发送的第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
可选地,在本实施例中,通过第三状态信息控制语音数据的传输的示例可以参照上述实施例,本实施例中不再赘述。
可选地,在终端上执行与第一结果信息(第二结果信息与第一结果信息类似)对应的操作的示例可以参照上述实施例,本实施例中不再赘述。
通过本实施例,通过终端上对检测到的第一语音进行连续录音得到语音数据,将语音数据传输给信息处理设备,在语音数据包括终端的唤醒词和第一待处理信息的情况下,获取信息处理设备发送的对语音指令进行处理的第一结果信息,并在终端上执行与第一结果信息对应的操作。由于对检测到的语音进行连续录音,在终端被唤醒前输入的语音指令不会丢失,从而实现终端设备获取到完整的语音指令,以提高语音交互准确性。
作为一种可选的方案,上述装置还包括:
第一接收单元,用于在将语音数据传输给信息处理设备的过程中,在终端已向信息处理设备传输了语音数据中的一部分时,在终端上接收信息处理设备发送的第一状态信息,其中,语音数据中的一部分包括:唤醒词;
第一传输单元804包括:
第一传输模块,用于在第一状态信息指示出终端的状态已处于唤醒状态的情况下,将语音数据中除一部分之外的数据继续传输给信息处理设备。
通过本实施例,在终端已向信息处理设备传输了包括唤醒词的语音数据中的一部分时,通过在终端上接收信息处理设备发送的用于指示出终端的状态已处于唤醒状态的第一状态信息,并根据第一状态信息将语音数据中除一部分之外的数据继续传输给信息处理设备,从而可以在语音数据传输的过程中提供中间控制,以提高语音传输的效率。
作为一种可选的方案,上述装置还包括:
(1)第二接收单元,用于在将语音数据传输给信息处理设备之后,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息;
(2)提示单元,用于在终端上响应第二状态信息发出提示信息,其中,提示信息用于提示用户通过语音输入第二待处理信息;
(3)第二录音单元,用于在终端上对检测到的第二语音进行连续录音得到第二待处理信息;
(4)第二传输单元,用于将第二待处理信息传输给信息处理设备;
(5)第二获取单元,用于在终端上获取信息处理设备发送的对第二待处理信息进行处理的第二结果信息;
(6)第二执行单元,用于在终端上执行与第二结果信息对应的操作。
可选地,上述装置还包括:
开启单元,用于在终端上响应第二状态信息发出提示信息之前,在终端与信息处理设备之间开启第一会话;
第二传输单元包括:
第二传输模块,用于使用第一会话将第二待处理信息传输给信息处理设备。
通过本实施例,通过在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息,响应该第二状态信息发出提示,执行连续录音得到第二待处理信息,执行传输第二待处理信息、获取处理结果并指令对应操作的步骤,可以支持现有的“唤醒词,语音指令”的语音交互方式,提供了语音交互方式的兼容性。
作为一种可选的方案,上述装置还包括:
第三接收单元,用于在将语音数据传输给信息处理设备之后,在语音数据未包括终端的唤醒词的情况下,在终端上接收信息处理设备发送的第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
通过本实施例,在语音数据未包括终端的唤醒词的情况下,在终端上接收信息处理设备发送的用于指示出终端的状态仍处于未唤醒状态的第三状态信息,使得终端可以快速获知语音数据对应的终端状态,提高了语音数据处理的效率。
作为一种可选的方案,第一传输单元包括:
第三传输模块,用于在终端上检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备。
可选地,第三传输模块包括:
(1)开启子模块,用于在终端上检测到语音数据中包含唤醒词的前缀时,在终端与信息处理设备之间开启第二会话;
(2)传输子模块,用于使用第二会话将唤醒词的前缀、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备。
可选地,上述装置还包括:
更新单元,用于在开始将语音数据传输给信息处理设备之前,使用语音数据实时更新终端的缓存区中保存的缓存数据;
传输子模块包括:
传输子单元,用于使用更新后的缓存数据、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备,其中,更新后的缓存数据包含唤醒词的前缀。
通过本实施例,通过在检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备,由于在检测到唤醒词的前缀时即开始传输语音数据,提高了语音数据的传输效率,进而提高了对语音数据的处理效率。进一步地,通过建立会话的方式进行语音数据传输,从而使得语音交互是基于会话进行的,提高了语音数据传输的准确性。进一步地,通过使用语音数据实时更新终端的缓存区中保存的缓存数据,并使用更新后的缓存数据、以及语音数据中所述唤醒词的前缀之后的部分传输给信息处理设备,其中,更新后的缓存数据包含唤醒词的前缀,由于语音数据无需占用过多的存储资源,提高了系统资源利用率。
作为一种可选的方案,第一执行单元包括以下之一:(1)播放模块,用于在终端上将第一结果信息以语音的形式进行播放;(2)显示模块,用于在终端的显示屏上显示第一结果信息;(3)执行模块,用于在终端上执行与第一结果信息对应的控制操作。
通过本实施例,通过在终端上执行与第一结果信息对应的不同操作,从而提高了语音数据处理的多样性,提高用户体验。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语音交互方法的语音交互装置,可选地,上述语音交互装置可以但不限于应用于如图1所示的应用环境中。实现步骤可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,作为一种可选的实施方式,如图9所示,该装置包括:
第一接收单元902,用于在信息处理设备上接收终端传输的语音数据;
第一获取单元904,用于在语音数据包括终端的唤醒词和第一待处理信息的情况下,在信息处理设备上获取对第一待处理信息进行处理的第一结果信息;
第一发送单元906,用于将获取的第一结果信息发送给终端。
可选地,上述语音交互装置可以但不限于与智能音箱或智能机器人之间的语音交互过程。例如应用于智能家电的语音控制过程中。应用方式可以参照上述实施例,本实施例中不再赘述。
需要说明的是,在相关技术中,语音交互是通过“唤醒词,语音指令”的方式实现的,假如在进入唤醒状态前发布语音指令则会丢失,容易引起误识别。而在本申请中,通过在信息处理设备上接收的语音数据包括终端的唤醒词和第一待处理信息的情况下,信息处理设备对第一待处理信息进行处理得到第一待处理信息并发送给终端。由于语音数据中包含了唤醒词和语音指令,因此,在终端被唤醒前输入的语音指令不会丢失,从而实现提高语音交互准确性,进而解决了现有与终端设备进行语音交互的方式,存在语音交互准确性较低的技术问题。
可选地,在本实施例中,在信息处理设备上接收终端传输的语音数据。其中,上述语音数据可以包括是但不限于终端的内部录音部件(录音器)或者外部插件对检测到的语音进行连续录音得到的语音数据。语音数据可以包括但不限于:终端的唤醒词、待处理信息、无效语音信息。
其中,上述语音数据、唤醒词、待处理信息、无效语音信息以及接收语音数据方式的示例可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,在信息处理设备上接收终端发送的语音数据的过程中,可以但不限于通过以下方法通过状态信息控制语音数据的传输:
1)在信息处理设备已接收到语音数据中的一部分时,向终端上发送第一状态信息,其中,语音数据中的一部分包括:唤醒词;在第一状态信息指示出终端的状态已处于唤醒状态的情况下,接收终端传输的语音数据中除一部分之外的数据。
可选地,在本实施例中,通过第一状态信息控制语音数据的传输的示例可以参照上述实施例,本实施例中不再赘述。
2)在信息处理设备上接收终端传输的语音数据之后,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在信息处理设备上向终端发送第二状态信息;在信息处理设备上接收终端传输的第二待处理信息;在信息处理设备上获取对第二待处理信息进行处理的第二结果信息;将获取的第二结果信息发送给终端。
可选地,在本实施例中,通过第二状态信息控制语音数据的传输的示例可以参照上述实施例,本实施例中不再赘述。
3)在信息处理设备上接收终端传输的语音数据之后,在语音数据未包括终端的唤醒词的情况下,在信息处理设备上向终端发送第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
可选地,通过第二状态信息控制语音数据的传输的示例可以参照上述实施例,本实施例中不再赘述。
可选地,在本实施例中,第一结果信息(第二结果信息与第一结果信息类似)对应的操作的示例可以参照上述实施例,本实施例中不再赘述。
作为一种可选的方案,上述装置还包括:
第二发送单元,用于在在信息处理设备上接收终端发送的语音数据的过程中,在信息处理设备已接收到唤醒词、以及第一待处理信息中的一部分时,向终端上发送第一状态信息;
第一接收单元902包括:
第一接收模块,用于在第一状态信息指示出终端的状态已处于唤醒状态的情况下,接收终端传输的语音数据中除一部分之外的数据。
通过本实施例,在信息处理设备已接收到语音数据中的一部分(例如,包含唤醒词或者唤醒词以及第一待处理信息中的一部分)时,通过信息处理设备向终端发送用于指示出终端的状态已处于唤醒状态的第一状态信息,并接收终端传输的语音数据中除一部分之外的数据,从而可以在语音数据传输的过程中提供中间控制,以提高语音传输的效率。
作为一种可选的方案,上述装置还包括:
(1)第三发送单元,用于在信息处理设备上接收终端传输的语音数据之后,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在信息处理设备上向终端发送第二状态信息;
(2)第二接收单元,用于在信息处理设备上接收终端传输的第二待处理信息;
(3)第二获取单元,用于在信息处理设备上获取对第二待处理信息进行处理的第二结果信息;
(4)第四发送单元,用于将获取的第二结果信息发送给终端。
可选地,上述装置还包括:
(1)开启单元,用于在信息处理设备上向终端发送第二状态信息之后,在信息处理设备与终端之间开启第一会话;
(2)第二接收单元,用于使用第一会话接收终端传输的第二待处理信息。
通过本实施例,通过在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在信息处理设备上向终端发送第二状态信息,接收终端传输的第二待处理信息,获取对第二待处理信息进行处理的第二结果信息;将获取的第二结果信息发送给终端,可以支持现有的“唤醒词,语音指令”的语音交互方式,提供了语音交互方式的兼容性。
作为一种可选的方案,上述装置还包括:
第五发送单元,用于在信息处理设备上接收终端传输的语音数据之后,在语音数据未包括终端的唤醒词的情况下,在信息处理设备上向终端发送第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
通过本实施例,在语音数据未包括终端的唤醒词的情况下,在信息处理设备上向终端发送用于指示出终端的状态仍处于未唤醒状态的第三状态信息,使得终端可以快速获知语音数据对应的终端状态,提高了语音数据处理的效率。
作为一种可选的方案,第一接收单元902包括:
(1)开启模块,用于在信息处理设备与终端之间开启第二会话;
(2)第二接收模块,用于在信息处理设备上使用第二会话接收终端传输的语音数据。
通过本实施例,通过建立会话的方式进行语音数据传输,从而使得语音交互是基于会话进行的,提高了语音数据传输的准确性。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在终端上对检测到的第一语音进行连续录音得到语音数据;
S2,将语音数据传输给信息处理设备;
S3,在语音数据包括终端的唤醒词和第一待处理信息的情况下,在终端上获取信息处理设备发送的对第一待处理信息进行处理的第一结果信息,其中,唤醒词用于将终端的状态切换到唤醒状态;
S4,在终端上执行与第一结果信息对应的操作。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在将语音数据传输给信息处理设备的过程中,在终端已向信息处理设备传输了语音数据中的一部分时,在终端上接收信息处理设备发送的第一状态信息,其中,语音数据中的一部分包括:唤醒词;
S2,在第一状态信息指示出终端的状态已处于唤醒状态的情况下,将语音数据中除一部分之外的数据继续传输给信息处理设备。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在将语音数据传输给信息处理设备之后,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在终端上接收信息处理设备发送的第二状态信息;
S2,在终端上响应第二状态信息发出提示信息,其中,提示信息用于提示用户通过语音输入第二待处理信息;
S3,在终端上对检测到的第二语音进行连续录音得到第二待处理信息;
S4,将第二待处理信息传输给信息处理设备;
S5,在终端上获取信息处理设备发送的对第二待处理信息进行处理的第二结果信息;
S6,在终端上执行与第二结果信息对应的操作。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在终端上响应第二状态信息发出提示信息之前,在终端与信息处理设备之间开启第一会话;
S2,使用第一会话将第二待处理信息传输给信息处理设备。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在将语音数据传输给信息处理设备之后,在语音数据未包括终端的唤醒词的情况下,在终端上接收信息处理设备发送的第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在终端上检测到语音数据中包含唤醒词的前缀时,开始将语音数据传输给信息处理设备。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在终端上检测到语音数据中包含唤醒词的前缀时,在终端与信息处理设备之间开启第二会话;
S2,使用第二会话将唤醒词的前缀、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在开始将语音数据传输给信息处理设备之前,使用语音数据实时更新终端的缓存区中保存的缓存数据;
S2,使用更新后的缓存数据、以及语音数据中唤醒词的前缀之后的部分传输给信息处理设备,其中,更新后的缓存数据包含唤醒词的前缀。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在终端上将第一结果信息以语音的形式进行播放;
S2,在终端的显示屏上显示第一结果信息;
S3,在终端上执行与第一结果信息对应的控制操作。
根据本发明的实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在信息处理设备上接收终端传输的语音数据;
S2,在语音数据包括终端的唤醒词和第一待处理信息的情况下,在信息处理设备上获取对第一待处理信息进行处理的第一结果信息;
S3,将获取的第一结果信息发送给终端。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在在信息处理设备上接收终端发送的语音数据的过程中,在信息处理设备已接收到语音数据中的一部分时,向终端上发送第一状态信息,其中,语音数据中的一部分包括:唤醒词;
S2,在信息处理设备上接收终端传输的语音数据包括:在第一状态信息指示出终端的状态已处于唤醒状态的情况下,接收终端传输的语音数据中除一部分之外的数据。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在信息处理设备上接收终端传输的语音数据之后,在语音数据包括唤醒词和位于唤醒词之后的无效语音信息的情况下,在信息处理设备上向终端发送第二状态信息;
S2,在信息处理设备上接收终端传输的第二待处理信息;
S3,在信息处理设备上获取对第二待处理信息进行处理的第二结果信息;
S4,将获取的第二结果信息发送给终端。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在信息处理设备上向终端发送第二状态信息之后,在信息处理设备与终端之间开启第一会话;
S2,在信息处理设备上接收终端传输的第二待处理信息包括:使用第一会话接收终端传输的第二待处理信息。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在信息处理设备上接收终端传输的语音数据之后,在语音数据未包括终端的唤醒词的情况下,在信息处理设备上向终端发送第三状态信息,其中,第三状态信息指示出终端的状态仍处于未唤醒状态。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在信息处理设备与终端之间开启第二会话;
S2,在信息处理设备上使用第二会话接收终端传输的语音数据。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语音交互的电子装置,如图10所示,该电子装置包括:处理器1002、存储器1004、显示器1006、用户接口1008、传输装置1010、录音部件1012等。该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在终端上对检测到的第一语音进行连续录音得到语音数据;
S2,将语音数据传输给信息处理设备;
S3,在语音数据包括终端的唤醒词和第一待处理信息的情况下,在终端上获取信息处理设备发送的对第一待处理信息进行处理的第一结果信息,其中,唤醒词用于将终端的状态切换到唤醒状态;
S4,在终端上执行与第一结果信息对应的操作。
可选地,本领域普通技术人员可以理解,图10所示的结构仅为示意,电子装置也可以是智能音箱、智能机器人以及智能家电等终端设备。图10其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等),或者具有与图10所示不同的配置。
其中,存储器1004可用于存储软件程序以及模块,如本发明实施例中的语音交互方法和装置对应的程序指令/模块,处理器1002通过运行存储在存储器1004内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述语音交互方法。存储器1004可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1004可进一步包括相对于处理器1002远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1010用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1010包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1010为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
上述录音部件1012用于对检测到的第一语音进行连续录音得到语音数据。上述显示器1006显示与待处理信息对应的结果信息,或者结果信息对应的内容,用户接口1008,用于获取输入的操作指令,其中,例如终端的配置指令、调整指令等。
根据本发明实施例的又一个方面,还提供了一种用于实施上述语音交互的电子装置,如图11所示,该电子装置包括:处理器1102、存储器1104、传输装置1106等。该存储器中存储有计算机程序,该处理器被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在信息处理设备上接收终端传输的语音数据;
S2,在语音数据包括终端的唤醒词和第一待处理信息的情况下,在信息处理设备上获取对第一待处理信息进行处理的第一结果信息;
S3,将获取的第一结果信息发送给终端。
可选地,本领域普通技术人员可以理解,图11所示的结构仅为示意,电子装置也可以是服务器等终端设备。图11其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图11中所示更多或者更少的组件(如网络接口等),或者具有与图11所示不同的配置。
其中,存储器1104可用于存储软件程序以及模块,如本发明实施例中的语音交互方法和装置对应的程序指令/模块,处理器1102通过运行存储在存储器1104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述语音交互方法。存储器1104可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1104可进一步包括相对于处理器1102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置1106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置1106包括一个NIC,其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置1106为RF模块,其用于通过无线方式与互联网进行通讯。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种语音交互方法,其特征在于,包括:
在终端上对检测到的第一语音进行连续录音得到语音数据;
根据对所述语音数据的识别结果确定所述语音数据中包括所述终端的唤醒词的前缀的情况下,根据所述唤醒词的前缀对所述终端进行第一唤醒操作,并在所述终端与信息处理设备之间开启第二会话,其中,所述唤醒词的前缀为根据所述唤醒词预先设置的多个字符;
在所述语音数据包括所述唤醒词和第一待处理信息,且所述唤醒词与所述第一待处理信息之间的时间间隔小于目标间隔的情况下,使用所述第二会话将所述唤醒词传输给所述信息处理设备,并在所述终端上获取所述信息处理设备使用所述第二会话发送的第一状态信息,其中,所述第一状态信息用于将所述终端的状态切换为唤醒状态;
使用所述第二会话将所述第一待处理信息的数据传输给所述信息处理设备,并接收所述信息处理设备使用所述第二会话发送的第一结果信息,其中,所述第一结果信息为所述信息处理设备对所述第一待处理信息进行处理得到的结果信息;
响应于接收到所述信息处理设备发送的所述第一结果信息,在所述终端上执行与所述第一结果信息对应的操作。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述语音数据包括所述唤醒词和位于所述唤醒词之后的无效语音信息的情况下,在所述终端上接收所述信息处理设备发送的第二状态信息;在所述终端上响应所述第二状态信息发出提示信息,其中,所述提示信息用于提示用户通过语音输入第二待处理信息;在所述终端上对检测到的第二语音进行连续录音得到所述第二待处理信息;将所述第二待处理信息传输给所述信息处理设备;在所述终端上获取所述信息处理设备发送的对所述第二待处理信息进行处理的第二结果信息;在所述终端上执行与所述第二结果信息对应的操作;和/或,
在所述语音数据未包括所述终端的唤醒词的情况下,在所述终端上接收所述信息处理设备发送的第三状态信息,其中,所述第三状态信息指示出所述终端的状态仍处于未唤醒状态。
3.根据权利要求2所述的方法,其特征在于,
在所述终端上响应所述第二状态信息发出所述提示信息之前,所述方法还包括:在所述终端与所述信息处理设备之间开启第一会话;
将所述第二待处理信息传输给所述信息处理设备包括:使用所述第一会话将所述第二待处理信息传输给所述信息处理设备。
4.根据权利要求1所述的方法,其特征在于,
在开始将所述语音数据中包括的唤醒词和第一待处理信息传输给所述信息处理设备之前,所述方法还包括:使用所述语音数据实时更新所述终端的缓存区中保存的缓存数据;
使用所述第二会话将所述唤醒词的前缀、以及所述语音数据中所述唤醒词的前缀之后的部分传输给所述信息处理设备包括:使用更新后的所述缓存数据、以及所述语音数据中所述唤醒词的前缀之后的部分传输给所述信息处理设备,其中,更新后的所述缓存数据包含所述唤醒词的前缀。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在所述终端上执行与所述第一结果信息对应的操作包括以下之一:
在所述终端上将所述第一结果信息以语音的形式进行播放;
在所述终端的显示屏上显示所述第一结果信息;
在所述终端上执行与所述第一结果信息对应的控制操作。
6.一种语音交互方法,其特征在于,包括:
在信息处理设备上接收终端通过第二会话传输的语音数据中包括的唤醒词和第一待处理信息,其中,所述语音数据为客户端在终端上对检测到的第一语音进行连续录音得到的数据,所述第二会话为所述客户端根据对所述语音数据的识别结果确定所述语音数据中包括所述终端的唤醒词的前缀的情况下,根据所述唤醒词的前缀对所述终端进行第一唤醒操作,并在所述终端与所述信息处理设备之间开启的会话,所述唤醒词的前缀为根据所述唤醒词预先设置的多个字符,所述唤醒词为所述客户端在所述语音数据包括所述唤醒词和所述第一待处理信息,且所述唤醒词与所述第一待处理信息之间的时间间隔小于目标间隔的情况下,向所述信息处理设备发送的所述唤醒词;
在接收到所述唤醒词的情况下,使用所述第二会话将第一状态信息发送给所述终端,其中,所述第一状态信息用于将所述终端的状态切换为唤醒状态;
在所述第一状态信息指示出所述终端的状态已处于所述唤醒状态的情况下,接收所述第一待处理信息,并在接收到第一待处理信息的情况下,获取对所述第一待处理信息进行处理得到的第一结果信息;
使用所述第二会话将获取的所述第一结果信息发送给所述终端。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在所述语音数据包括所述唤醒词和位于所述唤醒词之后的无效语音信息的情况下,在所述信息处理设备上向所述终端发送第二状态信息;在所述信息处理设备上接收所述终端传输的第二待处理信息;在所述信息处理设备上获取对所述第二待处理信息进行处理的第二结果信息;将获取的所述第二结果信息发送给所述终端;和/或,
在所述语音数据未包括所述终端的唤醒词的情况下,在所述信息处理设备上向所述终端发送第三状态信息,其中,所述第三状态信息指示出所述终端的状态仍处于未唤醒状态。
8.根据权利要求7所述的方法,其特征在于,
在所述信息处理设备上向所述终端发送所述第二状态信息之后,所述方法还包括:在所述信息处理设备与所述终端之间开启第一会话;
在所述信息处理设备上接收所述终端传输的所述第二待处理信息包括:使用所述第一会话接收所述终端传输的所述第二待处理信息。
9.一种语音交互装置,其特征在于,包括:
第一录音单元,用于在终端上对检测到的第一语音进行连续录音得到语音数据;
第一传输单元,用于根据对所述语音数据的识别结果确定所述语音数据中包括所述终端的唤醒词的前缀的情况下,根据所述唤醒词的前缀对所述终端进行第一唤醒操作,并在所述终端与信息处理设备之间开启第二会话,其中,所述唤醒词的前缀为根据所述唤醒词预先设置的多个字符;
第一获取单元,用于在所述语音数据包括所述唤醒词和第一待处理信息,且所述唤醒词与所述第一待处理信息之间的时间间隔小于目标间隔的情况下,使用所述第二会话将所述唤醒词传输给所述信息处理设备,并在所述终端上获取所述信息处理设备使用所述第二会话发送的第一状态信息,其中,所述第一状态信息用于将所述终端的状态切换为唤醒状态;所述第一获取单元还用于使用所述第二会话将所述第一待处理信息的数据传输给所述信息处理设备,并接收所述信息处理设备使用所述第二会话发送的第一结果信息,其中,所述第一结果信息为所述信息处理设备对所述第一待处理信息进行处理得到的结果信息;
第一执行单元,用于响应于接收到所述信息处理设备发送的所述第一结果信息,在所述终端上执行与所述第一结果信息对应的操作。
10.一种语音交互装置,其特征在于,包括:
第一接收单元,用于在信息处理设备上接收终端通过第二会话传输的语音数据中包括的唤醒词和第一待处理信息,其中,所述语音数据为客户端在终端上对检测到的第一语音进行连续录音得到的数据,所述第二会话为所述客户端根据对所述语音数据的识别结果确定所述语音数据中包括所述终端的唤醒词的前缀的情况下,根据所述唤醒词的前缀对所述终端进行第一唤醒操作,并在所述终端与所述信息处理设备之间开启的会话,所述唤醒词的前缀为根据所述唤醒词预先设置的多个字符,所述唤醒词为所述客户端在所述语音数据包括所述唤醒词和所述第一待处理信息,且所述唤醒词与所述第一待处理信息之间的时间间隔小于目标间隔的情况下,向所述信息处理设备发送的所述唤醒词;
第一获取单元,用于在第一状态信息指示出所述终端的状态已处于所述唤醒状态的情况下,接收所述第一待处理信息,并在接收到第一待处理信息的情况下,获取对所述第一待处理信息进行处理得到的第一结果信息,其中,所述第一状态信息用于将所述终端的状态切换为唤醒状态;
第一发送单元,用于使用所述第二会话将获取的所述第一结果信息发送给所述终端;
所述语音交互装置还用于,在接收所述第一待处理信息之前,在接收到所述唤醒词的情况下,使用所述第二会话将所述第一状态信息发送给所述终端。
CN201810241401.4A 2018-03-22 2018-03-22 语音交互方法和装置 Active CN110299137B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810241401.4A CN110299137B (zh) 2018-03-22 2018-03-22 语音交互方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810241401.4A CN110299137B (zh) 2018-03-22 2018-03-22 语音交互方法和装置

Publications (2)

Publication Number Publication Date
CN110299137A CN110299137A (zh) 2019-10-01
CN110299137B true CN110299137B (zh) 2023-12-12

Family

ID=68025786

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810241401.4A Active CN110299137B (zh) 2018-03-22 2018-03-22 语音交互方法和装置

Country Status (1)

Country Link
CN (1) CN110299137B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111524512A (zh) * 2020-04-14 2020-08-11 苏州思必驰信息科技有限公司 低延时开启one-shot语音对话的方法、外围设备及低延时响应的语音交互装置
CN111627439B (zh) * 2020-05-21 2022-07-22 腾讯科技(深圳)有限公司 音频数据的处理方法和装置、存储介质和电子设备
CN111899722B (zh) * 2020-08-11 2024-02-06 Oppo广东移动通信有限公司 一种语音处理方法及装置、存储介质
CN112037786B (zh) * 2020-08-31 2024-09-24 百度在线网络技术(北京)有限公司 语音交互方法、装置、设备以及存储介质
CN112489650B (zh) * 2020-11-26 2024-06-18 北京小米松果电子有限公司 唤醒控制方法、装置、存储介质及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464723A (zh) * 2014-12-16 2015-03-25 科大讯飞股份有限公司 一种语音交互方法及系统
CN106385347A (zh) * 2016-09-09 2017-02-08 珠海格力电器股份有限公司 一种家电设备控制方法和装置
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
CN107808670A (zh) * 2017-10-25 2018-03-16 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3282445A4 (en) * 2015-04-10 2018-05-02 Huawei Technologies Co. Ltd. Voice recognition method, voice wake-up device, voice recognition device and terminal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104464723A (zh) * 2014-12-16 2015-03-25 科大讯飞股份有限公司 一种语音交互方法及系统
CN107450879A (zh) * 2016-05-30 2017-12-08 中兴通讯股份有限公司 终端操作方法及装置
CN106385347A (zh) * 2016-09-09 2017-02-08 珠海格力电器股份有限公司 一种家电设备控制方法和装置
CN106653013A (zh) * 2016-09-30 2017-05-10 北京奇虎科技有限公司 语音识别方法及装置
CN107808670A (zh) * 2017-10-25 2018-03-16 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110299137A (zh) 2019-10-01

Similar Documents

Publication Publication Date Title
CN110299137B (zh) 语音交互方法和装置
CN110459221B (zh) 多设备协同语音交互的方法和装置
US9626964B2 (en) Voice recognition terminal, server, method of controlling server, voice recognition system, non-transitory storage medium storing program for controlling voice recognition terminal, and non-transitory storage medium storing program for controlling server
EP3316121B1 (en) Communication method, server and device
CN107332976B (zh) K歌方法、装置、设备及系统
JP7353497B2 (ja) 能動的に対話の開始を提起するためのサーバ側処理方法及びサーバ、並びに能動的に対話の開始が提起できる音声インタラクションシステム
EP3157003B1 (en) Terminal control method and device, voice control device and terminal
US20160322048A1 (en) Voice interaction method, and device
US10951557B2 (en) Information interaction method and terminal
CN111131966B (zh) 模式控制方法、耳机系统及计算机可读存储介质
CN108694947B (zh) 语音控制方法、装置、存储介质及电子设备
US9936355B2 (en) Information processing apparatus, information processing method, and computer program
WO2014017013A1 (ja) 近距離無線通信システム及び近距離無線通信端末
CN112702633A (zh) 多媒体智能播放方法、装置、播放设备以及存储介质
CN109473097B (zh) 一种智能语音设备及其控制方法
WO2017008574A2 (zh) 一种显示控制方法及装置
CN107077844B (zh) 语音联合协助的实现方法、装置及机器人
CN109671450B (zh) 歌曲播放方法、装置及计算机可读存储介质
KR20160092019A (ko) 데이터 처리 방법, 단말기, 및 서버
CN109686372B (zh) 资源播放控制方法和装置
WO2024078201A1 (zh) 基于无线充电模组的车机互联方法及相关产品
CN115150501A (zh) 一种语音交互方法及电子设备
US20220417296A1 (en) Registration Method and Electronic Device
CN112447177A (zh) 全双工语音对话方法及系统
CN112820273B (zh) 唤醒判别方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TG01 Patent term adjustment