CN115424623A - 语音交互方法、装置、设备及计算机可读存储介质 - Google Patents
语音交互方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN115424623A CN115424623A CN202210291981.4A CN202210291981A CN115424623A CN 115424623 A CN115424623 A CN 115424623A CN 202210291981 A CN202210291981 A CN 202210291981A CN 115424623 A CN115424623 A CN 115424623A
- Authority
- CN
- China
- Prior art keywords
- voice
- screen
- virtual interactive
- display form
- target screen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000002452 interceptive effect Effects 0.000 claims abstract description 111
- 230000004044 response Effects 0.000 claims abstract description 35
- 238000004590 computer program Methods 0.000 claims description 16
- 230000002618 waking effect Effects 0.000 claims description 12
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0481—Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开涉及一种语音交互方法、装置、设备及计算机可读存储介质,该方法包括:响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象;在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态;基于所述对话状态,调整所述虚拟互动形象的展示形式;在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息。本公开通过根据用户语音的语义不同,展示不同形式的虚拟互动形象,并显示相对应的响应消息,提高语音交互方法的灵活性,使得用户拥有自然的、有智能感的交互体验,满足用户良好的智能空间语音交互需求。
Description
技术领域
本公开涉及语音交互技术领域,尤其涉及一种语音交互方法、装置、设备及计算机可读存储介质。
背景技术
随着车载语音交互技术的发展,用户已经可以通过车载语音助手方便地实现多种功能。
但是目前车载语音交互的显示界面较为呆板固定,灵活性较差,如何改进交互界面的显示方式,进而满足用户在车内良好的语音交互体验已经成为业内亟待解决的问题。
发明内容
为了解决上述技术问题,本公开提供了一种语音交互方法、装置、设备及计算机可读存储介质,提高语音交互方法的灵活性,为车内用户提供良好的语音交互体验感。
第一方面,本公开实施例提供一种语音交互方法,该方法包括:
响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象;
在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态;
基于所述对话状态,调整所述虚拟互动形象的展示形式;
在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息。
在一些实施例中,所述方法还包括:
在唤醒所述目标屏后,通过所述目标屏对应的扬声器播放唤醒问候的语音,并通过所述虚拟互动形象显示所述唤醒问候的文本信息。
在一些实施例中,所述方法还包括:
在唤醒所述目标屏后,通过所述虚拟互动形象显示用于提示用户正在采集语音的引导语;
若在预设时间内未采集到语音,则通过所述虚拟互动形象显示用于提示用户进行语音交互的引导语。
在一些实施例中,所述基于采集的语音的语义,确定对话状态包括:
若采集的语音的语义为一个操作意图的部分语义,则确定对话状态为多轮对话状态;
若采集的语音的语义为一个操作意图的完整语义,则确定对话状态为连续对话状态。
在一些实施例中,所述基于所述对话状态,调整所述虚拟互动形象的展示形式,包括:
若所述对话状态为多轮对话状态,则调整所述虚拟互动形象的展示形式为第一展示形式或维持唤醒后的展示形式;
若所述对话状态为连续对话状态,则调整所述虚拟互动形象的展示形式为第二展示形式,所述第二展示形式占用的屏幕尺寸小于所述第一展示形式占用的屏幕尺寸,或所述第二展示形式占用的屏幕尺寸小于所述唤醒后的展示形式占用的屏幕尺寸。
在一些实施例中,所述基于所述对话状态,调整所述虚拟互动形象的展示形式之后,所述方法还包括:
若所述对话状态为连续对话状态且预设时长内未采集到语音,则退出所述连续对话状态,并调整所述虚拟互动形象的展示形式由第二展示形式转换为唤醒后的展示形式。
在一些实施例中,所述在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息包括:
若所述采集的语音的响应消息为对话信息,则通过所述虚拟互动形象显示所述对话信息;
若所述采集的语音的响应消息为查询结果,则通过所述虚拟互动形象显示包括所述查询结果的消息卡片。
在一些实施例中,所述唤醒目标屏之前,所述方法还包括:
从车机的多屏中选择目标屏进行唤醒。
在一些实施例中,所述响应于唤醒语音,唤醒目标屏包括:
确定所述唤醒语音所处的目标音区;
基于所述目标音区,唤醒所述目标音区对应的目标屏。
在一些实施例中,所述在所述目标屏上展示语音助手的虚拟互动形象包括:
在唤醒所述目标屏后,判断所述多屏中的非目标屏是否已唤醒,若已唤醒,则移除所述非目标屏中的虚拟互动形象;
在移除所述非目标屏中的虚拟互动形象后,在所述目标屏上展示所述虚拟互动形象。
在一些实施例中,所述多屏包括中控屏和至少一个娱乐屏,所述方法还包括:
响应于任一娱乐屏对应的音区接收到导航请求语音,则将导航响应语音由所述娱乐屏对应的扬声器至所述中控屏对应的扬声器进行由近至远地播放,并移除所述娱乐屏中的虚拟互动形象,在移除所述娱乐屏中的虚拟互动形象后,在所述中控屏上展示所述虚拟互动形象以及导航界面。
第二方面,本公开实施例提供一种语音交互装置,该装置包括:
唤醒模块,用于响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象;
确定模块,用于在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态;
调整模块,用于基于所述对话状态,调整所述虚拟互动形象的展示形式;
显示模块,用于在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息。
第三方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
第五方面,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的语音交互方法。
本公开实施例提供的语音交互方法、装置、设备及计算机可读存储介质,通过根据用户语音的语义不同,展示不同形式的虚拟互动形象,并显示相对应的响应消息,提高语音交互方法的灵活性,使得用户拥有自然的、有智能感的交互体验,满足用户良好的智能空间语音交互需求。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的语音交互方法流程图;
图2为本公开实施例提供的一种语音交互界面示意图;
图3为本公开实施例提供的一种语音交互界面示意图;
图4为本公开实施例提供的一种语音交互界面示意图;
图5为本公开实施例提供的一种语音交互界面示意图;
图6为本公开实施例提供的一种语音交互界面示意图;
图7为本公开实施例提供的语音交互方法流程图;
图8为本公开实施例提供的语音交互装置的结构示意图;
图9为本公开实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本公开实施例提供了一种语音交互方法,下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的语音交互方法流程图。该方法可以应用于车机,用于控制一个或多个车载终端根据用户的语音指令与用户进行语音交互。可以理解的是,本公开实施例提供的语音交互方法还可以应用在其他场景中。
下面对图1所示的语音交互方法进行介绍,该方法包括的具体步骤如下:
S101、响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象。
车机通过车内的语音采集装置采集用户的语音,当识别到用户语音中含有唤醒关键词时,确定该条语音为唤醒语音,并根据该条唤醒语音,选择对应的车载终端目标屏进行唤醒。在目标屏被唤醒后,控制车辆语音助手的虚拟互动形象出现在该目标屏上。
S102、在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态。
可以预先设置多种对话状态,分别用于满足用户语音控制指令的不同意图。在唤醒目标屏,并在目标屏上展示语音助手的虚拟互动形象后,继续采集用户的语音控制指令,并对所采集到的用户的语音进行语义分析,根据语义分析结果判断用户的意图,并根据用户的意图确定相应的对话状态。
S103、基于所述对话状态,调整所述虚拟互动形象的展示形式。
多种预设的对话状态分别对应不同的语音助手虚拟互动形象展示形式,根据上述步骤中确定的对话状态,将语音助手的虚拟互动形象调整为与对话状态相对应的展示形式。
S104、在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息。
在将虚拟互动形象的展示形式调整至与对话状态相对应的形式之后,通过调整后的虚拟互动形象展示所采集的语音的响应消息,例如当识别到所采集的语音为音乐播放指令时,在播放音乐的同时展示唤醒指令对应的虚拟互动形象,并展示相应的响应消息,如“正在为您播放”。
本公开实施例通过响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象;在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态;基于所述对话状态,调整所述虚拟互动形象的展示形式;在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息,根据用户语音的语义不同,展示不同形式的虚拟互动形象,并显示相对应的响应消息,提高语音交互方法的灵活性,使得用户拥有自然的、有智能感的交互体验,满足用户良好的智能空间语音交互需求。
图2为本公开实施例提供的一种语音交互界面示意图。在一些实施例中,上述语音交互方法还包括在唤醒所述目标屏后,通过所述目标屏对应的扬声器播放唤醒问候的语音,并通过所述虚拟互动形象显示所述唤醒问候的文本信息。
例如,如图2所示,当识别到用户通过唤醒语音唤醒目标屏后,车机通过虚拟互动形象显示唤醒问候的文本信息,如“早上好”,或是“我在”、“后排你说”等任意的唤醒问候的文本信息,当然并不仅限于此。同时,配合目标屏所在音区的扬声器播放目标屏唤醒问候的文本信息相应的唤醒问候的语音。
图3为本公开实施例提供的一种语音交互界面示意图。在一些实施例中,上述语音交互方法还包括:在唤醒所述目标屏后,通过所述虚拟互动形象显示用于提示用户正在采集语音的引导语。
例如,如图3所示,在唤醒目标屏后,语音助手的虚拟互动形象通过文本显示引导语“聆听中...”,提示用户正在采集语音控制指令。可以理解的是,提示用户正在采集语音的引导语并不局限于此。
图4为本公开另一实施例提供的一种语音交互界面示意图。在一些实施例中,上述语音交互方法还包括:若在预设时间内未采集到语音,则通过所述虚拟互动形象显示用于提示用户进行语音交互的引导语。
当在预设时间内未采集到来自用户的语音,则在虚拟互动形象旁显示用于提示用户进行语音交互的引导语。如图4所示,语音助手形象旁显示“试试说‘我要听摇滚’”,引导用户进行语音交互,交互界面简单简洁,使得用户容易理解。
图5为本公开另一实施例提供的一种语音交互界面示意图。在一些实施例中,上述语音交互方法中,基于采集的语音的语义,确定对话状态包括:若采集的语音的语义为一个操作意图的部分语义,则确定对话状态为多轮对话状态;若采集的语音的语义为一个操作意图的完整语义,则确定对话状态为连续对话状态。
其中,若所述对话状态为多轮对话状态,则调整所述虚拟互动形象的展示形式为第一展示形式或维持唤醒后的展示形式;若所述对话状态为连续对话状态,则调整所述虚拟互动形象的展示形式为第二展示形式,所述第二展示形式占用的屏幕尺寸小于所述第一展示形式占用的屏幕尺寸,或所述第二展示形式占用的屏幕尺寸小于所述唤醒后的展示形式占用的屏幕尺寸。
有时,由于有时用户发出的语音指令不够准确,车机所采集的语音的语义为一个操作意图的部分语义,即根据所采集到的一条语音指令的语义无法准确判断用户的意图,此时确定对话状态为多轮对话状态,例如,当用户想要导航去公园时,车机接收到用户的语音控制指令“请导航去A大厦”,查询到多种路线均可以到达目的地,但还无法判断用户希望通过哪一条路线去到目的地,此时确定所采集的语音的语义为一个操作意图的部分语义,并确定对话状态为多轮对话状态,将虚拟互动形象调整为第一展示形式或维持唤醒后的展示形式,以引起用户注意,并继续采集用户的下一条语音。可以理解的是,第一展示形式可以是放大虚拟互动形象、通过虚拟互动形象展示相应提示语等任意的能够引起用户注意的展示形式。例如,采集到用户下一条语音的语义为“选择用时最短的路线”,则可以确定用户的意图为选择用时最短的路线去到目的地,此时为用户进行相应的导航。或者,若在进入多轮对话状态后预设时长内车机未采集到用户的语音,则退出多轮对话状态,若此时虚拟互动形象的展示形式为第一展示形式,则调整所述虚拟互动形象的展示形式由第一展示形式转换为唤醒后的展示形式;若此时虚拟互动形象的展示形式为唤醒后的展示形式,则维持唤醒后的展示形式。
当用户发出的语音指令准确时,车机所采集的语音的语义为一个操作意图的完整语义,即根据所采集到的一条语音指令的语义可以准确判断用户的意图,此时确定对话状态为连续对话状态,根据用户语音的意图进行相应的操作,并将虚拟互动形象的展示形式调整为第二展示形式。如图5所示,第二展示形式占用的屏幕尺寸小于第一展示形式占用的屏幕尺寸,或第二展示形式占用的屏幕尺寸小于如图2所示的唤醒后的展示形式占用的屏幕尺寸。例如,当车机根据用户意图,为用户播放视频时,将虚拟互动形象的展示形式调整为第二展示形式,以减少对视频播放界面的遮挡。可以理解的是,若预设时长内未采集到语音,则退出所述连续对话状态,并调整所述虚拟互动形象的展示形式由第二展示形式转换为唤醒后的展示形式;或者,若对话状态由多轮对话状态转换为连续对话状态,则调整虚拟互动形象的展示形式由第一展示形式或唤醒后的展示形式转换为第二展示形式;若对话状态由连续对话状态转换为多轮对话状态,则调整虚拟互动形象的展示形式由第二展示形式转换为第一展示形式或唤醒后的展示形式。
本公开实施例通过根据不同的对话状态将语音助手的虚拟互动形象调整为不同的展示形式,在多轮对话状态时能够引起用户的注意,在连续对话状态能够减少对屏幕的遮挡,满足用户在不同状态下对于界面显示的需求,提高了用户语音交互体验的智能感。
图6为本公开另一实施例提供的一种语音交互界面示意图。在上述实施例的基础上,本公开提供的语音交互方法还包括:若所述采集的语音的响应消息为对话信息,则通过所述虚拟互动形象显示所述对话信息;若所述采集的语音的响应消息为查询结果,则通过所述虚拟互动形象显示包括所述查询结果的消息卡片。
根据用户的不同需求,车机接收到不类别的控制语音,并确定相应的相应消息的类别。当采集的语音的响应消息为对话信息时,车机通过虚拟互动形象显示相应的对话信息,如引导语、交互语、语音识别结果等。例如当收到用户请求播放视频的控制语音时,确定对应的相应消息为对话信息,调用相应的影音播放软件为用户播放视频,同时通过用户所在音区的扬声器播放控制响应语音,如“正在为您播放视频”,并通过虚拟互动形象显示相应的交互语“正在为您播放视频”。
当采集的语音的相应消息为查询结果时,则通过虚拟互动形象以消息卡片的形式展示相应的查询结果,如查询天气、通讯录、实时资讯等。以查询天气为例,如图6所示,当收到用户请求查询天气的控制语音时,确定对应的响应消息为查询结果,同时还可以通过虚拟互动形象显示用于查询天气的交互语“今天天气怎么样”,并显示天气信息卡片。天气信息卡片所显示的信息可以包括地理位置、温度、天气图标、风力、穿衣指数、相对湿度、空气质量指数(Air Quality Index,AQI)等。
本公开实施例通过用户控制语音的响应消息的不同类别,确定不同的信息展示形式及其对应的引导语,使得交互方式更加灵活、交互界面更加简洁,便于用户更加快捷方便地获取所需信息,进一步提高了语音交互方法的灵活性,保证用户良好的交互体验。
图7为本公开实施例提供的语音交互方法流程图,如图7所示,该方法包括如下步骤:
S701、响应于唤醒语音,确定所述唤醒语音所处的目标音区。
S702、基于所述目标音区,唤醒所述目标音区对应的目标屏。
车辆内部空间被划分为多个音区,每个位置都分别对应不同的音区,如主驾音区、副驾音区以及后排音区等。车机根据发出唤醒语音的用户的位置,确定该用户所处的目标音区,并唤醒对应的目标屏。需要说明的是,主驾位置上的用户还可以通过媒体中控唤醒对应的目标屏。但当某个音区被关闭时,用户无法通过被关闭的音区唤醒对应的目标屏。
S703、在唤醒所述目标屏后,判断所述多屏中的非目标屏是否已唤醒,若已唤醒,则移除所述非目标屏中的虚拟互动形象。
S704、在移除所述非目标屏中的虚拟互动形象后,在所述目标屏上展示所述虚拟互动形象。
在某一屏幕已经被唤醒的情况下,若另一屏幕被唤醒,则之前已经被唤醒的屏幕为非目标屏,当前被唤醒的屏幕为目标屏,语音助手的虚拟互动形象从非目标屏上消失,出现在目标屏上。例如,在车辆运行过程中,中控屏始终为唤醒状态,当除中控屏之外的其他屏幕都未被唤醒时,语音助手的虚拟互动形象停留在中控屏上。当接收到二排左边用户的唤醒语音,车机控制唤醒二排左边的娱乐屏即目标屏,此时中控屏为非目标屏,语音助手的虚拟互动形象从中控屏上消失,出现在二排左边的娱乐屏中。
可选的,响应于任一娱乐屏对应的音区接收到导航请求语音,则将导航响应语音由所述娱乐屏对应的扬声器至所述中控屏对应的扬声器进行由近至远地播放,并移除所述娱乐屏中的虚拟互动形象,在移除所述娱乐屏中的虚拟互动形象后,在所述中控屏上展示所述虚拟互动形象以及导航界面。
在语音助手的虚拟互动形象从非目标屏消失并出现在目标屏的过程中,控制车内的扬声器配合语音助手的虚拟互动形象位置的改变,由非目标屏对应的扬声器至目标屏对应的扬声器由远至近地播放,形成语音助手的声音随形象由非目标屏转移至目标屏的效果。例如,在车辆运行过程中,除中控屏之外的屏幕都未被唤醒时,当接收到二排左边用户的唤醒语音,车机唤醒二排左边的娱乐屏即目标屏,此时中控屏为非目标屏,伴随语音助手的虚拟互动形象从中控屏上消失,出现在二排左边的娱乐屏中,控制唤醒问候的语音也由中控声场的扬声器至二排左边声场的扬声器由远至近地播放,模拟语音助手从中控屏移动至二排左边娱乐屏的过程中一边移动一边发声的效果。
在车辆行驶过程中,位于主驾位置上的驾驶员最需要了解到当前的导航信息,因此可以将导航界面显示在中控屏上方便驾驶员参考。除主驾驶位外的其他位置上的乘客可以协助驾驶员通过语音交互发起导航请求,当除中控屏之外的任一屏幕对应的的音区接收到导航请求语音时,即任一娱乐屏对应的音区接收到导航请求语音时,车机发起车内多个屏幕之间的跨屏交互,控制虚拟互动形象由接收到导航请求语音的音区的娱乐屏跳转至中控屏进行显示,并在中控屏上显示相应的导航界面,同时控制相应的导航相应语音由该娱乐屏至中控屏对应的音区由近至远地播放。可以理解的是,上述多屏幕间跨屏交互的方法并不局限于导航场景下,也不局限于由娱乐屏至中控屏的跨屏交互场景,还可以应用于其他的场景中。
本公开实施例通过响应于唤醒语音,确定所述唤醒语音所处的目标音区;基于所述目标音区,唤醒所述目标音区对应的目标屏;在唤醒所述目标屏后,判断所述多屏中的非目标屏是否已唤醒,若已唤醒,则移除所述非目标屏中的虚拟互动形象;在移除所述非目标屏中的虚拟互动形象后,在所述目标屏上展示所述虚拟互动形象;同时在导航等场景中通过语音助手的虚拟互动形象从娱乐屏移动至中控屏,以及由娱乐屏对应的扬声器至所述中控屏对应的扬声器进行由近至远地播放导航响应语音的声效配合,完成多屏之间的跨屏交互、语音助手的虚拟互动形象在多屏之间跨屏流转,引导用户注意目标屏上的目标信息,使得用户能够拥有更加智能的交互体验。
图8为本公开实施例提供的语音交互装置的结构示意图。该语音交互装置可以是如上实施例所述车机,或者该语音交互装置可以是车机中的部件或组件。本公开实施例提供的语音交互装置可以执行语音交互方法实施例提供的处理流程,如图8所示,语音交互装置80包括:唤醒模块81、确定模块82、调整模块83、显示模块84;其中,唤醒模块81用于响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象;确定模块82用于在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态;调整模块83用于基于所述对话状态,调整所述虚拟互动形象的展示形式;显示模块84用于在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息。
在一些实施例中,显示模块84还用于在唤醒所述目标屏后,通过所述目标屏对应的扬声器播放唤醒问候的语音,并通过所述虚拟互动形象显示所述唤醒问候的文本信息。
在一些实施例中,显示模块84还用于在唤醒所述目标屏后,通过所述虚拟互动形象显示用于提示用户正在采集语音的引导语;若在预设时间内未采集到语音,则通过所述虚拟互动形象显示用于提示用户进行语音交互的引导语。
在一些实施例中,确定模块82还用于若采集的语音的语义为一个操作意图的部分语义,则确定对话状态为多轮对话状态;若采集的语音的语义为一个操作意图的完整语义,则确定对话状态为连续对话状态。
在一些实施例中,调整模块83还用于若所述对话状态为多轮对话状态,则调整所述虚拟互动形象的展示形式为第一展示形式或维持唤醒后的展示形式;若所述对话状态为连续对话状态,则调整所述虚拟互动形象的展示形式为第二展示形式,所述第二展示形式占用的屏幕尺寸小于所述第一展示形式占用的屏幕尺寸,或所述第二展示形式占用的屏幕尺寸小于所述唤醒后的展示形式占用的屏幕尺寸。
在一些实施例中,调整模块83还用于若所述对话状态为连续对话状态且预设时长内未采集到语音,则退出所述连续对话状态,并调整所述虚拟互动形象的展示形式由第二展示形式转换为唤醒后的展示形式。
在一些实施例中,显示模块84还用于若所述采集的语音的响应消息为对话信息,则通过所述虚拟互动形象显示所述对话信息;若所述采集的语音的响应消息为查询结果,则通过所述虚拟互动形象显示包括所述查询结果的消息卡片。
在一些实施例中,唤醒模块81还用于从车机的多屏中选择目标屏进行唤醒。
在一些实施例中,唤醒模块81还用于确定所述唤醒语音所处的目标音区;基于所述目标音区,唤醒所述目标音区对应的目标屏。
在一些实施例中,唤醒模块81还用于在唤醒所述目标屏后,判断所述多屏中的非目标屏是否已唤醒,若已唤醒,则移除所述非目标屏中的虚拟互动形象;在移除所述非目标屏中的虚拟互动形象后,在所述目标屏上展示所述虚拟互动形象。
在一些实施例中,唤醒模块81还用于响应于任一娱乐屏对应的音区接收到导航请求语音,则将导航响应语音由所述娱乐屏对应的扬声器至所述中控屏对应的扬声器进行由近至远地播放,并移除所述娱乐屏中的虚拟互动形象,在移除所述娱乐屏中的虚拟互动形象后,在所述中控屏上展示所述虚拟互动形象以及导航界面。
图8所示实施例的语音交互装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图9为本公开实施例提供的电子设备的结构示意图。该电子设备可以是如上实施例所述的车机。本公开实施例提供的电子设备可以执行语音交互方法实施例提供的处理流程,如图9所示,电子设备90包括:存储器91、处理器92、计算机程序和通讯接口93;其中,计算机程序存储在存储器91中,并被配置为由处理器92执行如上所述的语音交互方法。
存储器91作为一种非暂态计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本公开实施例中的语音交互方法对应的程序指令/模块。处理器92通过运行存储在存储器91中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例的语音交互方法。
存储器91可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器91可以包括高速随机存取存储器,还可以包括非暂态性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中,存储器91可选包括相对于处理器92远程设置的存储器,这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的语音交互方法。
此外,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上所述的语音交互方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (14)
1.一种语音交互方法,其特征在于,所述方法包括:
响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象;
在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态;
基于所述对话状态,调整所述虚拟互动形象的展示形式;
在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在唤醒所述目标屏后,通过所述目标屏对应的扬声器播放唤醒问候的语音,并通过所述虚拟互动形象显示所述唤醒问候的文本信息。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在唤醒所述目标屏后,通过所述虚拟互动形象显示用于提示用户正在采集语音的引导语;
若在预设时间内未采集到语音,则通过所述虚拟互动形象显示用于提示用户进行语音交互的引导语。
4.根据权利要求1所述的方法,其特征在于,所述基于采集的语音的语义,确定对话状态包括:
若采集的语音的语义为一个操作意图的部分语义,则确定对话状态为多轮对话状态;
若采集的语音的语义为一个操作意图的完整语义,则确定对话状态为连续对话状态。
5.根据权利要求4所述的方法,其特征在于,所述基于所述对话状态,调整所述虚拟互动形象的展示形式,包括:
若所述对话状态为多轮对话状态,则调整所述虚拟互动形象的展示形式为第一展示形式或维持唤醒后的展示形式;
若所述对话状态为连续对话状态,则调整所述虚拟互动形象的展示形式为第二展示形式,所述第二展示形式占用的屏幕尺寸小于所述第一展示形式占用的屏幕尺寸,或所述第二展示形式占用的屏幕尺寸小于所述唤醒后的展示形式占用的屏幕尺寸。
6.根据权利要求5所述的方法,其特征在于,所述基于所述对话状态,调整所述虚拟互动形象的展示形式之后,所述方法还包括:
若所述对话状态为连续对话状态且预设时长内未采集到语音,则退出所述连续对话状态,并调整所述虚拟互动形象的展示形式由第二展示形式转换为唤醒后的展示形式。
7.根据权利要求1所述的方法,其特征在于,所述在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息包括:
若所述采集的语音的响应消息为对话信息,则通过所述虚拟互动形象显示所述对话信息;
若所述采集的语音的响应消息为查询结果,则通过所述虚拟互动形象显示包括所述查询结果的消息卡片。
8.根据权利要求1所述的方法,其特征在于,所述唤醒目标屏之前,所述方法还包括:
从车机的多屏中选择目标屏进行唤醒。
9.根据权利要求1所述的方法,其特征在于,所述响应于唤醒语音,唤醒目标屏包括:
确定所述唤醒语音所处的目标音区;
基于所述目标音区,唤醒所述目标音区对应的目标屏。
10.根据权利要求8所述的方法,其特征在于,所述在所述目标屏上展示语音助手的虚拟互动形象包括:
在唤醒所述目标屏后,判断所述多屏中的非目标屏是否已唤醒,若已唤醒,则移除所述非目标屏中的虚拟互动形象;
在移除所述非目标屏中的虚拟互动形象后,在所述目标屏上展示所述虚拟互动形象。
11.根据权利要求8所述的方法,其特征在于,所述多屏包括中控屏和至少一个娱乐屏,所述方法还包括:
响应于任一娱乐屏对应的音区接收到导航请求语音,则将导航响应语音由所述娱乐屏对应的扬声器至所述中控屏对应的扬声器进行由近至远地播放,并移除所述娱乐屏中的虚拟互动形象,在移除所述娱乐屏中的虚拟互动形象后,在所述中控屏上展示所述虚拟互动形象以及导航界面。
12.一种语音交互装置,其特征在于,所述装置位于车机,所述装置包括:
唤醒模块,用于响应于唤醒语音,唤醒目标屏,并在所述目标屏上展示语音助手的虚拟互动形象;
确定模块,用于在唤醒所述目标屏后,基于采集的语音的语义,确定对话状态;
调整模块,用于基于所述对话状态,调整所述虚拟互动形象的展示形式;
显示模块,用于在调整所述展示形式后,通过所述虚拟互动形象显示所述采集的语音的响应消息。
13.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-11中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210291981.4A CN115424623A (zh) | 2022-03-23 | 2022-03-23 | 语音交互方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210291981.4A CN115424623A (zh) | 2022-03-23 | 2022-03-23 | 语音交互方法、装置、设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115424623A true CN115424623A (zh) | 2022-12-02 |
Family
ID=84230499
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210291981.4A Pending CN115424623A (zh) | 2022-03-23 | 2022-03-23 | 语音交互方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115424623A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825107A (zh) * | 2023-08-21 | 2023-09-29 | 北京集度科技有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146612A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 语音引导方法、装置、智能设备及服务器 |
CN109493871A (zh) * | 2017-09-11 | 2019-03-19 | 上海博泰悦臻网络技术服务有限公司 | 车载系统的多屏语音交互方法及装置、存储介质和车机 |
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
US20200034108A1 (en) * | 2018-07-25 | 2020-01-30 | Sensory, Incorporated | Dynamic Volume Adjustment For Virtual Assistants |
CN111124123A (zh) * | 2019-12-24 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 基于虚拟机器人形象的语音交互方法及装置、车载设备智能控制系统 |
US20200194007A1 (en) * | 2018-12-12 | 2020-06-18 | Baidu Online Network Tehnology (Beijing) Co., Ltd. | Voice interaction method, device and terminal |
CN112735411A (zh) * | 2020-12-25 | 2021-04-30 | 广州橙行智动汽车科技有限公司 | 控制方法、客户端、车辆、语音系统和存储介质 |
CN113536007A (zh) * | 2021-07-05 | 2021-10-22 | 北京百度网讯科技有限公司 | 一种虚拟形象生成方法、装置、设备以及存储介质 |
CN113703621A (zh) * | 2021-02-26 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 语音交互方法、存储介质及设备 |
WO2022042274A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种语音交互方法及电子设备 |
-
2022
- 2022-03-23 CN CN202210291981.4A patent/CN115424623A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107146612A (zh) * | 2017-04-10 | 2017-09-08 | 北京猎户星空科技有限公司 | 语音引导方法、装置、智能设备及服务器 |
CN109493871A (zh) * | 2017-09-11 | 2019-03-19 | 上海博泰悦臻网络技术服务有限公司 | 车载系统的多屏语音交互方法及装置、存储介质和车机 |
US20200034108A1 (en) * | 2018-07-25 | 2020-01-30 | Sensory, Incorporated | Dynamic Volume Adjustment For Virtual Assistants |
US20200194007A1 (en) * | 2018-12-12 | 2020-06-18 | Baidu Online Network Tehnology (Beijing) Co., Ltd. | Voice interaction method, device and terminal |
CN110634483A (zh) * | 2019-09-03 | 2019-12-31 | 北京达佳互联信息技术有限公司 | 人机交互方法、装置、电子设备及存储介质 |
CN111124123A (zh) * | 2019-12-24 | 2020-05-08 | 苏州思必驰信息科技有限公司 | 基于虚拟机器人形象的语音交互方法及装置、车载设备智能控制系统 |
WO2022042274A1 (zh) * | 2020-08-31 | 2022-03-03 | 华为技术有限公司 | 一种语音交互方法及电子设备 |
CN112735411A (zh) * | 2020-12-25 | 2021-04-30 | 广州橙行智动汽车科技有限公司 | 控制方法、客户端、车辆、语音系统和存储介质 |
CN113703621A (zh) * | 2021-02-26 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 语音交互方法、存储介质及设备 |
CN113536007A (zh) * | 2021-07-05 | 2021-10-22 | 北京百度网讯科技有限公司 | 一种虚拟形象生成方法、装置、设备以及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116825107A (zh) * | 2023-08-21 | 2023-09-29 | 北京集度科技有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
CN116825107B (zh) * | 2023-08-21 | 2023-11-21 | 北京集度科技有限公司 | 一种语音交互方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109545206B (zh) | 智能设备的语音交互处理方法、装置和智能设备 | |
CN112614491B (zh) | 一种车载语音交互方法、装置、车辆、可读介质 | |
CN110875940B (zh) | 基于虚拟机器人的应用程序调用方法、装置和设备 | |
CN110265009B (zh) | 一种基于用户身份的主动对话发起方法和装置 | |
WO2023231538A9 (zh) | 一种驾驶状态的显示方法、相关装置、设备以及存储介质 | |
CN112017650A (zh) | 电子设备的语音控制方法、装置、计算机设备和存储介质 | |
CN109614470A (zh) | 回答信息的处理方法、装置、终端及可读存储介质 | |
CN115424623A (zh) | 语音交互方法、装置、设备及计算机可读存储介质 | |
JP2020157855A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
CN115440207A (zh) | 多屏语音交互方法、装置、设备及计算机可读存储介质 | |
CN101211351A (zh) | 车用行动电子装置及其操作方法 | |
CN112712799A (zh) | 一种误触发语音信息的获取方法、装置、设备及存储介质 | |
WO2017051577A1 (ja) | 感情誘導システム、および感情誘導方法 | |
CN114400003B (zh) | 自动切换麦克风的控制方法、系统、电子设备及存储介质 | |
CN112017651A (zh) | 电子设备的语音控制方法、装置、计算机设备和存储介质 | |
CN115830724A (zh) | 基于多模态识别的车载识别交互方法及系统 | |
CN115188377A (zh) | 语音交互方法、电子设备和存储介质 | |
JP7407047B2 (ja) | 音声出力の制御方法および音声出力制御装置 | |
CN110633037B (zh) | 基于自然语言的人机交互方法、装置和计算机存储介质 | |
CN114005447A (zh) | 一种语音对话交互方法、装置、车辆及介质 | |
CN112270625A (zh) | 电子导游设备的伴游控制方法、装置及伴游机器人 | |
JP2021156992A (ja) | 起動語登録の支援方法、支援装置、音声認識装置、およびプログラム | |
US20200117287A1 (en) | Systems using dual touch and sound control, and methods thereof | |
JP7407046B2 (ja) | 音声出力の制御方法および音声出力制御装置 | |
US20230160710A1 (en) | Interactive Voice Navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |