CN116486798A - 一种语音交互方法、装置、设备、车辆以及存储介质 - Google Patents
一种语音交互方法、装置、设备、车辆以及存储介质 Download PDFInfo
- Publication number
- CN116486798A CN116486798A CN202210041860.4A CN202210041860A CN116486798A CN 116486798 A CN116486798 A CN 116486798A CN 202210041860 A CN202210041860 A CN 202210041860A CN 116486798 A CN116486798 A CN 116486798A
- Authority
- CN
- China
- Prior art keywords
- voice
- user
- information
- mode
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 222
- 238000000034 method Methods 0.000 title claims abstract description 76
- 238000012216 screening Methods 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 8
- 238000004891 communication Methods 0.000 claims description 5
- 230000007717 exclusion Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 101150054987 ChAT gene Proteins 0.000 description 124
- 101100203187 Mus musculus Sh2d3c gene Proteins 0.000 description 124
- 230000002452 interceptive effect Effects 0.000 description 32
- 238000004458 analytical method Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 7
- 238000001914 filtration Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 235000013311 vegetables Nutrition 0.000 description 5
- 230000005484 gravity Effects 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 230000002618 waking effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/07—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail characterised by the inclusion of specific contents
- H04L51/10—Multimedia information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音交互方法、装置、设备、车辆以及存储介质。该方法应用于车辆,车辆包括至少两个音区,该方法包括:在第一语音采集模式下,获取第一语音指令;所述第一语音采集模式为在所述至少两个音区中的一个音区中采集语音的模式;在确定所述第一语音指令满足群聊模式的触发条件时,将所述第一语音采集模式,切换为第二语音采集模式;所述第二语音采集模式为在所述至少两个音区中的每个音区中分别采集语音的模式;在所述第二语音采集模式下,根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息。本方案提供了群聊场景下的车辆语音交互方案,能够增加车辆语音交互过程的趣味性,为基于车辆的语音交互提供了新的解决方案。
Description
技术领域
本申请实施例涉及车辆技术领域,尤其涉及一种语音交互方法、装置、设备、车辆以及存储介质。
背景技术
随着汽车技术的不断发展,车辆的配置和功能也在不断增加,汽车的使用场景也越来越多,例如,语音交互技术在汽车领域应用越来越广泛。通过语音交互系统可以基于语音指令控制车辆为驾驶员提供导航服务、电话通讯和影音娱乐等服务,提升驾驶体验,因此,语音交互系统在智能驾驶中拥有广泛的应用场景。但是,现有的语音交互系统的功能无法满足用户的需求,用户体验不佳。
发明内容
本申请提供一种语音交互方法、装置、设备、车辆以及存储介质,提供了群聊场景下的车辆语音交互方案,能够增加车辆语音交互过程的趣味性,为基于车辆的语音交互提供了新的解决方案。
第一方面,本申请实施例提供了一种语音交互方法,应用于车辆,所述车辆包括至少两个音区,该方法包括:
在第一语音采集模式下,获取第一语音指令;所述第一语音采集模式为在所述至少两个音区中的一个音区中采集语音的模式;在确定所述第一语音指令满足群聊模式的触发条件时,将所述第一语音采集模式,切换为第二语音采集模式;所述第二语音采集模式为在所述至少两个音区中的每个音区中分别采集语音的模式;在所述第二语音采集模式下,根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息。
通过上述方法,在第一语音采集模式下,获取第一语音指令,在确定第一语音指令满足群聊模式的触发条件时,将在至少两个音区中的一个音区中采集语音的第一语音采集模式切换为在至少两个音区中的每个音区中分别采集语音的第二语音采集模式,在第二语音采集模式下,根据采集的至少一个第二语音指令,输出群聊模式下的交互信息。通过这样的方式,能够增加车辆语音交互过程的趣味性,为基于车辆的语音交互提供了新的解决方案。
第二方面,本申请实施例还提供了一种语音交互装置,应用于车辆,所述车辆包括至少两个音区,该装置包括:
获取模块,用于在第一语音采集模式下,获取第一语音指令;所述第一语音采集模式为在所述至少两个音区中的一个音区中采集语音的模式;
切换模块,用于在确定所述第一语音指令满足群聊模式的触发条件时,将所述第一语音采集模式,切换为第二语音采集模式;所述第二语音采集模式为在所述至少两个音区中的每个音区中分别采集语音的模式;
输出模块,用于在所述第二语音采集模式下,根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息。
第三方面,本申请实施例还提供了一种语音交互设备,该设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本申请任意实施例所提供的语音交互方法。
第四方面,本申请实施例还提供了一种车辆,包括车体:
所述车体上设置有如本申请实施例所提供的语音交互设备,以及与所述语音交互设备通信连接的收音设备和播放设备。
第五方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序。其中,该程序被处理器执行时实现如本申请任意实施例所提供的语音交互方法。
附图说明
图1a为本申请实施例提供的一种语音交互方法的流程图;
图1b为本申请实施例提供的音区划分示意图;
图1c为本申请实施例提供的一种显示屏幕示意图;
图1d为本申请实施例提供的一种群聊界面示意图;
图1e为本申请实施例提供的一种群聊界面和电话界面示意图;
图1f-图1j为本申请实施例提供一种的群聊界面示意图;
图2a为本申请实施例提供的一种语音交互方法的流程图;
图2b-图2f为本申请实施例提供的一种群聊界面示意图;
图3a为本申请实施例提供的一种语音交互方法的流程图;
图3b-图3e为本申请实施例提供的一种群聊界面示意图;
图4为本申请实施例提供的一种语音交互方法的流程图;
图5为本申请实施例提供的一种语音交互方法的示意图;
图6为本申请实施例提供的一种语音交互装置的结构框图;
图7为本申请实施例提供的一种语音交互设备的结构示意图;
图8为本申请实施例提供的一种车辆的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。
本实施例可适用于车辆中语音交互系统如何根据采集的语音指令,与用户进行语音交互的情况,该方法应用于车辆,可以由车辆中的语音交互装置来执行,该装置可以采用软件和/或硬件方式实现,并可集成于车辆中的语音交互设备中,例如,车辆的车载终端中,还可以是车载终端中的部件,例如,芯片。如图1a所示,本实施例提供的语音交互方法具体包括:
S101、在第一语音采集模式下,获取第一语音指令。
其中,第一语音采集模式为在至少两个音区中的一个音区中采集语音的模式,即只启动至少两个音区中的任意一个音区的收音设备进行语音采集。第一语音指令为第一语音采集模式下执行语音采集的音区中的收音设备所采集到的一个用户发出的语音指令。本实施例可以是将车辆内空间,按照一定的规则,划分为至少两个区域,每个区域即为一个音区。如,可以按照车内座位所在区域,可以将车内空间划分为二个音区,即前排座位所在区域作为一个音区,后排座位所在区域作为另一个音区。还可以将车内空间划分为三个音区,即主驾驶座位所在区域为一个音区,副驾驶作为所在区域为一个音区,后排作为所在区域为一个音区等,对此不进行限定。示例性的,如图1b所示,方框01、方框02和方框03分别代表三个音区,可以将车内空间划分为01音区和03音区两个音区,也可以将车内空间划分为01音区和02音区两个音区。对于每个音区,可以配置有具有收集语音功能的设备,即收音设备(如麦克风、或麦克风阵列等)和具有语音播放以及显示功能的设备,即播放设备(如扬声器和显示器),每个音区的收音设备可以过滤到其采集的其他音区的语音指令,对其所在该音区采集范围内的语音指令进行分析处理。
可选的,车内的任一用户可以通过预设方式来唤醒车载语音交互系统,车载语音交互系统启动后,即进入第一语音采集模式,此时启动唤醒车载语音交互系统的用户所处音区的收音设备进行收音,即当该用户再次说话时,该收音设备即可获取该用户发出的语音指令,即第一语音指令。其中,唤醒车载语音交互系统的预设方式可以包括但不限于:唤醒词、唤按键或唤醒手势等。
示例性的,车内的主驾驶可以通过唤醒词的方式唤醒车载语音交互系统,车载语音交互系统启动后,即进入第一语音采集模式,可选的,在第一语音采集模式下,若车辆的主驾驶位音区采集到了语音指令,则将采集到的该语音指令作为第一语音指令,即获取了第一语音指令。
可选的,本实施例中车内各音区的收音设备在采集语音的同时,还可以控制多音区的显示器展示语音采集动效。如在多音区的各显示器上同时展示一个耳朵或喇叭形状的动态图片,即展示语音采集动效。
S102、在确定第一语音指令满足群聊模式的触发条件时,将第一语音采集模式,切换为第二语音采集模式。
其中,第二语音采集模式为在至少两个音区中的每个音区中分别采集语音的模式,也就是在车辆中的多个音区中可以进行语音采集的模式。群聊模式的触发条件可以是第一语音指令包含带有群聊意图的信息,例如,包含做游戏、导航、点歌或搜索等意图的信息。
可选的,可以利用相关的分析匹配算法,对获取的第一语音指令进行语义分析,确定第一语音指令对应的意图,并判断该意图是否属于预设的做游戏、导航、点歌或搜索等群聊意图,若是,则确定第一语音指令满足群聊模式的触发条件,进而将在一个音区采集语音的第一语音采集模式,切换为同时在每个音区中可以采集语音的第二语音采集模式,相应的,需要开启全车各音区的收音设备。例如,当第一语音指令为“我们去吃什么啊”或“我们玩个游戏吧”等包含群聊意图的语音指令时,可以确定第一语音指令满足群聊模式的触发条件,此时可以将语音采集模式从第一模式切换为第二模式,并开启全车各音区的收音设备。
可选的,本实施例还可以将获取的第一语音指令输入到预先训练的匹配模型中,由该匹配模型来解析第一语音指令的意图,并判断其是否属于群聊意图,进而输出是否满足群聊模式的触发条件的判断结果。
S103、在第二语音采集模式下,根据采集的至少一个第二语音指令,输出群聊模式下的交互信息。
其中,第二语音指令是指第二语音采集模式下车内任一音区的收音设备所采集到的至少一个用户发出的语音指令。需要说明的是,第二语音指令的个数,取决于车内各用户发出语音指令的时间。例如,若车内主驾驶用户和副驾驶用户同时发出语音指令,或发出语音指令的时间相隔很近,则此时第二语音指令为两个。交互信息可以是语音交互系统针对用户发出的第二语音指令,给予回复的信息。可选的,可以是对采集到的其中每个第二语音指令进行回复的信息,也可以是对采集到的多个第二语音指令进行联合分析得到的回复信息。交互信息的内容类型可以包括文字、语音、图片、视频等信息。
可选的,本实施例可以先对采集的第二语音指令进行语义解析,得到第二语音指令的语音信息,然后基于群聊意图和语音信息,确定交互策略,进而基于交互策略,生成群聊模式下的交互信息。其中,交互策略可以是直接展示语音信息;还可以是执行语音信息对应的操作(如搜索策略、歌曲播放策略、导航策略等)后,展示操作结果信息。
示例性的,在第二语音指令为一个用户的语音指令的情况下,若获取到“我们来玩成语接龙吧”的第一语音指令,则确定第一语音指令满足做游戏的群聊模式的触发条件,将第一语音采集模式切换为在至少两个音区中的每个音区中分别采集语音的第二语音采集模式,在第二语音采集模式下,第一轮交互,采集到的男主人发出的第二语音指令为“心旷神怡”,则可以先执行该语音指令对应的输出操作“男主人说对了一个成语,接下来该孩子说了”,此时,针对第一轮采集的第二语音指令的交互结束,可选的,若第二轮交互采集到孩子发出的第二语音指令为“怡然自得”,则可以执行该语音指令对应的操作输出“恭喜孩子回答正确”。
示例性的,在第二语音指令为两个用户的语音指令的情况下,若主驾驶(即第一用户)的语音指令为“我们去吃川菜吧”,副驾驶(即第二用户)的语音指令为“我们去吃东北菜吧”,则此时该群聊模式下输出的交互信息可以是“主驾驶说吃川菜,副驾驶说吃东北菜,请确认我们去吃什么菜?”,也可以将附近东北菜与川菜的饭店位置、人均价格、招牌菜等搜索结果,作为该群聊模式下输出的交互信息,并推荐展示在第一用户和第二用户所在音区显示器的显示屏幕上。
一种可能的实现方式,如图1c所示,主驾的显示屏幕和副驾的显示屏幕位于同一屏幕上,也可以是在单独的屏幕上,在此不做限定。其中,可以通过显示屏幕显示群聊界面,群聊界面可以在主驾的显示屏幕上的主驾界面单独显示,也可以在副驾的显示屏幕上的副驾界面单独显示,还可以是在主驾的显示屏幕的主驾界面上和副驾的显示屏幕的副驾界面上分别显示。
再一种可能的实现方式(图1c并未示出),主驾的显示屏幕和副驾的显示屏幕位于的同一屏幕上,可以显示一个群聊界面。示例性的,该群聊界面上可以为第一用户和第二用户显示输出的交互信息。
结合图1c,群聊界面可以是如图1d中的(a)所示,该群聊界面可以是第一用户所在音区的显示屏幕上显示的界面;还可以是第二用户所在音区的显示屏幕上显示的界面;还可以是同时显示的界面,第一用户和第二用户可以分别在相应的显示屏幕上参与群聊。此时,该群聊界面可以同时显示用户输入的语音指令和群聊模式中输出的交互信息。
另一种可能的实现方式,如图1d中的(b)所示,该群聊界面可以是在第一用户所在音区的显示屏幕上显示的界面,第二用户所在音区的显示屏幕上可以显示的界面,此时,该群聊界面可以显示群聊模式中输出的交互信息。
可选的,在第二语音采集模式下,根据采集的至少一个第二语音指令,输出群聊模式下的交互信息之前,还可以包括:根据采集的第二语音指令,分析该第二语音指令的语义信息,进一步判断该第二语音指令是否与当前的群聊模式相关。若是,则继续执行根据采集的至少一个第二语音指令,输出群聊模式下的交互信息的操作;若否,则将该第二语音指令滤除,即不对其进行后续处理,不执行根据该第二语音指令输出群聊模式下的交互信息的操作。
示例性的,如图1e所示,在玩成语接龙游戏的群聊模式下,若某一用户发出“我要打电话”的第二语音指令,即在第二语音采集模式下,接收到“我要打电话”的第二语音指令,则通过对该第二语音指令进行语义分析,可以判断出该第二语音指令与当前的群聊模式不相关,此时将该第二语音指令滤除,不执行根据该第二语音指令输出群聊模式下的交互信息的操作。可选的,如图1e所示,在玩成语接龙游戏的群聊模式下,接收到“我要打电话”的第二语音指令时,也可以对该第二语音指令进行语义分析,执行对应的操作,将电话界面与当前成语接龙游戏的群聊界面以并列或包含的方式均展示在第二语音指令所在音区的显示屏幕上。可选的,还可以不展示群聊界面,而是将电话界面单独展示在第二语音指令所在音区的显示屏幕上。
可选的,本实施例输出交互信息的方式也有很多,对此本申请不进行限定。可以通过扬声器和/或显示器对交互信息进行输出,具体的,可以通过各音区的扬声器和/或显示器进行输出,还可以是通过一部分音区的扬声器和/或显示器进行输出。例如,可以是通过第二语音指令所属音区的扬声器和/或显示器进行输出;或者通过第二语音指令所需交互音区的扬声器和/或显示器进行输出等。
可选的,输出群聊模式下的交互信息,包括:根据交互信息的内容长度和/或内容类型,确定目标输出装置;通过目标输出装置,输出交互信息。
其中,交互信息的内容类型可以包括文字、语音、图片和视频等。交互信息的内容长度可以是与交互信息的内容类型所对应的长度信息,例如,当交互信息的内容类型为一段文字时,交互信息的内容长度可以是该段文字的字数,当交互信息的内容类型为语音、图片或视频时,交互信息的内容长度可以是该语音、图片或视频的大小。可选的,本实施例中,车内的每个音区可以可配置有播放设备作为输出装置,每个音区的播放设备又包括显示器和语音扬声器。目标输出装置的可以是任一音区的播放设备。
可选的,可以根据交互信息的内容长度,确定目标输出装置,示例性的,可以获得音频的时长(即交互信息的内容长度),并判断音频的时长是否大于预设的时长阈值,若音频的时长大于预设的时长阈值,则可以确定目标输出装置为播放设备的显示器,具体可以将音频转换为文字之后显示在播放设备的显示器上。若音频的时长小于或等于预设的时长阈值,则可以确定目标输出装置为播放设备的扬声器,即通过播放设备的扬声器播放该音频。
可选的,还可以根据交互信息的内容类型,确定目标输出装置,示例性的,若获得的交互信息的内容类型为图片,则可以直接确定对应的目标输出装置为播放设备的显示器。
可选的,还可以根据交互信息的内容长度和内容类型,确定目标输出装置,示例性的,若交互信息的内容类型为文字,且内容长度超过预设的长度阈值,即文字的字数较多,此时可以确定目标输出装置为播放设备的显示器;若交互信息的内容类型为文字,且内容长度未超过预设的长度阈值,则确定目标输出装置为播放设备的扬声器。
可选的,目标输出装置的数量可以为多个。
可选的,多个目标输出装置可以是属于同一类型的输出装置。示例性的,若交互信息为供车内所有用户进行查看的信息,如导航去某地的路线地图,则可以将该路线地图同时展示在车内所有音区播放设备的显示器上。示例性的,在图1d中的(a)所示场景下,即在第二语音指令为两个用户的语音指令的情况下,若主驾驶(即第一用户)的语音指令为“我们去吃川菜吧”,副驾驶(即第二用户)的语音指令为“我们去吃东北菜吧”,则在用户根据输出的交互信息进一步确定了目的地之后,如图1f所示,可以根据确定的目的地,输出导航去目的地的路线地图,即将路线地图显示在主驾、副驾和后排的至少一个显示屏幕上。
可选的,多个目标输出装置也可以是属于不同类型的输出装置,例如,若交互信息包括音频和图片,则此时目标输出装置为播放设备的扬声器和显示器,即在利用扬声器播放交互信息中的语音的同时,在显示器的显示屏幕上展示交互信息中的图片。示例性的,在图1d中的(a)所示场景下,根据主驾和副驾的语音指令,若输出的交互信息为“请确认我们去吃什么菜”,如图1g所示,则可以在扬声器播放该交互信息音频的同时,在显示器的显示屏幕上展示川菜和/或东北菜的图片;若输出的交互信息为“显示附近东北菜与川菜的饭店位置”,如图1g所示,则可以在扬声器播放该交互信息音频的同时,在显示器的显示屏幕上展示附近东北菜与川菜的饭店位置路线地图。
本申请在第一语音采集模式下,获取第一语音指令,在确定第一语音指令满足群聊模式的触发条件时,将在至少两个音区中的一个音区中采集语音的第一语音采集模式切换为在至少两个音区中的每个音区中分别采集语音的第二语音采集模式,在第二语音采集模式下,根据采集的至少一个第二语音指令,输出群聊模式下的交互信息,提供了群聊场景下的车辆语音交互方案,能够增加车辆语音交互过程的趣味性。
可选的,在本申请实施例中,将第一语音采集模块式,切换为第二语音采集模式之后,还包括:获取至少两个音区的用户信息;根据至少两个音区的用户信息,在第二语音采集模式下,采集第一音区内的用户的第二语音指令。
其中第一音区为至少两个音区中的至少一个。本实施例将获取到了用户信息的音区作为第一音区。用户信息可以包括音区内图像传感器采集到的用户的图像信息,还可以包括车辆座椅上设置的重力传感器所获得的用户的重量信息。
具体的,将第一语音采集模块式切换为第二语音采集模式之后,启动全车各音区的收音设备之前,可以先基于图像传感器和/或车辆座椅上设置的重力传感器采集用户信息,并根据采集到的信息进一步判断各音区座位是否有用户乘坐,例如,若用户的体重信息为0和/或该音区的图像传感器未检测到人脸图像,则认为该音区没有用户乘坐,此时不开启该音区的收音设备,若根据该音区的图像传感器和/或重力传感器确定该音区有用户乘坐,则启动该音区的收音设备来采集该音区用户的第二语音指令。
需要说明的是,本方案只启动有用户乘坐的音区的收音设备来采集第二语音指令,通过这样的方式,能够避免收音设备资源的浪费,另外,还可避免没有用户的音区的收音设备误识别其他音区语音指令的情况出现。
可选的,若至少两个音区中只有一个音区中有用户乘坐,则认为该车辆目前一人乘坐,此时可以不执行将第一语音采集模块式切换为第二语音采集模式的操作。
可选的,在本实施例中,根据采集的至少一个第二语音指令,输出群聊模式下的交互信息的具体实现过程还可以包括:根据第三语音指令所在的音区和/或第三语音指令对应的用户信息,确定第三语音指令对应输出的交互信息所在的音区;根据输出的交互信息所在的音区,输出第三语音指令的交互信息;
其中,第三语音指令是第二语音指令中的一个指令。第三语音指令所在的音区是指采集第三语音指令的收音设备所在的音区。可选的,用户信息还可以包括对车辆上各音区设置的图像传感器和收音设备采集的信息进行解析处理之后得到的用户的性别、人脸图像和声纹信息等。第三语音指令对应的用户信息可以是发出该第三语音指令的用户信息;还可以是第三语音指令的语音信息中包含的用户信息。
具体的,本实施例可以根据第三语音指令所在的音区,确定第三语音指令对应输出的交互信息所在的音区时,可以是将第三语音指令所在音区,作为该第三语音指令对应输出的交互信息所在的音区。根据第三语音指令对应的用户信息,确定第三语音指令对应输出的交互信息所在的音区时,若第三语音指令对应的用户信息是发出该第三语音指令的用户信息,则此时可以将第三语音指令所在音区,作为该第三语音指令对应输出的交互信息所在的音区;若第三语音指令对应的用户信息是第三语音指令的语音信息中包含的用户信息,则此时可以将第三语音指令的语音信息中包含的用户所在音区作为该第三语音指令对应输出的交互信息所在的音区。根据第三语音指令所在的音区和第三语音指令对应的用户信息,确定第三语音指令对应输出的交互信息所在的音区时,可以将上述两种方式进行组合,得到一个或多个该第三语音指令对应输出的交互信息所在的音区。通过这样的方式,可以实现在哪个音区获取到语音指令,则在对应的音区输出对应的交互信息,从而提高了语音交互过程的趣味性,让用户更有体验感。
可选的,在本申请实施例中,车载终端中可以预先存储该车辆的基本用户信息,如“男主人”、“女主人”和“孩子”的人脸图像和声纹信息等。在根据采集的至少一个第二语音指令,输出群聊模式下的交互信息时,还可以将第三语音指令对应的用户信息与车载终端存储的基本用户信息进行匹配,即可判断出第三语音指令所属用户的角色。如男主人、女主人或孩子。基于第三语音指令所属用户的角色,来输出群聊模式下的交互信息。例如,若第三语音指令所述角色为男主人,则输出的交互信息中可以包含男主人的身份提示,或者采用男性音色来输出交互信息等。
上述实施例均以一轮交互对话过程为例进行介绍,可选的,在群聊场景下还可以有多轮的对话。在第二语音采集模式下,根据采集的多个第二语音指令判断多个第二语音指令处于一轮对话还是多轮对话可以基于多个第二语音指令发出的时间间隔与预设时长的比较结果确定。具体的,若参与群聊模式的用户为两人,即第一用户和第二用户,且第一用户和第二用户分别发出了一句第二语音指令,则判断该第二语音指令是处于一轮对话还是多轮对话的过程如下:
若第一用户的第二语音指令和第二用户的第二语音指令的采集时间间隔小于预设时长,则该第二语音指令处于一轮对话,此时将两个第二语音指令作为一轮交互进行响应,执行对应的操作,并输出操作生成的交互信息。若第一用户的第二语音指令和第二用户的第二语音指令的采集时间间隔超出了预设时长,则说明这两句第二语音指令处于两轮对话,此时,可以依次针对每一第二语音指令,执行其对应的操作,并输出操作生成的交互信息。
可选的,预设时长是根据执行“根据先发出的第二语音指令,输出群聊模式下的交互信息”操作所需要的时长来确定的。具体的,根据不同的第二语音指令,执行对应的输出交互信息的操作所需要的预设时长可以是预先设置好的固定值,也可以是根据实际执行过程所需时长确定。例如,若第一用户的第二语音指令为“导航去A地”,则语音交互系统根据该第二语音指令确定导航去A地的路线数据并输出相应的交互信息所需要的时长可以是100ms,此时该预设时长可以为100ms。
示例性的,若第一用户先发出第二语音指令为“导航去A地”,第二用户后发出第二语音指令为“导航去B地”,则进一步判断第一用户与第二用户发出第二语音指令的时间间隔是否超过了100ms。若时间间隔超过了100ms,如图1h中的(a)所示,则先根据第一用户发出第二语音指令,输出该第二语音指令对应的交互信息,如在显示器上显示导航去A地的路线并进行语音播报,此时认为已完成一轮语音交互的对话。接着执行第二轮对话,即根据第二用户发出第二语音指令,输出该第二语音指令对应的交互信息,如将在显示器上并排展示导航去B地的路线;若时间间隔没有超过100ms,如图1h中的(b)所示,则认为第一用户和第二用户的第二语音指令处于同一轮对话中,进一步根据第一用户和第二用户发出第二语音指令,输出该第二语音指令对应的交互信息,如利用扬声器播放使得第一用户和第二用户选择导航去A地还是去B地的交互信息,如“请确认导航去A地还是B地”。
图2a为本申请实施例提供的一种语音交互方法的流程图,图2b-2f为本申请实施例提供的群聊界面示意图。如图2a所示,本实施例提供的语音交互方法包括:
S201、在第一语音采集模式下,获取第一语音指令。
S202、在确定第一语音指令满足群聊模式的触发条件时,将第一语音采集模式,切换为第二语音采集模式。
S203、在第二语音采集模式下,根据采集的第二语音指令,在第二语音指令中,识别出第一用户和第二用户的语音信息。
其中,第二语音指令包括第一用户和第二用户的语音指令。第一用户和第二用户是指与采集的各第二语音指令分别对应的用户。语音信息是指对用户的第二语音指令进行语义识别,得到的第二语音指令中所包含的语义信息。
可选的,在第二语音指令中,可以分别识别出第一用户的语音信息和第二用户的语音信息,作为第一用户和第二用户的语音信息。
可选的,还可以是先识别出第一用户的语音信息和第二用户的语音信息,再对两个用户的语音信息进行分析,识别出包含第一用户和第二用户整体的语音信息,作为第一用户和第二用户的语音信息。例如,当第一用户的语音信息为“去公园”,第二用户的语音信息为“去中心公园”时,识别出的第一用户和第二用户整体的语音信息可以是“导航去中心公园”;还可以是识别出第一用户的语音信息和第二用户的语音信息的合并信息,作为第一用户和第二用户的语音信息。例如,当第一用户的语音信息为“去中心公园”,第二用户的语音信息为“去A市最大的公园”时,识别出的第一用户的语音信息和第二用户的语音信息可以是“去A市最大的中心公园”。
可选的,在第二语音指令中,识别出第一用户和第二用户的语音信息,包括以下任一项:
(一)、第一用户和第二用户的语音信息包括:第一用户的第一语音信息和第二用户的第二语音信息。
可选的,识别出的第一用户和第二用户的语音信息可以包括第一用户的第一语音信息和第二用户的第二语音信息,相应的,在后续输出交互信息时,可以直接输出第一用户的第一语音信息和第二用户的第二语音信息,不进行处理,通过这样的方式,可以降低时延。
(二)、识别出第一用户的第一语音信息和第二用户的第二语音信息,对第一语音信息和第二语音信息进行合并,获得第一用户和第二用户的语音信息,第一用户的第一语音信息和第二用户的第二语音信息为互补关系。
其中,互补关系可以是同一个元素的语句,比如,中心公园和A市最大的公园,也可以是同一话题的语句,比如:搜索附近的饭店和搜索附近的公园。
若识别出的第一用户的第一语音信息和第二用户的第二语音信息为同一个元素互补关系,则可以按照对应的方式对第一语音信息和第二语音信息进行合并。示例性的,如图1i所示,当第一用户的第一语音信息为“我们去中心公园吧”,第二用户的第二语音信息为“好啊,我们去A市最大的公园”时,对第一用户的第一语音信息和第二用户的第二语音信息进行联合分析,确认第一用户的第一语音信息和第二用户的第二语音信息为互补关系,可以对第一语音信息和第二语音信息进行简单的合并,获得第一用户和第二用户的语音信息为“第一用户说去中心公园,第二用户说去A市最大的公园”;也可以将第一语音信息和第二语音信息进行整理之后再合并,获得第一用户和第二用户的语音信息为“为您导航去A市最大的公园,中心公园”。
若识别出的第一用户的第一语音信息和第二用户的第二语音信息为同一话题的互补关系,则可以按照对应的方式对第一语音信息和第二语音信息进行合并。示例性的,当第一用户的第一语音信息为“搜索附近的公园”,第二用户的第二语音信息为“搜索附近的饭店”时,对第一用户的第一语音信息和第二用户的第二语音信息进行联合分析,确认第一用户的第一语音信息和第二用户的第二语音信息为互补关系,可以对第一语音信息和第二语音信息进行整理之后合并,获得第一用户和第二用户的语音信息为“搜索附近饭店的地图”。
(三)、识别出第一用户的第三语音信息和第二用户的第四语音信息,对第三语音信息和第四语音信息进行筛选,获得第一用户和第二用户的语音信息,第三语音信息和第四语音信息为互斥关系。
其中,互斥关系可以是属于同一话题但是不同的元素的语句,比如火车南站和火车西站,也可以是不同话题和元素的语句,比如去吃东北菜和搜索歌曲。
若识别出的第一用户的第三语音信息和第二用户的第四语音信息为同一话题但是不同的元素的互斥关系,则可以利用对应筛选规则对第三语音信息和第四语音信息进行筛选,选择其中一个语音信息作为第一用户和第二用户的整体语音信息。
可选的,该筛选规则可以是按照用户发出语音指令的时间顺序对第三语音信息和第四语音信息进行筛选,示例性的在答题意图的群里场景下,当第一用户先发出的第三语音信息为“1+1=2”,第二用户后发出的第四语音信息为“1+1=3”时,可以对第一用户的第三语音信息和第二用户的第四语音信息进行联合分析,确认第一用户的第三语音信息和第二用户的第四语音信息为互斥关系,按照用户发出语音指令的时间顺序对第三语音信息和第四语音信息进行筛选,选择其中的一个语音信息作为获得的第一用户和第二用户的整体语音信息,如选择第三语音信息“1+1=2”为第一用户和第二用户的整体语音信息。
可选的,该筛选规则也可以是按照用户所处位置确定出用户的角色,根据预选设置的角色的重要性对第三语音信息和第四语音信息进行筛选,例如,当主驾驶位的第一用户输出第三语音信息为“导航去A地”,副驾驶的第二用户输出第四语音信息为“导航去B地”,则可以按照预设原则,如主驾驶指令高于副驾驶指令的原则,将第三语音信息和第四语音信息筛选为“导航去A地”即第一用户和第二用户的整体语音信息。
(四)、识别出第一用户的第三语音信息和第二用户的第四语音信息,对第三语音信息和第四语音信息进行排序,获得第一用户和第二用户的语音信息,第三语音信息和第四语音信息为互斥关系。
可选的,若识别出的第一用户的第三语音信息和第二用户的第四语音信息为不同的话题和不同的元素的互斥关系,则可以利用对应的排序规则对第三语音信息和第四语音信息进行排序,将排序后的第三语音信息和第四语音信息作为获得的第一用户和第二用户的整体语音信息。示例性的,如图1j所示,当副驾驶先给出第三语音信息为“搜索中心公园”,主驾驶后给出第四语音信息为“搜索中文歌曲”时,可以按照预设原则进行排序,如先主驾驶乘客、其次副驾驶乘客、最后后排乘客的顺序对语音信息进行排序,按照该排序规则,获得的副驾驶和主驾驶的整体语音信息为“先搜索中文歌曲,后搜索中心公园”;也可以按照用户发出指令的时间顺序进行排序,按照该排序规则,获得的副驾驶和主驾驶的整体语音信息为“先搜索中心公园,后搜索中文歌曲”。
本实施例在确认至少一个第二语音指令之间的关系之后,进一步采用不同的操作识别出对应的第一用户和第二用户的语音信息,通过这样的方式,可以提高获得的第一用户和第二用户的语音信息的丰富性、趣味性以及准确性。
S204、根据识别出的第一用户和第二用户的语音信息,执行语音信息对应的操作,并输出操作生成的第一用户和第二用户的交互信息。
其中,交互信息是指执行语音信息对应的操作之后,需要向第一用户和第二用户进行反馈的信息。
可选的,若第一用户和第二用户的语音信息分别是第一用户的语音信息和第二用户的语音信息,则可以分别执行第一用户的语音信号和第二用户语音信息对应的操作,并先后输出操作生成的第一用户的交互信息和第二用户的交互信息。
(一)示例性的,若识别出的第一用户和第二用户的语音信息为第一用户的第一语音信息和第二用户的第二语音信息,如图2b所示,第一用户的第一语音信息为“今天天气真好”,第二用户的第二语音信息为“今天穿的衣服真好看”,则可以直接输出第一用户的第一语音信息和第二用户的第二语音信息,不进行处理,以降低时延,即直接输出的交互信息为“今天天气真好”和“今天穿的衣服真好看”。
(二)若第一用户和第二用户的语音信息是对第一语音信息和第二语音信息进行合并之后获得的,则可以根据识别出的第一用户和第二用户的语音信息,执行语音信息对应的操作,并输出操作生成的第一用户和第二用户的交互信息。
可选的,若第一用户和第二用户的语音信息是第一用户和第二用户整体的语音信息,则本实施例得到第一用户和第二用户的语音信息后,执行联合分析后的该语音信息对应的操作,并输出操作后的交互信息。例如,如图2c所示,当第一用户的语音信息为“我们去A市国际机场吧”,第二用户的语音信息为“好啊,我们去A市飞机场”时,对第一用户的语音信息和第二用户的语音信息进行联合分析,进行合并处理之后的语音信息即“导航去A市机场”,执行相应处理之后的语音信息对应的操作(如搜索导航路线),可选的,可以通过扬声器进行语音导航的方式引导乘客去天津机场,也可以将去天津机场的路线地图展示在第一用户和第二用户所在音区的屏幕设备上,即输出操作生成的第一用户和第二用户的交互信息。
(三)、若识别出的第一用户和第二用户的语音信息是对第一语音信息和第二语音信息进行筛选之后获得的,则可以根据识别出的第一用户和第二用户的语音信息,执行语音信息对应的操作,并输出操作生成的第一用户和第二用户的交互信息。
例如,如图2d所示,当第一用户先发出的语音信息为“搜索公园”,第二用户后发出的语音信息为“搜索饭店”,且筛选规则为将先发出的语音信息作为识别出的第一用户和第二用户的语音信息,则可以确定识别出的第一用户和第二用户的语音信息为“搜索公园”,进一步执行语音信息对应的操作,输出交互信息,即通过显示器显示公园的搜索结果,同时通过扬声器播放搜索结果。
(四)、若识别出的第一用户和第二用户的语音信息是对第一语音信息和第二语音信息进行排序之后获得的,则可以根据识别出的第一用户和第二用户的语音信息,执行语音信息对应的操作,并输出操作生成的第一用户和第二用户的交互信息。
可选的,在本申请实施例中,根据识别出的第一用户和第二用户的语音信息,执行语音信息对应的操作,并输出操作生成的第一用户和第二用户的交互信息的具体实现方式还可以包括:执行第一用户的第一语音信息的操作,及第二用户的第二语音信息的操作,获得第一用户的交互信息和第二用户的交互信息;根据第一用户的第一语音信息和第二用户的第二语音信息的优先级,输出第一用户的交互信息和第二用户的交互信息。
其中,优先级可以是时间顺序的优先级,也可以是先主驾驶乘客、其次副驾驶乘客、最后后排乘客的优先级顺序,还可以根据用户回答内容的正确性确定的顺序等。
可选的,在点播歌曲的群聊模式下,可以根据第一用户的语音信息确定第一用户的第一语音信息对应的操作,获得第一用户的交互信息,例如根据“播放中文歌”,执行搜索中文歌的操作,获得一首中文歌的音频资源信息即第一用户的交互信息;根据第二用户的第二语音信息,确定第二用户的第二语音信息对应的操作,获得第二用户的交互信息,例如根据“播放英文歌”,执行搜索英文歌的操作,获得一首英文歌的音频资源信息即第二用户的交互信息,可选的,如图2e所示,若根据两个语音信息的时间先后顺序设置优先级,且第一用户比第二用户先发出第二语音指令,则先播放第一用户所点播的歌曲,再播放第二用户所点播的歌曲。
可选的,如图2f所示,在抢答游戏的群聊模式下,可以根据第一用户的语音信息确定第一用户的第一语音信息对应的操作,获得第一用户的交互信息为“第一用户回答正确”,根据第二用户的第二语音信息,确定第二用户的第二语音信息对应的操作,获得第二用户的交互信息为“第二用户回答错误”,若根据用户回答内容的正确性设置优先级,如回答正确的优先级高于回答错误的优先级,则先输出第一用户的交互信息“恭喜第一用户回答正确”,再输出第二用户的交互信息“很遗憾第二用户回答错误”。
本申请在将第一语音采集模式切换为第二语音采集模式之后,在第二语音指令中识别出第一用户和第二用户的语音信息,根据识别出的第一用户和第二用户的语音信息,执行语音信息对应的操作,并输出操作生成的第一用户和第二用户的交互信息,通过这样的方式,可以进一步提高车辆语音交互过程的灵活性和趣味性。
图3a为本申请实施例提供的一种语音交互方法的流程图,图3b-3e为本申请实施例提供的一种群聊界面示意图。如图3a所示,本实施例提供的语音交互方法具体包括:
S301、在第一语音采集模式下,获取第一语音指令。
S302、在确定第一语音指令满足群聊模式的触发条件时,将第一语音采集模式,切换为第二语音采集模式。
S303、在第二语音采集模式下,根据采集的至少一个第二语音指令,输出第一用户和第二用户的语音信息。
一种可能的实现方式,第一用户和第二用户的语音信息可以是S203中识别出的第一用户和第二用户的语音信息。示例性的,如图3b所示,第一用户的第一语音信息为“今天天气真好”,第二用户的第二语音信息为“今天穿的衣服真好看”,则可以直接输出第一用户的第一语音信息和第二用户的第二语音信息,不进行处理,以降低时延,即输出第一用户和第二用户的语音信息为“今天天气真好”和“今天穿的衣服真好看”。
另一种可能的实现方式,可以根据群聊模式,对第一用户的第一语音信息和第二用户的第二语音信息进行合并,输出合并后的第一用户和第二用户的语音信息。示例性的,如图3c所示,当第一用户的语音信息为“我们去A市国际机场吧”,第二用户的语音信息为“好啊,我们去A市飞机场”时,对第一用户的语音信息和第二用户的语音信息进行合并之后输出的第一用户和第二用户的语音信息为“导航去A市机场”。
另一种可能的实现方式,可以根据群聊模式,对第一用户的第一语音信息和第二用户的第二语音信息进行筛选,输出筛选后的第一用户和第二用户的语音信息;示例性的,如图3d所示,当第一用户先发出的语音信息为“搜索公园”,第二用户后发出的语音信息为“搜索饭店”,且筛选规则为将先发出的语音信息作为识别出的第一用户和第二用户的语音信息,则可以确定筛选后的第一用户和第二用户的语音信息为“搜索公园”。
另一种可能的实现方式,还可以根据群聊模式、第一用户和第二用户的语音信息的排序,输出第一用户和第二用户的语音信息。示例性的,如图3e所示,在抢答游戏的群聊模式下,可以根据第一用户的语音信息确定第一用户的第一语音信息对应的操作,获得第一用户的交互信息为“第一用户回答正确”,根据第二用户的第二语音信息,确定第二用户的第二语音信息对应的操作,获得第二用户的交互信息为“第二用户回答错误”,若根据用户回答内容的正确性设置优先级,如回答正确的优先级高于回答错误的优先级,则输出第一用户和第二用户的语音信息为“恭喜第一用户回答正确,很遗憾第二用户回答错误”。
需要说明的是,通过直接输出、筛选、合并以及排序的方式对第一用户和第二用户的语音信息进行输出的具体过程在上述实施例中已经进行了详细的说明,在此不再赘述。
可选的,在第二语音采集模式下,可以先由车辆中语音交互系统的解析模块对采集的至少一个第二语音指令进行处理,确定第一用户的第一语音信息和第二用户的第二语音信息之后发送至播放设备,由播放设备的处理单元根据第一用户的第一语音信息和第二用户的第二语音信息,执行直接输出、筛选、合并或排序的处理方式之后,输出处理后的第一用户和第二用户的语音信息;也可以是先由车辆中语音交互系统的解析模块对采集的至少一个第二语音指令进行处理,确定第一用户和第二用户的语音信息,并利用直接输出、筛选、合并或排序的方式进行处理,进一步将处理好的第一用户和第二用户的语音信息发送至输出装置,由输出装置直接输出获得的第一用户和第二用户的语音信息。
可选的,本实施例的另一种可实施方式可以是根据群聊模式,输出第一提示信息,第一提示信息用于提示用户对第一用户的第一语音信息和第二用户的第二语音信息进行选择。示例性的,当第一用户语音信息为“播放一首中文歌曲”,第二用户语音信息为“播放一首英文歌”时,输出的第一提示信息为“那我们是先播放一首中文歌曲还是先播放一首英文歌呢?”
本申请在第一语音采集模式下,获取第一语音指令,在确定第一语音指令满足群聊模式的触发条件时,将第一语音采集模式,切换为第二语音采集模式,在第二语音采集模式下,根据采集的至少一个第二语音指令,输出第一用户和第二用户的语音信息,或者根据群聊模式,输出第一提示信息,通过这样的方式,给出了向用户进行回复完成交互的更多可能的方式,从而提高了车辆语音交互过程的丰富性。
图4为本申请实施例提供的一种语音交互方法的流程图。如图4所示,本实施例提供的语音交互方法包括:
S401、在第一语音采集模式下,获取第一语音指令。
S402、在确定第一语音指令满足群聊模式的触发条件时,将第一语音采集模式,切换为第二语音采集模式。
S403、在第二语音采集模式下,根据采集的至少一个第二语音指令,输出群聊模式下的交互信息。
S404、在确定满足群聊模式的结束条件时,将第二语音采集模式,切换为第一语音采集模式。
其中,群聊模式的结束条件包括以下任一项:
(一)、获得第四语音指令,第四语音指令用于触发结束群聊模式。
其中,第四语音指令是指包含触发结束群聊模式信息的语音。例如,在获取到用户发出的“退出群聊模式”或其他预先设定的用于触发结束群聊模式的第四语音指令时,可认为满足了群聊模式的结束条件,执行将第二语音采集模式,切换为第一语音采集模式。
(二)、群聊模式的执行时间满足预设阈值。
其中,群聊模式的执行时间是指从将第一语音采集模式切换为第二语音采集模式开始,到输出群聊模式下的交互信息结束的时间。预设阈值可以是预先设置的时间阈值,如5分钟、10分钟或15分钟。
例如,若群聊模式的执行时间超过了5分钟,则确定满足了群聊模式的结束条件,执行将第二语音采集模式,切换为第一语音采集模式。
(三)、输出交互信息,并确认交互信息所属的同一话题结束。
可选的,在根据采集的至少一个第二语音指令输出交互信息之后,可以进一步利用分析算法,确认交互信息所属的同一话题是否结束,例如,若输出的交互信息是“开始为您导航去天津机场的路线”,则可以根据交互信息的内容,判断所属的导航话题已结束,此时确定满足了群聊模式的结束条件,将第二语音采集模式,切换为第一语音采集模式。又例如用户请求播放歌曲,若歌曲开始播放,则认为满足了群聊模式的结束条件,此时将第二语音采集模式,切换为第一语音采集模式。
可选的,在本实施例中,若检测到群聊结束,即确定满足了群聊模式的结束条件,可以直接切换回第一语音指令对应音区的第一语音采集模式,即启动第一语音指令对应的一个音区的收音设备,关闭其余音区的收音设备。也可以是将第二语音采集模式切换为采集预设音区的第一语音采集模式。即启动预设音区的收音设备,关闭其余音区的收音设备。其中,所谓预设音区既可以是预先设置的一个固定的音区。例如,若预设音区是主驾驶音区,则在确定满足群聊模式的结束条件时,将第二语音采集模式,切换为采集主驾驶音区的第一语音采集模式。
本申请在根据采集的至少一个第二语音指令,输出群聊模式下的交互信息之后,进一步在确定满足群聊模式的结束条件时,将第二语音采集模式,切换为第一语音采集模式,通过这样的方式,在群聊结束时,自主退出群聊模式,避免长时间启动群聊模式,导致车内所有音区的收音设备和播放设备可以同时工作,造成资源的过渡浪费,以及避免误触发群聊交互语音的情况出现。
图5为本申请实施例提供的一种语音交互方法的示意图,如图5所示,本实施例提供的语音交互方法包括:
S501、通过预设方式唤醒车载语音交互系统。
其中,唤醒车载语音交互系统的预设方式可以包括但不限于:唤醒词、唤按键或唤醒手势等。可选的,用户通过预设方式唤醒车载语音交互系统之后,即进入了第一语音采集模式。
S502、获取第一语音指令。
其中,获取第一语音指令的具体过程可以参见S101,在此不进行赘述。
S503、判断是否处于单音区锁定模式,若是,则执行S504;若否,则执行S505。
其中,单音区锁定模式可以是锁定只能开启一个音区来采集语音进行交互的模式。可以包括主驾隐私模式或锁定任意一个音区进行交互的模式。所谓主驾驶隐私模式是指只开启主驾驶所在的音区的收音设备,采集该音区用户的语音指令的模式。可选的,若处于单音区锁定模式,则执行S504,若未处于单音区锁定模式,则S505。
S504、基于第一语音指令,执行第一策略,即根据采集到的第一语音指令,输出对应的交互信息。
其中,第一策略是指单音区锁定模式下进行语音交互的策略。即交互过程中只考虑该单音区的语音指令。
可选的,基于第一语音指令,可以开启第一语音指令所处的单音区的收音设备,对给单音区的语音指令进行采集,基于第一策略,响应采集到的第一语音指令,输出对应的交互信息。
S505、判断第一语音指令是否满足群聊模式的触发条件,若是,则执行S506,若否,则执行S504。
其中,判断第一语音指令是否满足群聊模式的触发条件的具体过程可以参考S102,在此不进行赘述。
S506、判断第一语音指令是否属于两路对话,若是,则执行S507,否则,执行S509。
其中,两路对话可以是两个不同音区采集的不同用户的对话。
可选的,第一语音指令的数量可以的一个或多个。当第一语音指令为一个时,则不输入两路对话,此时直接执行S509。若第一语音指令为两个,且两个第一语音指令是两个不同音区的采集装置采集的,则这两个第一语音指令属于两路对话,此时执行S507。
S507、判断两路对话是否均为多轮对话,若是,则执行S504,若否,则执行S508。
其中,多轮对话是指搜索、导航或点歌等群聊场景下的对话类型,单轮对话是指包含对车机进行控制的指令信息的对话类型,如调节音量或开启空调等。
可选的,可以对两路对话对应的两个第一语音指令进行语义分析,判断两个第一语音指令是否属于多轮对话,若是,则执行S504,即针对每个第一语音指令,基于第一策略输出对应的交互信息。若否,则判断属于单轮对话的第一语音指令是否已经确定交互信息,若是,先输出该交互信息后执行S509,否则,直接执行S508。
S508、打断另一路对话。
可选的,打断另一路对话可以指属于单轮对话的第一语音指令,可以是不执行其所对应的操作,即不输出其对应的交互信息。
S509、进入群聊模式,将当前模式切换为第二语音采集模式,获取第二语音指令。
其中,第二语音指令是指通过开启全车多个音区的收音设备采集到的语音指令。将当前模式切换为第二语音采集模式的具体过程可以参考上述实施例的实现方式,此处不进行赘述。
S510、基于第二语音指令,执行第二策略。
其中,第二策略是指群聊模式下进行语音交互的策略。即交互过程中各音区的语音指令进行关联分析。具体的,第二策略为按照上述任意实施例的方式,在第二语音采集模式下,根据采集到的至少一个第二语音指令,输出群聊模式下的交互信息的策略。
S511、根据采集的至少一个第二语音指令,输出群聊模式下的交互信息。
S512、判断是否满足群聊模式的第一结束条件,若是,则执行S513,若否,则执行S514。
其中,第一结束条件为无需输入新的语音指令即可以判断群聊模式是否结束的条件。
可选的,可以通过确定群聊模式的执行时间满足预设阈值,或在输出交互信息,并确认交互信息所属的同一话题结束时,判断满足群聊模式的第一结束条件,具体过程在S404已经给出了详细的介绍,此处不再赘述。
可选的,还可以在输出交互信息之后经过预设时长,用户未发出新的语音指令的情况下,判断满足群聊模式的第一结束条件,如,播放歌曲之后10s内,用户未发出相关的语音指令,则认为满足了群聊模式的第一结束条件。
可选的,若满足群聊模式的第一结束条件,则执行S513,若不满足群聊模式的第一结束条件,则执行S514。
S513、关闭群聊模式,回到原来的对话模式。
可选的,回到原来的对话模式可以是回到切入第二语音采集模式之前,系统所处的语音采集模式。
S514、下一轮用户输入第二语音指令。
S515、判断是否满足群聊模式的第二结束条件,若是,则执行S513,若否,则执行S510。
其中,第二结束条件为结合下一轮用户重新输入的第二语音指令,判断群聊模式是否结束的条件。
可选的,可以判断第二语音指令是否用于结束群聊模式,若是,则认为满足群聊模式的第二结束条件,若否,则认为不满足群聊模式的第二结束条件。
通过上述方法,增加了车辆语音交互过程的多样性。
图6为本申请实施例提供的一种语音交互装置的结构框图,本申请实施例所提供的一种语音交互装置可执行本申请任一实施例所提供的一种语音交互方法,具备执行方法相应的功能模块和有益效果,可应用于车辆,所述车辆包括至少两个音区。该语音交互装置可以包括获取模块601、切换模块602以及输出模块603。
获取模块601,用于在第一语音采集模式下,获取第一语音指令;所述第一语音采集模式为在所述至少两个音区中的一个音区中采集语音的模式;
切换模块602,用于在确定所述第一语音指令满足群聊模式的触发条件时,将所述第一语音采集模式,切换为第二语音采集模式;所述第二语音采集模式为在所述至少两个音区中的每个音区中分别采集语音的模式;
输出模块603,用于在所述第二语音采集模式下,根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息。
本申请实施例在第一语音采集模式下,获取第一语音指令,在确定第一语音指令满足群聊模式的触发条件时,将在至少两个音区中的一个音区中采集语音的第一语音采集模式切换为在至少两个音区中的每个音区中分别采集语音的第二语音采集模式,在第二语音采集模式下,根据采集的至少一个第二语音指令,输出群聊模式下的交互信息。通过这样的方式,能够增加车辆语音交互过程的趣味性,为基于车辆的语音交互提供了新的解决方案。
可选的,上述装置还包括:
用户信息获取模块,用于获取所述至少两个音区的用户信息。
第二指令采集模块,用于根据所述至少两个音区的用户信息,在所述第二语音采集模式下,采集第一音区内的用户的第二语音指令;所述第一音区为所述至少两个音区中的至少一个。
可选的,输出模块603可以包括:
识别单元,用于在第二语音指令中,识别出第一用户和第二用户的语音信息;
信息输出单元,用于根据识别出的第一用户和第二用户的语音信息,执行所述语音信息对应的操作,并输出所述操作生成的第一用户和第二用户的交互信息。
可选的,识别单元可以包括:
信息合并子单元,用于识别出第一用户的第一语音信息和第二用户的第二语音信息,对所述第一语音信息和所述第二语音信息进行合并,获得所述第一用户和第二用户的语音信息,所述第一用户的第一语音信息和所述第二用户的第二语音信息为互补关系。
信息筛选子单元,用于识别出第一用户的第三语音信息和第二用户的第四语音信息,对所述第三语音信息和所述第四语音信息进行筛选,获得所述第一用户和第二用户的语音信息,所述第三语音信息和所述第四语音信息为互斥关系。
信息排序子单元,用于识别出第一用户的第三语音信息和第二用户的第四语音信息,对所述第三语音信息和所述第四语音信息进行排序,获得所述第一用户和第二用户的语音信息,所述第三语音信息和所述第四语音信息为互斥关系。
可选的,输出模块603还可以用于:
输出所述第一用户和第二用户的语音信息;和/或,
根据所述群聊模式,输出第一提示信息,所述第一提示信息用于提示用户对第一用户的第一语音信息和第二用户的第二语音信息进行选择。
可选的,上述装置还包括:
第三音区确定模块,用于根据第三语音指令所在的音区和/或所述第三语音指令对应的用户信息,确定所述第三语音指令对应输出的交互信息所在的音区。
第三信息输出模块,用于根据所述输出的交互信息所在的音区,输出所述第三语音指令的交互信息;所述第三语音指令是所述第二语音指令中的一个指令。
结束切换模块,用于在确定满足群聊模式的结束条件时,将所述第二语音采集模块式,切换为第一语音采集模式;
所述群聊模式的结束条件包括以下任一项:
获取模块601获得第四语音指令,所述第四语音指令用于触发结束群聊模式;
群聊模式的执行时间满足预设阈值;
输出模块603输出所述交互信息,并确认所述交互信息所属的同一话题结束。
图7为本申请实施例提供的一种语音交互设备的结构示意图,图7示出了适于用来实现本申请实施例实施方式的示例性设备的框图。
如图7所示,语音交互设备12可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(MicroChannel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(peripheral component interconnect,PCI)总线。
语音交互设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被语音交互设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)30和/或高速缓存存储器(高速缓存32)。语音交互设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM(Compact Disc Read-Only Memory,只读光盘),DVD-ROM(Digital Video Disc-Read Only Memory,高密度数字视频光盘)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请实施例各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请实施例所描述的实施例中的功能和/或方法。
语音交互设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该语音交互设备12交互的设备通信,和/或与使得该语音交互设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,语音交互设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与语音交互设备12的其它模块通信。应当明白,尽管图中未示出,可以结合语音交互设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID(Redundant Arrays of IndependentDisks,磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的语音交互方法。
本申请实施例还提供一种车辆,参见图8,该车辆包括车体,车体上设置有本申请上述实施例所提供的语音交互设备,以及与语音交互设备通信连接的收音设备和播放设备。
可选的,收音设备可以用于采集语音指令并发送至语音交互设备;语音交互设备可以用于执行本申请实施例所提供的语音交互方法对采集的语音进行处理,输出交互信息发送至播放设备;播放设备用于向用户展示交互信息。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序(或称为计算机可执行指令),该程序被处理器执行时用于执行本申请实施例所提供的语音交互方法。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(Read-Only Memory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read-OnlyMemory,EPROM)、光纤、便携式紧凑磁盘只读存储器、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
Claims (11)
1.一种语音交互方法,其特征在于,应用于车辆,所述车辆包括至少两个音区,所述方法包括:
在第一语音采集模式下,获取第一语音指令;所述第一语音采集模式为在所述至少两个音区中的一个音区中采集语音的模式;
在确定所述第一语音指令满足群聊模式的触发条件时,将所述第一语音采集模式,切换为第二语音采集模式;所述第二语音采集模式为在所述至少两个音区中的每个音区中分别采集语音的模式;
在所述第二语音采集模式下,根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一语音采集模块式,切换为第二语音采集模式之后,还包括:
获取所述至少两个音区的用户信息;
根据所述至少两个音区的用户信息,在所述第二语音采集模式下,采集第一音区内的用户的第二语音指令;所述第一音区为所述至少两个音区中的至少一个。
3.根据权利要求1或2所述的方法,其特征在于,所述根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息,包括:
在第二语音指令中,识别出第一用户和第二用户的语音信息;
根据识别出的第一用户和第二用户的语音信息,执行所述语音信息对应的操作,并输出所述操作生成的第一用户和第二用户的交互信息。
4.根据权利要求3所述的方法,其特征在于,在所述至少一个第二语音指令中,识别出所述第一用户和第二用户的语音信息,包括以下任一项:
识别出第一用户的第一语音信息和第二用户的第二语音信息,对所述第一语音信息和所述第二语音信息进行合并,获得所述第一用户和第二用户的语音信息,所述第一用户的第一语音信息和所述第二用户的第二语音信息为互补关系;
或者,识别出第一用户的第三语音信息和第二用户的第四语音信息,对所述第三语音信息和所述第四语音信息进行筛选,获得所述第一用户和第二用户的语音信息,所述第三语音信息和所述第四语音信息为互斥关系;
或者,识别出第一用户的第三语音信息和第二用户的第四语音信息,对所述第三语音信息和所述第四语音信息进行排序,获得所述第一用户和第二用户的语音信息,所述第三语音信息和所述第四语音信息为互斥关系。
5.根据权利要求3或4所述的方法,其特征在于,所述根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息,还包括以下任一项:
输出所述第一用户和第二用户的语音信息;
根据所述群聊模式,输出第一提示信息,所述第一提示信息用于提示用户对第一用户的第一语音信息和第二用户的第二语音信息进行选择。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
根据第三语音指令所在的音区和/或所述第三语音指令对应的用户信息,确定所述第三语音指令对应输出的交互信息所在的音区;
根据所述输出的交互信息所在的音区,输出所述第三语音指令的交互信息;所述第三语音指令是所述第二语音指令中的一个指令。
7.根据权利要求1-6中任一项所述的方法,其特征在于,还包括:
在确定满足群聊模式的结束条件时,将所述第二语音采集模式,切换为第一语音采集模式;
所述群聊模式的结束条件包括以下任一项:
获得第四语音指令,所述第四语音指令用于触发结束群聊模式;
群聊模式的执行时间满足预设阈值;
输出所述交互信息,并确认所述交互信息所属的同一话题结束。
8.一种语音交互装置,其特征在于,应用于车辆,所述车辆包括至少两个音区,所述装置包括:
获取模块,用于在第一语音采集模式下,获取第一语音指令;所述第一语音采集模式为在所述至少两个音区中的一个音区中采集语音的模式;
切换模块,用于在确定所述第一语音指令满足群聊模式的触发条件时,将所述第一语音采集模式,切换为第二语音采集模式;所述第二语音采集模式为在所述至少两个音区中的每个音区中分别采集语音的模式;
输出模块,用于在所述第二语音采集模式下,根据采集的至少一个第二语音指令,输出所述群聊模式下的交互信息。
9.一种语音交互设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的语音交互方法。
10.一种车辆,其特征在于,包括车体:
所述车体上设置有如权利要求9所述的语音交互设备,以及与所述语音交互设备通信连接的收音设备和播放设备。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的语音交互方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041860.4A CN116486798A (zh) | 2022-01-14 | 2022-01-14 | 一种语音交互方法、装置、设备、车辆以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210041860.4A CN116486798A (zh) | 2022-01-14 | 2022-01-14 | 一种语音交互方法、装置、设备、车辆以及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116486798A true CN116486798A (zh) | 2023-07-25 |
Family
ID=87223740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210041860.4A Pending CN116486798A (zh) | 2022-01-14 | 2022-01-14 | 一种语音交互方法、装置、设备、车辆以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116486798A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994575A (zh) * | 2023-08-16 | 2023-11-03 | 镁佳(武汉)科技有限公司 | 一种基于多音区的人机交互方法、装置、设备及存储介质 |
-
2022
- 2022-01-14 CN CN202210041860.4A patent/CN116486798A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116994575A (zh) * | 2023-08-16 | 2023-11-03 | 镁佳(武汉)科技有限公司 | 一种基于多音区的人机交互方法、装置、设备及存储介质 |
CN116994575B (zh) * | 2023-08-16 | 2024-02-09 | 镁佳(武汉)科技有限公司 | 一种基于多音区的人机交互方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6515764B2 (ja) | 対話装置及び対話方法 | |
US20220139389A1 (en) | Speech Interaction Method and Apparatus, Computer Readable Storage Medium and Electronic Device | |
WO2017057173A1 (ja) | 対話装置及び対話方法 | |
CN112614491B (zh) | 一种车载语音交互方法、装置、车辆、可读介质 | |
CN103685783A (zh) | 信息处理系统和存储介质 | |
JP2019009498A (ja) | 情報出力システム、情報出力方法、及びプログラム | |
KR20230118089A (ko) | 사용자 스피치 프로파일 관리 | |
CN110696756A (zh) | 一种车辆的音量控制方法及装置、汽车、存储介质 | |
CN114724566A (zh) | 语音处理方法、装置、存储介质及电子设备 | |
JP2018027731A (ja) | 車載装置、車載装置の制御方法およびコンテンツ提供システム | |
CN111816189A (zh) | 一种车辆用多音区语音交互方法及电子设备 | |
CN116486798A (zh) | 一种语音交互方法、装置、设备、车辆以及存储介质 | |
CN110111782B (zh) | 语音交互方法及设备 | |
DE102016217026A1 (de) | Sprachsteuerung eines Kraftfahrzeugs | |
CN113539265B (zh) | 一种控制方法、装置、设备及存储介质 | |
CN114125655A (zh) | 一种扬声器控制方法、装置、电子设备及存储介质 | |
CN109241145A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN112927688A (zh) | 用于车辆的语音交互方法及系统 | |
CN109243457B (zh) | 基于语音的控制方法、装置、设备及存储介质 | |
CN111724793A (zh) | 一种车载视频通话方法与系统 | |
CN114005447A (zh) | 一种语音对话交互方法、装置、车辆及介质 | |
JP7386076B2 (ja) | 車載装置及び応答出力制御方法 | |
CN115050375A (zh) | 一种设备的语音操作方法、装置和电子设备 | |
US20220208185A1 (en) | Speech Dialog System for Multiple Passengers in a Car | |
EP3886027A1 (en) | Assistance system using interactional awareness for a vehicle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |