语音控制方法、信息处理方法、车辆和服务器
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音控制方法、信息处理方法、车辆、服务器和计算机可读存储介质。
背景技术
随着人工智能技术的发展,语音智能平台或者说语音助手因为能够在一定条件下识别用户的语音输入并生成相应的操作指令,为用户操作车辆设备,例如车辆的中控显示屏,提供了极大的便利,而被广泛应用。然而,相关技术中,语音助手对于能够识别的语音指令所对应的用户的语音输入要求比较严苛,智能性较差。
发明内容
有鉴于此,本申请的实施例提供了一种信息处理方法、语音控制方法、车辆、服务器和计算机可读存储介质。
本申请提供了一种车辆的语音控制方法,所述语音控制方法包括:
获取语音输入信息;
发送所述语音输入信息和所述车辆当前图形用户界面的场景信息至服务器;
接收服务器根据所述语音输入信息、所述场景信息和对应所述场景信息的信息模板生成的操作指令;
控制所述车辆执行与所述操作指令对应的操作。
在某些实施方式中,所述场景信息包括所述车辆的当前图形用户界面的控件的属性信息。
在某些实施方式中,所述服务器根据所述语音输入信息和所述场景信息与所述信息模板进行匹配以进行语义理解,所述接收服务器根据所述语音输入信息和所述场景信息生成的操作指令包括:
接收所述服务器根据所述语义理解生成的操作指令。
在某些实施方式中,所述语音控制方法还包括:
控制所述车辆播报提示所述操作的执行反馈。
本申请提供了一种信息处理方法,包括:
接收车辆上传的当前图形用户界面的场景信息;和
处理所述场景信息以得到对应所述场景信息的信息模板。
在某些实施方式中,所述处理所述场景信息以得到信息模板包括:
抽取所述场景信息的公共信息以得到所述信息模板。
在某些实施方式中,所述场景信息包括静态元素,所述抽取所述场景信息的公共信息以得到所述信息模板的步骤包括:
将所述静态元素作为信息模板的静态元素。
在某些实施方式中,所述场景信息包括动态元素,所述抽取所述场景信息的公共信息以得到所述信息模板的步骤包括:
根据元素类型筛选所述动态元素;
将筛选得到的不同类型的动态元素作为所述信息模板的动态元素。
在某些实施方式中,所述信息处理方法还包括:
接收输入的标注信息对所述信息模板进行扩展。
本申请提供了一种车辆,包括:
语音获取模块,用于获取语音输入信息;
通信模块,用于发送所述语音输入信息和所述车辆当前图形用户界面的场景信息至服务器;
所述通信模块还用于接收服务器根据所述语音输入信息、所述场景信息和对应所述场景信息的生成的操作指令;
控制模块,用于控制所述车辆执行与所述操作指令对应的操作。
本申请提供了一种服务器,
所述服务器包括:
通信模块,用于接收车辆上传的当前图形用户界面的场景信息;和
处理模块,用于处理所述场景信息以得到对应所述场景信息的信息模板。
本申请提供了一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行所述的车辆的语音控制方法或所述的信息处理方法。
本申请实施方式的车辆的语音控制方法、信息处理方法、车辆、服务器及计算机可读存储介质中,在实施语音控制的过程中,在获取语音信息的基础上,结合车辆当前图形用户界面的场景信息进行辅助,使得语音助手对于语义理解的能力得到提升,能够更加明确用户语音信息的含义,智能性和用户体验更佳。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的语音控制方法的流程示意图。
图2是本申请某些实施方式的车辆的模块示意图。
图3是本申请某些实施方式的语音控制方法的流程示意图。
图4是本申请某些实施方式的语音控制方法的流程示意图。
图5是本申请某些实施方式的信息处理方法的流程示意图。
图6是本申请某些实施方式的服务器的模块示意图。
图7是本申请某些实施方式的信息处理方法的流程示意图。
图8是本申请某些实施方式的信息处理方法的流程示意图。
图9是本申请某些实施方式的信息处理方法的流程示意图。
图10是本申请某些实施方式的信息处理方法的场景示意图。
图11是本申请某些实施方式的信息处理方法的流程示意图。
图12是本申请某些实施方式的信息处理方法的场景示意图。
图13是本申请某些实施方式的语音控制方法的场景示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
请参阅图1,本申请提供了一种车辆的语音控制方法。包括:
S10:获取语音输入信息;
S20:发送语音输入信息和车辆当前图形用户界面的场景信息至服务器;
S30:接收服务器根据语音输入信息、场景信息和对应场景信息的信息模板生成的操作指令;
S40:控制车辆执行与操作指令对应的操作。
本申请实施方式提供了一种车辆。车辆包括显示区域、电声元件、通信元件和处理器。车辆的显示区域可以包括仪表屏、车载中控屏幕以及车辆挡风玻璃上可以实现的抬头显示等。车辆上运行的车载系统使用图形用户界面(Graphical User Interface,GUI)为用户呈现展示的内容。显示区域包括诸多UI元素,不同的显示区域可以展示相同或不同的UI元素。其中,UI元素可以包括卡片对象、应用程序图标或界面、文件夹图标、多媒体文件图标以及用于进行交互可操作的控件等。电声元件用于获取语音输入信息。通信元件用于发送语音输入信息和车辆或者说中控显示屏当前图形用户界面的场景信息至服务器,并接收服务器根据语音输入信息、场景信息和对应场景的信息模板生成的操作指令。处理器用于控制车辆执行与操作指令对应的操作。
请参阅图2,本申请实施方式还提供了一种车辆100,本申请实施方式的语音控制方法可以由本申请实施方式的车辆100实现。
具体地,车辆100包括语音获取模块102、通信模块104和控制模块106。S10可以由语音获取模块102实现,S20、S30可以由通信模块104实现,S40可以由控制模块106实现。或者说,语音获取模块102用于获取语音输入信息。通信模块104用于发送语音输入信息和车辆100当前图形用户界面的场景信息至服务器,并接收服务器根据语音输入信息、场景信息和对应场景信息的信息模板生成的操作指令。控制模块106用于控制车辆100执行与操作指令对应的操作。
本申请实施方式的车辆100的语音控制方法及车辆100中,在实施语音控制的过程中,在获取语音信息的基础上,结合车辆100当前图形用户界面的场景信息进行辅助,使得语音助手对于语义理解的能力得到提升,能够更加明确用户语音信息的含义,智能性和用户体验更佳。
具体地,车辆的智能显示区域可以为用户提供控制车辆以及与车辆进行交互的便捷入口,在车载操作系统中添加语音助手功能,能够在一定条件下通过识别语音及语义识别对用户输入的语音信息进行解析,便捷地生成相应的控制指令,进一步地为用户与车辆的交互提供便利。然而,语音助手通常对于用户的语音输入要求比较严苛,例如,通常要求用户必须严格按照规定的方式进行语音输入,才能够实现正确的语义理解,而对于一些语义较为模糊的场景,往往不能正确理解用户的真实目的。例如,对于车辆的后备箱门开启的语音指令,在用户输入“打开后背箱门”的语音指令时能够开启,而对于如“打开尾门”等表述则不能正确理解。再如,对于移动设备与车辆的蓝牙通讯连接,往往只有在完整表达要进行蓝牙连接的设备的名称的情况下,才能够实现连接,而对于简单的表述,例如“连接设备1”等表述,无法正确理解。
在本实施方式中,用户唤醒语音助手后,进行语音信息输入,在获取语音信息的同时,获取车辆当前图形用户界面的场景信息。对于车辆而言,用户一般通过中控显示屏与车辆进行交互,当前图形用户界面也即是中控显示屏当前的图形显示界面,例如地图导航界面、设置界面、应用程序界面等,在此不做限定。
进一步地,车辆将本地采集的语音信息和场景信息发送至云端的服务器,服务器利用场景信息作为辅助信息,对语音信息进行解析,从而生成操作指令,并回传给本地的车辆,进而车辆根据操作指令执行对应的操作。
其中,对语音信息的解析通常包括语音识别和语义解析两部分,语音识别可以在本地完成,例如可以通过车辆的文本语音转换模块对语音信息进行识别,将语音转换为文本。当然,语音识别也可以在服务器进行,从而减小车辆端的处理负担。语义解析可以在服务器完成,一般地,通过对文本进行分词、分析等步骤实现对于语音信息的理解。
可以理解地,车辆100当前图形用户界面的场景信息,可以让服务器在进行语义解析时,更加明确车辆100当前所处的交互场景,有效地限缩了语义解析的范围。例如,用户将一个移动设备命名为“天气”,并希望与将该设备与车辆100进行蓝牙连接,用户发出“连接天气”的语音指令。若没有场景信息作为辅助,在语义解析时,服务器可能会认为用户希望查看天气信息,而生成打开天气应用程序的指令。而在有场景信息作为辅助的情况下,当前图形用户界面为蓝牙连接列表界面,那么服务器就可以根据场景信息判断,用户的真实意图为连接名为“天气”的移动设备。
如此,可以提高语音控制的智能性与命中真实意图的成功率,用户体验更佳。
场景信息的信息模板,是根据在先车辆上传的对应各个应用场景的场景信息在经过处理后形成的信息模板。信息模板存储在服务器中,如此,在接收到用户上传的场景信息后,通过与信息模板的匹配后,服务器就可以确认与当前场景信息对应的信息模板,从而获知用户当前的交互场景,不仅能够根据语音输入信息判断用户的意图,还能根据用户交互的界面场景,来辅助语音输入信息对用户的真实意图进行解析。例如,对于动作执行的对象,可以明确当前操作的交互场景进行准确的识别。
在本实施方式中,场景信息包括车辆的当前图形用户界面的控件的属性信息。
具体地,场景信息也即是车辆当前图形用户界面信息,可以包括界面控件的编号、标签、类型等一系列属性。从而车辆可生成带有标签、类型以及整体布局的数据文件,并将数据文件传输至服务器。
其中,界面控件的编号可用于标识当前使用场景,每个使用场景具有唯一的编号,使用场景可以包括如蓝牙连接界面、Wi-Fi列表界面、联系人列表界面、信息点地址选择列表等。
界面控件的标签用于定义页面中元素与控制内容间的关系。利于导航页面中的音量,其中的标签可包括音量、地图音量、导航音量、静音、取消静音等。在实际操作过程中,当用户选择某一标签时,将会将焦点转到与该标签相关的控制内容上。
界面控件的类型,可包括图形用户界面中的控件类型,例如按钮、滚动条、选择列表、滑动条等。
根据上述信息,服务器可以在云端重新构建本地车辆当前的图形用户界面。如此,服务器根据车辆100上报的场景信息,可以明确用户当前的操作场景,从而可以更准确地理解用户语音输入信息的真实意图。
请参阅图3,在某些实施方式中,服务器根据语音输入信息和场景信息与信息模板进行匹配以进行语义理解。S30包括:
S31:接收服务器根据语义理解生成的操作指令。
在某些实施方式中,S31可以由通信模块104实现。也即是说,通信模块104用于接收服务器根据语义理解生成的操作指令。
在某些实施方式中,通信元件用于接收服务器根据语义理解生成的操作指令。
具体地,不同车辆100在语音助手每次被唤醒后,都会将语音输入信息和场景信息一同上传服务器。服务器会随着用户的使用获得大量场景信息的历史数据,通过机器学习或人工标注等方式,对收集到的大量的场景信息进行补充扩展整理,从而丰富服务器对于场景信息的理解,整理后的内容可以形成对应不同场景的信息模板并在服务器中进行存储,以供用户在后续使用过程中,提高语义识别的准确率和识别效率。
在实际过程中,若用户为首次使用语音助手,在服务器端可能并没有预存储的信息模板,在这种情况下,服务器直接根据场景信息辅助语音输入信息进行语义识别,在这种情况下,可能对于语音输入信息的要求比较严苛,但由于有场景信息作为辅助,也能够在一定程度上理解用户的语义。若非首次使用语音助手,服务器在收到场景信息后,可根据场景信息的编号来识别当前的图形用户界面,然后,调取与该编号对应的信息模板,从而可将语音输入信息和场景信息与该信息模板进行匹配,来分析用户的真实意图。
可以理解地,用户对同一指令在前后多次实施过程中可能表述不一,在存在信息模板的情况下,模糊的表达也可以根据信息模板准确进行识别。
例如,用户将一个移动设备命名为“天气”,并希望与将该设备与车辆100进行蓝牙连接,在蓝牙连接界面,用户发出“连接天气”的语音指令。服务器接收到车辆100上传的场景信息和语音输入信息,通过场景信息的编号获知用户当前处于蓝牙连接界面,通过信息模板的匹配,判断用户的目的是连接设备列表中名为天气的设备,如此,利用场景信息作为辅助,在语义解析时,可以更准确地分析语音输入信息的含义。
请参阅图4,在某些实施方式中,语音控制方法还包括:
S50:控制车辆播报操作的执行反馈。
在某些实施方式中,S50可以由控制模块106实现,也即是说,控制模块106用于控制车辆100播报操作的执行反馈。
在某些实施方式中,处理器用于控制车辆播报操作的执行反馈。
具体地,服务器在生成操作指令的同时生成与执行操作指令相关的反馈信息,车辆100接收操作指令和反馈信息后,在执行操作指令的同时播报操作的执行反馈,播报方式可以是以语音的方式向用户反馈执行的结果,例如“连接成功”等。此外,播报方式还可以是使用中控显示屏幕显示提示文字或者弹窗等方式给予用户执行操作的反馈。如此,方便用户通过执行反馈获知语音输入指令的执行情况,从而进行后续动作。
请参阅图5,本申请还提供了一种信息处理方式,用于处理上述实施方式中,由车辆100发送至服务器的场景信息。信息处理方式包括:
S60:接收车辆上传的当前图形用户界面的场景信息;和
S70:处理场景信息以得到对应场景信息的信息模板。
本申请实施方式提供了一种服务器。服务器包括通信元件和处理器。通信元件用于接收车辆上传的当前图形用户界面的场景信息。处理器用于处理场景信息以得到对应场景信息的信息模板。
请参阅图6,本申请实施方式还提供了一种服务器200,本申请实施方式的信息处理方法可以由本申请实施方式的服务器200实现。
具体地,服务器200包括通信模块202和处理模块204。S60可以由通信模块202实现,S70可以由处理模块204实现。或者说,通信模块202用于接收车辆上传的当前图形用户界面的场景信息。处理模块204用于处理场景信息以得到对应场景信息的信息模板。
本实施方式的服务器200与车辆100通信,在车辆100一侧实施语音控制的过程中,在获取语音信息的基础上,结合车辆100当前图形用户界面的场景信息进行辅助,使得语音助手对于语义理解的能力得到提升,能够更加明确用户语音信息的含义,智能性和用户体验更佳。
服务器200会接收来自不同车辆100发送的场景信息,需要根据场景信息中的界面控件的属性信息,重新构建对应不同场景的信息模板。该信息模板可包括针对同一交互场景中的图形用户界面中的相同元素和不同元素,或者说公共元素和个性化元素。根据图形用户界面中相同元素或者说公共元素,服务器200可构建当前场景的基本框架作为信息模板的基础。而根据图形用户界面中的不同元素或者说个性化元素,服务器200可以获知在当前场景中不同用户可进行的全部操作,从而丰富信息模板的内容。信息模板的意义在于掌握更多用户操作的信息,为语音识别提供更精确的辅助。
请参阅图7,在某些实施方式中,S70包括:
S71:抽取场景信息的公共信息以得到信息模板。
在某些实施方式中,S71可以由处理模块204实现,也即是说,处理模块204用于抽取场景信息的公共信息以得到信息模板。
在某些实施方式中,处理器用于抽取场景信息的公共信息以得到信息模板。
具体地,作为信息模板,至少需要包括不同车辆100针对同一图形用户界面的公共信息,如此,利用公共信息,服务器200可以构建该图形用户界面的基本框架作为信息模板,使得服务器200可以获知用户在进行语音信息输入时车辆的操作环境。
请参阅图8,在本实施方式中,场景信息包括静态元素,S71包括:
S711:将静态元素作为信息模板的静态元素;
在某些实施方式中,S711可以用由处理模块204实现。或者说,处理模块204用于将静态元素作为信息模板的静态元素。
在某些实施方式中,处理器用于将静态元素作为信息模板的静态元素,
请参阅图10,具体地,图形用户界面中的元素按照显示状态,可以分为静态元素和动态元素。为了使得云端的信息模板与本地实际的图形用户界面一致性更强,在服务器200形成的信息模板也应当包含动态元素和静态元素。具体地,对于场景信息中包含的静态元素和动态元素,需要分别处理以抽取成信息模板。
其中,静态元素也即是图形用户界面中所包含的固定不变的控件,例如固定位置的按钮,固定位置的文本框等。对于静态元素而言,因为所有车辆在该交互场景中都相同,可以在相同的多个场景信息任意选择一个,并选择其中的静态元素作为信息模板中的静态元素。
可以理解地,获取静态元素后,服务器200可构建应用场景中的框架,从而实现对于某些基本功能的语义解析的辅助,例如,通过操作按钮实现的功能。
请参阅图9,在本实施方式中,场景信息还包括动态元素,S71还包括:
S712:根据元素类型筛选动态元素;
S713:将筛选得到的不同类型的动态元素作为信息模板的动态元素。
在某些实施方式中,S712和S713可以由处理模块204实现,或者说,处理模块204用于根据元素类型筛选动态元素,以及用于将筛选得到的不同类型的动态元素作为信息模板的动态元素。
在某些实施方式中,处理器用于根据元素类型筛选动态元素,以及用于将筛选得到的不同类型的动态元素作为信息模板的动态元素。
请再次参阅图10,具体地,动态元素则包括列表,瀑布流等动态刷新的控件。对于动态元素,不同车辆可能具有不同类型的动态元素,或者动态元素中刷新的内容不同。因此,在抽取公共信息的过程中,相同类型的动态元素保留一个作为信息模板的动态元素即可。例如对于场景信息中的列表内容,如可连接的蓝牙设备列表,只保留一个设备目录即可。该设备目录不代表具体的蓝牙设备名称,仅用于标识该列表中的内容用于显示可连接的蓝牙设备。
在静态元素的基础上补充动态元素,能更加具体且准确的还原车辆当前交互场景,从而更好地辅助用户语音输入信息的识别。
请参阅图11,在某些实施方式中,信息处理方法还包括:
S80:接收输入的标注信息对信息模板进行扩展。
在某些实施方式中,S80可以由处理模块204实现。或者说,处理模块204用于接收输入的标注信息对信息模板进行扩展。
在某些实施方式中,处理器用于接收输入的标注信息对信息模板进行扩展。
请参阅图12,可以理解地,信息模板包括了图形用户界面中共有的基本元素,解释性较差。因而,在收集一定量的场景信息后,可以对信息模板进行人工的标注和泛化,从而对界面中的标签以及可能的动作指令进行注释。注释后的信息模板得以扩展,具有更丰富的内容,对于图形用户界面中的元素关联更多的表述方式,从而可以更好地辅助语音输入信息的解析。
例如,对于蓝牙连接界面,通过抽取公共信息而形成的信息模板中,包含了静态元素如蓝牙连接开关的固定按钮,蓝牙列表的固定文本框,以及动态元素如蓝牙列表的内容。对于蓝牙连接开关的扩展,可以包括补充的可针对蓝牙开关按钮执行的动作指令注释,如打开、点击、关闭等。对于蓝牙列表的扩展,可以包括补充的可针对蓝牙列表执行动作指令注释,如打开、连接、断开。还可以包括可针对蓝牙列表中的内容注释,如设备名称、设备序号等。如此,可实现对信息模板的扩展。
请参阅图13,以下以一个交互示例对车辆100和服务器200的交互进行说明:
车辆用户在蓝牙连接界面,唤醒语音助手,并通过发出“连接第二个蓝牙”的语音指令,车辆100将场景信息和语音输入信息一并发送至服务器200。服务器200在接收到场景信息和语音输入信息后,根据场景信息的编号判断当前用户处于蓝牙连接界面,通过动作指令“连接”判断用户可能希望将车辆100与蓝牙列表中某个设备进行连接,通过“第二个”判断用户希望将车辆100与序号2的蓝牙设备进行连接,从而服务器200向车辆发出将蓝牙列表中的第二个设备与车辆100连接的指令,车辆100在接收该指令后执行相应的操作完成语音控制。
如此,在用户通过车辆100实施语音控制的过程中,车辆100同时将语音输入信息和车辆100的用户场景信息同时发送至服务器200。服务器200在获取语音信息的基础上,结合当前图形用户界面的场景信息进行辅助进行语义解析,使得语音助手对于语义理解的能力得到提升,能够更加明确用户语音信息的含义,智能性和用户体验更佳。
本申请实施方式还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行上述任一实施方式的车辆的语音控制方法或信息处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一非易失性计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。