CN113076079A - 语音控制方法、服务器、语音控制系统和存储介质 - Google Patents

语音控制方法、服务器、语音控制系统和存储介质 Download PDF

Info

Publication number
CN113076079A
CN113076079A CN202110422192.5A CN202110422192A CN113076079A CN 113076079 A CN113076079 A CN 113076079A CN 202110422192 A CN202110422192 A CN 202110422192A CN 113076079 A CN113076079 A CN 113076079A
Authority
CN
China
Prior art keywords
graphical user
user interface
information
client
operation instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110422192.5A
Other languages
English (en)
Inventor
胡梓垣
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202110422192.5A priority Critical patent/CN113076079A/zh
Publication of CN113076079A publication Critical patent/CN113076079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/0482Interaction with lists of selectable items, e.g. menus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种语音控制方法、服务器、语音控制系统和存储介质。语音控制方法,用于服务器,所述语音控制方法包括:接收客户端上传的语音请求和所述客户端显示的当前图形用户界面的信息;基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解;根据自然语言理解结果,生成操作指令;发送所述操作指令至所述客户端,以使得所述客户端执行所述操作指令并通过所述当前图形用户界面显示执行结果。上述语音控制方法,基于当前图形用户界面对语音请求进行自然语言理解,使得语音请求的理解与图形用户界面的信息相对应,在扩展和适应语音指令时,基于已有的不同图形用户界面进行扩展和适应即可,降低了扩展成本及提升了适应变化能力。

Description

语音控制方法、服务器、语音控制系统和存储介质
技术领域
本发明涉及语音技术领域,特别涉及一种语音控制方法、服务器、语音控制系统和存储介质。
背景技术
目前任务型语音助手,通过预定好的领域意图和槽位进行理解,通过命令的方式执行识别出来的命令。所以如果要完成一个新的指令,需要添加一个新的意图为之相对应,扩展成本比较高。如果界面上的功能名字变化了,需要重新训练模型。适应变化能力差。总体来说,基于领域意图和槽位的方法,主要有两个缺点:扩展成本高,适应变化能力弱。
发明内容
本发明的实施方式提供一种语音控制方法、服务器、语音控制系统和存储介质。
本发明实施方式的一种语音控制方法,用于服务器,所述语音控制方法包括:
接收客户端上传的语音请求和所述客户端显示的当前图形用户界面的信息;
基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解;
根据自然语言理解结果,生成操作指令;
发送所述操作指令至所述客户端,以使得所述客户端执行所述操作指令并通过所述当前图形用户界面显示执行结果。
在某些实施方式中,基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解,包括:
基于所述当前图形用户界面的信息构建语义空间,
对所述语音请求在所述语义空间进行自然语言理解。
在某些实施方式中,所述图形用户界面的信息包括界面元素类型和文本,
基于所述当前图形用户界面的信息构建语义空间,包括:
处理所述当前图形用户界面的信息以获取所述界面元素类型和所述文本;
根据所述界面元素类型和所述文本构建所述语义空间。
在某些实施方式中,所述图形用户界面的信息包括界面元素的父子节点布局,
基于所述当前图形用户界面的信息构建语义空间,包括:
处理所述当前图形用户界面的信息以获取所述界面元素的父子节点布局;
根据所述界面元素的父子节点布局构建所述语义空间。
在某些实施方式中,所述图形用户界面的信息包括业务自定义,
基于所述当前图形用户界面的信息构建语义空间,包括:
处理所述当前图形用户界面的信息以获取所述业务自定义;
根据所述业务自定义构建所述语义空间。
在某些实施方式中,基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解,包括:
处理所述语音请求以获取文本数据;
将所述文本数据与预设数据格式进行匹配以获取自然语言理解结果;
所述预设数据格式与所述当前图形用户界面的信息相关联。
在某些实施方式中,所述语音控制方法包括:
判断所述操作指令是否合法;
在所述操作指令合法时,发送所述操作指令至所述客户端;
在所述操作指令非法时,忽略所述操作指令。
本发明实施方式的一种服务器,包括:
接收模块,所述接收模块用于接收客户端上传的语音请求和所述客户端显示的当前图形用户界面的信息;
处理模块,所述处理模块用于基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解;
生成模块,所述生成模块用于根据自然语言理解结果,生成操作指令;
发送模块,所述发送模块用于发送所述操作指令至所述客户端,以使得所述客户端执行所述操作指令并通过所述当前图形用户界面显示执行结果。
本发明实施方式的一种语音控制系统,包括车辆和上述服务器,所述车辆包括所述客户端。
本发明实施方式的一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现上述任一实施方式的语音控制方法。
上述语音控制方法、语音控制系统、服务器和计算机可读存储介质,基于当前图形用户界面对语音请求进行自然语言理解,使得语音请求的理解与图形用户界面的信息相对应,在扩展和适应语音指令时,基于已有的不同图形用户界面进行扩展和适应即可,降低了扩展成本及提升了适应变化能力。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明实施方式的语音控制方法的流程示意图;
图2是本发明实施方式的客户端所显示的当前图形用户界面的示意图;
图3是本发明实施方式的语音控制方法的又一流程示意图;
图4是本发明实施方式的语音控制方法的再一流程示意图;
图5是本发明实施方式的预设数据格式的代码示意图;
图6是本发明实施方式的语音控制方法的另一流程示意图;
图7是本发明实施方式的服务器的模块示意图;
图8是本发明实施方式的语音控制系统的模块示意图;
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
在本发明的实施方式的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本发明的实施方式的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
请参阅图1,本发明实施方式的语音控制方法用于服务器,语音控制方法包括:
步骤S12:接收客户端上传的语音请求和客户端显示的当前图形用户界面的信息;
步骤S14:基于当前图形用户界面的信息对语音请求进行自然语言理解;
步骤S16:根据自然语言理解结果,生成操作指令;
步骤S18:发送操作指令至客户端,以使得客户端执行操作指令并通过当前图形用户界面显示执行结果。
上述语音控制方法,基于当前图形用户界面对语音请求进行自然语言理解,使得语音请求的理解与图形用户界面的信息相对应,在扩展和适应语音指令时,基于已有的不同图形用户界面进行扩展和适应即可,降低了扩展成本及提升了适应变化能力。
具体地,客户端可以是安装在面向用户的终端设备上,终端设备包括但不限于车辆、手机、平板电脑、个人计算机、可穿戴智能设备、导航仪、飞行器等。车辆包括但不限于燃油汽车、增程式电动车、纯电动汽车、混合动力汽车、氢能源汽车等。服务器可以与终端设备进行有线或无线连接,以实现数据和信号传输。无线连接的方式包括但不限于WIFI、移动通信网络等。移动通信网络可包括4G、5G、6G等移动通信方式。
客户端包括有麦克风及显示屏,麦克风用于采集用户的语音请求。显示屏可以是触摸显示屏,除显示与客户端相关的图形用户界面外,还提供用户输入的方式。用户通过触摸触摸显示屏上的相关按键或输入相关手势来实现指令的输入。在一个实施方式中,终端设备是车辆,显示屏可以包括车辆的中控显示屏、仪表显示屏和副驾驶显示屏、主副驾驶座背面的娱乐大屏的至少一者。用户可以通过车辆上的按键或语音输入相关指令,进入到想要的图形用户界面。在当前图形用户界面时,用户可以通过说话来输入语音请求。客户端将采集到用户的语音请求及当前图形用户界面的信息发送到服务器进行处理。服务器返回操作指令,客户端执行操作指令,并通过当前图形用户界面显示执行结果,以完成客户端与用户之间的交互。
在一个实施方式中,用户想关闭盲区安全辅助功能,用户先进入到辅助驾驶的图形用户界面,如图2所示,即客户端显示的当前图形用户界面为辅助驾驶的图形用户界面。在此界面时,用户通过客户端输入“关闭盲区安全辅助”的语音请求,客户端将采集到用户的语音请求及辅助驾驶的当前图形用户界面的信息发送到服务器进行处理。服务器返回关闭操作指令,客户端执行关闭操作指令,并通过当前图形用户界面显示执行结果,即在辅助驾驶的图形用户界面中,将盲区安全辅助功能的开关拨动到关闭的位置(图2所示是盲区安全辅助功能的开关处于打开的位置,表明盲区安全辅助功能处于开启状态),以完成客户端与用户之间的交互。
在步骤S12中,当前图形用户界面的信息可包括但不限于界面元素类型和文本、界面元素的父子节点布局、业务自定义等。例如,在图2所示的辅助驾驶的图形用户界面中,4个文本分别为:向前碰撞预警、盲区安全辅助、车道偏离预警和后方碰撞预警。而界面元素包括控件,控件都有对应的操作,4个文本的控件类型都为Switch(开关),默认支持打开和关闭。在其它实施方式中,控件类型还可包括Botton(按键),支持的操作有:点击/长按。List(列表),支持的操作有:点击/滑动/选择(第几个),Slider(滑动条),支持的操作有,滑动。
在步骤S14中,服务器接收到客户端上传的语音请求和当前图形用户界面的信息后,基于当前图形用户界面的信息对语音请求进行自然语言理解(Natural LanguageUnderstanding,NLU),使得用户的语音请求转换为机器能够执行的操作指令。
在某些实施方式中,请参图3,步骤S14包括:
步骤S142,基于当前图形用户界面的信息构建语义空间,
步骤S144,对语音请求在语义空间进行自然语言理解。
如此,通过语义空间的构建,使得自然语言理解更快和更准确。
具体地,可以基于不同的当前图形用户界面的信息来构建不同的语义空间,以实现快速的匹配来实现自然语音理解。
在某些实施方式中,图形用户界面的信息包括界面元素类型和文本,
步骤S142,包括:
处理当前图形用户界面的信息以获取界面元素类型和文本;
根据界面元素类型和文本构建语义空间。
具体地,界面元素类型可以包括控件类型,控件可以是用户可与之进行交互以输入或操作数据的对象。例如,控件可以包括虚拟开关、虚拟滑动条、虚拟旋钮、虚拟按键等。用户可以通过控件来实现包括但不限于功能的开关、参数的调节等。
在一个实施方式中,当前图形用户界面是空调界面,在空调界面中,用户可以打开和关闭空调,调节空调某个出风口或全部出风口的风量和温度。控件类型可以是Botton(按键),文本是空调,语义空间可构建为:空调,打开空调,点击空调....。控件类型可以是Switch(开关),文本是空调,语义空间可构建为:打开空调,关闭空调....等。在空调界面中,用户输入“关闭空调”的语音请求,该语音请求及空调界面的信息上传至服务器,服务器处理空调界面的信息以构建语义空间为:打开空调,关闭空调...。在语义空间的基础上,对语音请求进行自然语言理解,得到的自然语言理解结果是关闭空调,再根据自然语言理解结果生成关闭空调的操作指令,并发送到客户端。在空调处于开启的状态下,客户端执行关闭空调的操作指令,使空调关闭,并且在空调界面中,将空调开关开关的位置拨动到关闭的位置以显示执行结果。
在一个实施方式中,当前图形用户界面是蓝牙界面,在蓝牙界面中,控件类型可以是List(列表),文本是蓝牙,语义空间可构建为:第一个蓝牙,第二个蓝牙....。该列表可以显示终端设备已成功连接过的蓝牙设备历史列表。在蓝牙界面中,用户输入“连接第一个蓝牙设备”的语音请求,该语音请求及蓝牙界面的信息上传至服务器,服务器处理蓝牙界面的信息以构建语义空间为:第一个蓝牙,第二个蓝牙....。在语义空间的基础上,对语音请求进行自然语言理解,得到的自然语言理解结果是连接第一个蓝牙设备,再根据自然语言理解结果生成连接第一个蓝牙设备的操作指令,并发送到客户端。客户端执行打开蓝牙功能并自动连接第一个蓝牙设备的操作指令,并且在蓝牙界面中,若连接成功,将第一个蓝牙设备的颜色从灰色变成彩色,并在界面的预设位置显示蓝牙连接成功的图标以显示执行结果。
在某些实施方式中,图形用户界面的信息包括界面元素的父子节点布局,
步骤S142,包括:
处理当前图形用户界面的信息以获取界面元素的父子节点布局;
根据界面元素的父子节点布局构建语义空间。
具体地,界面元素可包括参数及相关的调节选项,界面元素的父节点可以包括所需调节的参数,例如提示音、风量、频率、转向力度、能量回收力度、车辆悬架设定等。子节点可以是参数的调节选项,例如选项为大中小,强中弱,软中硬等。
在一个实施方式中,当前图形用户界面是提示音界面,在提示音界面中,用户可以调节提示音的大小。例如提示音下面有三个选项分别为:强,中,弱。那么提示音作为父节点,子节点(选项)包括强、中、弱三个。根据父子节点的布局关系,语义空间构建为:提示音[切换/设为]强,提示音[切换/设为]中,提示音[切换/设为]弱。在提示音界面中,用户输入“调节提示音为强”或“强提示音”的语音请求,该语音请求及提示音界面的信息上传至服务器,服务器处理提示音界面的信息以构建语义空间为:提示音[切换/设为]强,提示音[切换/设为]中,提示音[切换/设为]弱。在语义空间的基础上,对语音请求进行自然语言理解,得到的自然语言理解结果是提示音切换/设为强,再根据自然语言理解结果生成提示音切换/设为强的操作指令,并发送到客户端。客户端执行提示音切换/设为强的操作指令,使提示音切换/设为强,并在提示音界面中,将“强”的选项选中以显示执行结果。
在某些实施方式中,图形用户界面的信息包括业务自定义,
步骤S142,包括:
处理当前图形用户界面的信息以获取业务自定义;
根据业务自定义构建语义空间。
具体地,业务自定义可以用于某些具有不确定对象的图形用户界面。例如,在音乐的图形用户界面,播放列表可以变化的,播放的歌曲也可以是变化的,又如,在导航列表中,已导航过的历史地点列表可以是变化的。
在一个实施方式中,当前图形用户界面是音乐界面,业务自定义可以包括歌曲名和指定操作,在音乐界面中,用户可以对音乐列表的歌曲进行某些指定的操作,例如播放/收藏/删除/分享。例如音乐列表显示有歌曲“青花瓷”,指定有如下操作:播放/收藏/删除/分享。那么语义空间构建为:播放青花瓷,收藏青花瓷,删除青花瓷,分享青花瓷。在音乐界面中,用户输入“播放青花瓷”的语音请求,该语音请求及音乐界面的信息上传至服务器,服务器处理音乐界面的信息以构建语义空间为:播放青花瓷,收藏青花瓷,删除青花瓷,分享青花瓷。在语义空间的基础上,对语音请求进行自然语言理解,得到的自然语言理解结果是播放青花瓷,再根据自然语言理解结果生成播放青花瓷的操作指令,并发送到客户端。客户端执行播放青花瓷的操作指令,使终端设备(如车辆)播放歌曲“青花瓷”,并在音乐界面中,显示歌曲“青花瓷”的播放以显示执行结果。
在一个实施方式中,当前图形用户界面是导航列表界面,业务自定义可以包括历史地点和指定操作,在导航列表界面中,用户可以对历史地点进行某些指定的操作,例如导航/收藏/途径/分享。例如在导航列表中显示有历史地点“大学城”,指定有如下操作:导航/收藏/途径/分享。那么语义空间构建为:导航去大学城,收藏大学城地址,途径大学城,分享大学城地址。在导航列表界面中,用户输入“导航去大学城”的语音请求,该语音请求及导航列表界面的信息上传至服务器,服务器处理导航列表界面的信息以构建语义空间为:导航去大学城,收藏大学城地址,途径大学城,分享大学城地址。在语义空间的基础上,对语音请求进行自然语言理解,得到的自然语言理解结果是导航去大学城,再根据自然语言理解结果生成导航去大学城的操作指令,并发送到客户端。客户端执行导航去大学城的操作指令,使终端设备(如车辆)的导航界面选择以当前位置为起点,终点为大学城的导航路线,并在导航界面中,显示该导航路线以执行显示结果。
在某些实施方式中,请参图4,步骤S14,包括:
步骤S152,处理语音请求以获取文本数据;
步骤S154,将文本数据与预设数据格式进行匹配以获取自然语言理解结果;
预设数据格式与当前图形用户界面的信息相关联。
如此,可以实现自然语言理解结果的快速获取。
具体地,预设数据格式可以预先进行标定并存储在服务器。预设数据格式与客户端所显示的图形用户界面相关。
在一个实施方式中,图2所示为辅助驾驶的图形用户界面,预设数据格式可参如下过程构建。
先自动获取图2所示界面对应的文本数据。其中用label表示文本显示内容。用type表示控件类型。而在图2中控件类型均为Swich(开关)。默认支持打开和关闭。
数据的构建:通过界面可以获取数据,如通过辅助驾驶的图形用户界面的信息可以获取到上述文本数据,并构建可读性强的格式化数据格式。图2所示的界面中对应的4个文本分别为:向前碰撞预警、盲区安全辅助、车道偏离预警及后方碰撞预警。控件类型都为Switch(开关)。然后根据所获取到的文本数据最终构建出来的数据格式如图5所示。
当处理“关闭向前碰撞预警”的语音请求时,服务器将该语音请求转换为文本数据得到关闭向前碰撞预警的文本数据,然后通过与预设数据格式进行匹配,得到的自然语言理解结果为关闭向前碰撞预警,并生成关闭向前碰撞预警的操作指令,发送该操作指令至客户端,客户端执行关闭向前碰撞预警的操作指令,使向前碰撞预警功能关闭,将向前碰撞预警的开关拨动到关闭的位置(图2所示是向前碰撞预警功能的开关处于打开的位置,表明向前碰撞预警功能处于开启状态),以完成客户端与用户之间的交互。
在本发明实施方式中,语义空间可通过数据构建来体现,例如,在辅助驾驶的图形用户界面,界面元素类型是控件类型,控件类型具体为Swich(开关),文本分别为:向前碰撞预警、盲区安全辅助、车道偏离预警和后方碰撞预警,所构建的语义空间为:打开向前碰撞预警,关闭向前碰撞预警,打开盲区安全辅助,关闭盲区安全辅助,打开车道偏离预警,关闭车道偏离预警,打开后方碰撞预警,关闭后方碰撞预警。对应地,图5表示基于辅助驾驶的图形用户界面所构建的预设数据格式,在图5中,type表示控件类型,label表示文本显示内容(即向前碰撞预警、盲区安全辅助、车道偏离预警和后方碰撞预警),控件类型均为Swich(开关)。可以理解,在其它实施方式中,语义空间还可通过其它形式来体现,在此不作具体限定。
在某些实施方式中,请参图6,语音控制方法包括:
步骤S20,判断操作指令是否合法;
在操作指令合法时,发送操作指令至客户端,即执行步骤S18,;
在操作指令非法时,步骤S22,忽略操作指令。
如此,可以使客户端能够执行合法的操作指令。
具体地,操作指令合法可以理解为,该操作指令与客户端所显示的当前图形用户界面所呈现出来的功能是相适应的,是能够在当前图形用户界面可执行的指令,否则为操作指令非法。例如,显示的当前图形用户界面为驾驶辅助界面,驾驶辅助界面所呈现出来的功能包括向前碰撞预警的开关,盲区安全辅助的开关,车道偏离预警的开关,后方碰撞预警的开关。操作指令合法是指,打开向前碰撞预警,关闭向前碰撞预警,打开盲区安全辅助,关闭盲区安全辅助,打开车道偏离预警,关闭车道偏离预警,打开后方碰撞预警,关闭后方碰撞预警,否则为操作指令非法。例如,在驾驶辅助界面中,打开空调是操作指令非法。在其它实施方式中,操作指令非法也可以是指客户端无法执行的操作指令。例如,客户端所在的车辆不具备车道保持功能,即使驾驶辅助界面有“车道保持”的功能选项(可以将“车道保持”作灰度处理以提示该车辆尚未具备该功能),车道保持打开或关闭的操作指令也会被判断为操作指令非法。
忽略操作指令,可以是指不发送该操作指令至客户端,或删除该操作指令等操作。
请参图7,本发明实施方式提供的一种服务器100,包括:
接收模块102,接收模块102用于接收客户端200上传的语音请求和客户端200显示的当前图形用户界面的信息;
处理模块104,处理模块104用于基于当前图形用户界面的信息对语音请求进行自然语言理解;
生成模块106,生成模块106用于根据自然语言理解结果,生成操作指令;
发送模块108,发送模块108用于发送操作指令至客户端200,以使得客户端200执行操作指令并通过当前图形用户界面显示执行结果。
请参图8,本发明实施方式提供的一种语音控制系统300,包括车辆400和上述实施方式的服务器100,车辆400包括客户端200。
本发明实施方式还提供一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述任一实施方式的语音控制方法。
具体地,在一个实施方式,计算机程序被处理器执行时,实现的语音控制方法包括:
步骤S12:接收客户端上传的语音请求和客户端显示的当前图形用户界面的信息;
步骤S14:基于当前图形用户界面的信息对语音请求进行自然语言理解;
步骤S16:根据自然语言理解结果,生成操作指令;
步骤S18:发送操作指令至客户端,以使得客户端执行操作指令并通过当前图形用户界面显示执行结果。
可以理解的是,上述对语音控制方法的实施方式和有益效果的解释说明,也适用于本发明实施方式的语音控制系统300、服务器100及计算机可读存储介质,为避免冗余,在此不作详细展开。
综上所述,本发明实施方式的语音控制方法、语音控制系统300、服务器100及计算机可读存储介质,可以基于图形用户界面,能够自适应地进行自然语言理解,降低了扩展成本及提升了适应变化能力。
具体地,由上述的实施方式可知,如果界面元素改变了,对应的语义空间也会自适应的变化,极大增强了适应性。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种语音控制方法,用于服务器,其特征在于,所述语音控制方法包括:
接收客户端上传的语音请求和所述客户端显示的当前图形用户界面的信息;
基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解;
根据自然语言理解结果,生成操作指令;
发送所述操作指令至所述客户端,以使得所述客户端执行所述操作指令并通过所述当前图形用户界面显示执行结果。
2.根据权利要求1所述的语音控制方法,其特征在于,基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解,包括:
基于所述当前图形用户界面的信息构建语义空间,
对所述语音请求在所述语义空间进行自然语言理解。
3.根据权利要求2所述的语音控制方法,其特征在于,所述图形用户界面的信息包括界面元素类型和文本,
基于所述当前图形用户界面的信息构建语义空间,包括:
处理所述当前图形用户界面的信息以获取所述界面元素类型和所述文本;
根据所述界面元素类型和所述文本构建所述语义空间。
4.根据权利要求2所述的语音控制方法,其特征在于,所述图形用户界面的信息包括界面元素的父子节点布局,
基于所述当前图形用户界面的信息构建语义空间,包括:
处理所述当前图形用户界面的信息以获取所述界面元素的父子节点布局;
根据所述界面元素的父子节点布局构建所述语义空间。
5.根据权利要求2所述的语音控制方法,其特征在于,所述图形用户界面的信息包括业务自定义,
基于所述当前图形用户界面的信息构建语义空间,包括:
处理所述当前图形用户界面的信息以获取所述业务自定义;
根据所述业务自定义构建所述语义空间。
6.根据权利要求1所述的语音控制方法,其特征在于,基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解,包括:
处理所述语音请求以获取文本数据;
将所述文本数据与预设数据格式进行匹配以获取自然语言理解结果;
所述预设数据格式与所述当前图形用户界面的信息相关联。
7.根据权利要求1所述的语音控制方法,其特征在于,所述语音控制方法包括:
判断所述操作指令是否合法;
在所述操作指令合法时,发送所述操作指令至所述客户端;
在所述操作指令非法时,忽略所述操作指令。
8.一种服务器,其特征在于,包括:
接收模块,所述接收模块用于接收客户端上传的语音请求和所述客户端显示的当前图形用户界面的信息;
处理模块,所述处理模块用于基于所述当前图形用户界面的信息对所述语音请求进行自然语言理解;
生成模块,所述生成模块用于根据自然语言理解结果,生成操作指令;
发送模块,所述发送模块用于发送所述操作指令至所述客户端,以使得所述客户端执行所述操作指令并通过所述当前图形用户界面显示执行结果。
9.一种语音控制系统,其特征在于,包括车辆和权利要求8所述的服务器,所述车辆包括所述客户端。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的语音控制方法。
CN202110422192.5A 2021-04-20 2021-04-20 语音控制方法、服务器、语音控制系统和存储介质 Pending CN113076079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110422192.5A CN113076079A (zh) 2021-04-20 2021-04-20 语音控制方法、服务器、语音控制系统和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110422192.5A CN113076079A (zh) 2021-04-20 2021-04-20 语音控制方法、服务器、语音控制系统和存储介质

Publications (1)

Publication Number Publication Date
CN113076079A true CN113076079A (zh) 2021-07-06

Family

ID=76618049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110422192.5A Pending CN113076079A (zh) 2021-04-20 2021-04-20 语音控制方法、服务器、语音控制系统和存储介质

Country Status (1)

Country Link
CN (1) CN113076079A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436628A (zh) * 2021-08-27 2021-09-24 广州小鹏汽车科技有限公司 语音交互方法、装置、系统、交通工具及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
CN111767021A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
CN111768777A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音控制方法、信息处理方法、车辆和服务器
CN111768780A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音控制方法、信息处理方法、车辆和服务器
WO2021027476A1 (zh) * 2019-08-09 2021-02-18 华为技术有限公司 语音控制设备的方法及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538291A (zh) * 2018-04-11 2018-09-14 百度在线网络技术(北京)有限公司 语音控制方法、终端设备、云端服务器及系统
WO2021027476A1 (zh) * 2019-08-09 2021-02-18 华为技术有限公司 语音控制设备的方法及电子设备
CN111767021A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
CN111768777A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音控制方法、信息处理方法、车辆和服务器
CN111768780A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音控制方法、信息处理方法、车辆和服务器

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113436628A (zh) * 2021-08-27 2021-09-24 广州小鹏汽车科技有限公司 语音交互方法、装置、系统、交通工具及介质

Similar Documents

Publication Publication Date Title
EP2229576B1 (en) Vehicle user interface systems and methods
EP2091784B1 (en) Remote display reproduction system and method
US20140168130A1 (en) User interface device and information processing method
US20120013548A1 (en) Human-Machine Interface System
JP5736323B2 (ja) 車両インフォメーション・エンターテインメントシステムのための仮想特徴管理
CN111768780B (zh) 语音控制方法、信息处理方法、车辆和服务器
US20100070932A1 (en) Vehicle on-board device
KR20200046007A (ko) 기능들의 세트에 액세스하기 위한 사용자 인터페이스, 기능들의 세트에 액세스하기 위한 사용자 인터페이스를 제공하는 방법 및 컴퓨터 판독 가능한 저장 매체
JP2010127781A (ja) 車載装置および同装置を有する車載システム
CN112051887A (zh) 一种基于方向盘按键的控制方法和装置
CN111506230B (zh) 一种交互方法、装置和车辆
KR101675226B1 (ko) 사용자 단말과 차량 단말 간 미러링을 위한 인터페이스 및 인터페이스 제공 방법
CN109144356B (zh) 用于控制车辆部件的装置及方法
US9771038B2 (en) Notification device
CN113076079A (zh) 语音控制方法、服务器、语音控制系统和存储介质
US20240126503A1 (en) Interface control method and apparatus, and system
JP5261878B2 (ja) 車載画像表示制御装置および車載画像表示制御用プログラム
JP2008070527A (ja) 画像表示制御装置および画像表示制御装置用のプログラム
JP2012088851A (ja) 表示システム及び表示方法
JP5207586B2 (ja) 乗物用搭載電子システム、乗物マルチメディアシステムおよび搭載電子システムを設定する方法
JP2006096249A (ja) 車両用情報表示装置
JP2009180914A (ja) 音声認識機器操作装置
US20220229834A1 (en) Searching driver information systems of a vehicle
JP7323050B2 (ja) 表示制御装置及び表示制御方法
CN113990322B (zh) 语音交互方法、服务器、语音交互系统和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination