CN111768780B - 语音控制方法、信息处理方法、车辆和服务器 - Google Patents

语音控制方法、信息处理方法、车辆和服务器 Download PDF

Info

Publication number
CN111768780B
CN111768780B CN202010599637.2A CN202010599637A CN111768780B CN 111768780 B CN111768780 B CN 111768780B CN 202010599637 A CN202010599637 A CN 202010599637A CN 111768780 B CN111768780 B CN 111768780B
Authority
CN
China
Prior art keywords
voice
information
user interface
graphical user
control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010599637.2A
Other languages
English (en)
Other versions
CN111768780A (zh
Inventor
易晖
鲍鹏丽
孙仿逊
翁志伟
马洪波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202111279877.5A priority Critical patent/CN114005445A/zh
Priority to CN202010599637.2A priority patent/CN111768780B/zh
Publication of CN111768780A publication Critical patent/CN111768780A/zh
Priority to EP20900757.4A priority patent/EP3955244A4/en
Priority to PCT/CN2020/121499 priority patent/WO2022000859A1/zh
Application granted granted Critical
Publication of CN111768780B publication Critical patent/CN111768780B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了一种车辆的语音控制方法。语音控制方法包括:获取语音输入信息;发送语音输入信息和车辆的当前图形用户界面信息至服务器;接收服务器根据语音输入信息、当前图形用户界面信息和对应当前图形用户界面信息的语音交互信息生成的语音控制操作指令;解析语音控制指令并按语音控制操作指令对应的触控操作同等执行。本申请实施方式的车辆的语音控制方法中,在实施语音控制的过程中,结合车辆当前图形用户界面信息对语音输入信息进行语义理解,使得语音助手对于语义理解的能力得到提升,图形用户界面中的元素都能够通过语音进行操作,为用户提供更方便的交互方式,智能性和用户体验更佳。本申请还公开了一种信息处理方法、车辆、服务器及存储介质。

Description

语音控制方法、信息处理方法、车辆和服务器
技术领域
本申请涉及语音识别技术领域,特别涉及一种语音控制方法、信息处理方法、车辆、服务器和计算机可读存储介质。
背景技术
随着人工智能技术的发展,语音智能平台或者说语音助手因为能够在一定条件下识别用户的语音输入并生成相应的操作指令,为用户操作车辆设备,例如车辆的中控显示屏,提供了极大的便利,而被广泛应用。然而,相关技术中,语音助手对于能够识别的语音指令所对应的用户的语音输入要求比较严苛,智能性较差。
发明内容
有鉴于此,本申请的实施例提供了一种信息处理方法、语音控制方法、车辆、服务器和计算机可读存储介质。
本申请提供了一种车辆的语音控制方法,所述语音控制方法包括:
获取语音输入信息;
发送所述语音输入信息和所述车辆的当前图形用户界面信息至服务器;
接收服务器根据所述语音输入信息、所述当前图形用户界面信息和对应所述当前图形用户界面信息的语音交互信息生成的语音控制操作指令;
解析所述语音控制操作指令并按照所述语音控制操作指令对应的触控操作同等执行。
在某些实施方式中,所述当前图形用户界面信息包括所述车辆当前图形用户界面的控件属性信息。
在某些实施方式中,所述语音控制方法包括:
根据所述控件属性信息构建语音交互元素的有向图;
将所述有向图同步至所述服务器以在所述服务器形成语音交互信息库。
在某些实施方式中,所述根据控件属性信息构建语音交互元素的有向图包括:
根据所述控件属性信息建立所述语音交互元素与所述控件的映射关系;
根据所述映射关系和所述控件在图形用户界面中的布局关系生成所述有向图。
在某些实施方式中,所述语音交互元素由元素标识、元素属性和元素可支持操作构成。
在某些实施方式中,所述解析所述语音控制操作指令并按照所述语音控制操作指令对应的触控操作同等执行包括:
根据所述语音控制操作指令定位与所述语音控制操作指令关联的图形用户界面控件;
按照所述语音控制操作指令对应的触控操作对所述图形用户界面控件同等执行。
本申请提供了一种信息处理方法,包括:
接收车辆上传的语音输入信息和当前图形用户界面信息;
根据所述当前图形用户界面信息得到对应的语音交互信息;
根据所述语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令。
在某些实施方式中,所述根据所述当前图形用户界面信息得到对应的语音交互信息包括:
根据所述当前图形用户界面信息在语音交互信息库中进行匹配以得到所述语音交互信息,所述语音交互信息由语音交互元素构成。
在某些实施方式中,所述根据所述语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令包括:
将所述语音输入信息进行拆分,以使得拆分后的语音输入信息分别与所述语音交互信息中的语音交互元素形成映射;
根据所述映射生成语音事件,所述语音控制操作指令由所述语音事件构成。
本申请提供了一种车辆,包括:
语音获取模块,用于获取语音输入信息;
通信模块,用于发送所述语音输入信息和所述车辆的当前图形用户界面信息至服务器器;
所述通信模块还用于接收服务器根据所述语音输入信息、所述当前图形用户界面信息和对应所述当前图形用户界面信息的语音交互信息生成的语音控制操作指令;
控制模块,用于解析所述语音控制操作指令并按照所述语音控制操作指令对应的触控操作同等执行。
本申请提供了一种服务器,所述服务器包括:
通信模块,用于接收车辆上传的语音输入信息和当前图形用户界面信息;和
处理模块,用于根据所述当前图形用户界面信息得到对应的语音交互信息;
所述处理模块还用于根据所述语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令。
本申请提供了一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行所述的车辆的语音控制方法或所述的信息处理方法。
本申请实施方式的车辆的语音控制方法、信息处理方法、车辆、服务器及计算机可读存储介质中,在实施语音控制的过程中,结合车辆当前图形用户界面信息对语音输入信息进行语义理解,使得语音助手对于语义理解的能力得到提升,图形用户界面中的元素都能够通过语音进行操作,为用户提供更方便的交互方式,智能性和用户体验更佳。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的语音控制方法的流程示意图。
图2是本申请某些实施方式的车辆的模块示意图。
图3是本申请某些实施方式的语音控制方法的流程示意图。
图4是本申请某些实施方式的语音控制方法的流程示意图。
图5是本申请某些实施方式的语音交互元素结构示意图。
图6是本申请某些实施方式的语音交互元素和图形用户界面控件映射关系示意图。
图7是本申请某些实施方式的语音交互信息有向图示意图。
图8是本申请某些实施方式的语音控制方法的流程示意图。
图9是本申请某些实施方式的信息处理方法的流程示意图。
图10是本申请某些实施方式的服务器的模块示意图。
图11是本申请某些实施方式的信息处理方法的流程示意图。
图12是本申请某些实施方式的信息处理方法的流程示意图。
图13是本申请某些实施方式的信息处理方法的场景示意图。
图14是本申请某些实施方式的语音事件的结构示意图。
图15是本申请某些实施方式的语音交互场景示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
请参阅图1,本申请提供了一种车辆的语音控制方法。包括:
S10:获取语音输入信息;
S20:发送语音输入信息和车辆的当前图形用户界面信息至服务器;
S30:接收服务器根据语音输入信息、当前图形用户界面信息和对应当前图形用户界面信息的语音交互信息生成的语音控制操作指令;
S40:解析语音控制操作指令并按照语音控制操作指令对应的触控操作同等执行。
本申请实施方式提供了一种车辆。车辆包括显示区域、电声元件、通信元件和处理器。车辆的显示区域可以包括仪表屏、车载显示区域屏幕以及车辆挡风玻璃上可以实现的抬头显示等。车辆上运行的车载系统使用图形用户界面(Graphical User Interface,GUI)为用户呈现展示的内容。显示区域包括诸多UI元素,不同的显示区域可以展示相同或不同的UI元素。其中,UI元素可以包括卡片对象、应用程序图标或界面、文件夹图标、多媒体文件图标以及用于进行交互可操作的控件等。电声元件用于获取语音输入信息。通信元件用于发送语音输入信息和车辆当前图形用户界面信息至服务器,并接收服务器根据语音输入信息、图形用户界面信息和对应图形用户界面信息的语音交互信息生成的操作指令。处理器用于解析语音控制操作指令并按照语音控制操作指令对应的触控操作同等执行。
请参阅图2,本申请实施方式还提供了一种车辆100,本申请实施方式的语音控制方法可以由本申请实施方式的车辆100实现。
具体地,车辆100包括语音获取模块102、通信模块104和控制模块106。S10可以由语音获取模块102实现,S20、S30可以由通信模块104实现,S40可以由控制模块106实现。或者说,语音获取模块102用于获取语音输入信息。通信模块104用于发送语音输入信息和当前图形用户界面信息至服务器,并接收服务器根据语音输入信息、图形用户界面信息和对应图形用户界面信息的语音交互信息生成的操作指令。控制模块106用于解析语音控制操作指令并按照语音控制操作指令对应的触控操作同等执行。
本申请实施方式的车辆100的语音控制方法及车辆100中,在实施语音控制的过程中,结合车辆当前图形用户界面信息对语音输入信息进行语义理解,使得语音助手对于语义理解的能力得到提升,图形用户界面中的元素都能够通过语音进行操作,为用户提供更方便的交互方式,智能性和用户体验更佳。
具体地,车辆的智能显示区域可以为用户提供控制车辆以及与车辆进行交互的便捷入口,在车载操作系统中添加语音助手,能够在一定条件下通过识别语音便捷地生成相应的控制指令,进一步地为用户与车辆的交互提供便利。然而,语音助手能够进行的语音交互有限,通常只能与预设定的操作目标进行交互,而对于非预定的操作目标无法理解用户的真实目的,用户仅能通过在图形用户界面中对操作目标进行输入,与操作目标进行交互,而无法通过语音实现交互。对于当前正处于行车模式的情况,用户一边驾车一边通过图形用户界面进行交互,存在一定的安全风险。
在本实施方式中,用户唤醒语音助手后,进行语音信息输入,在获取语音信息的同时,获取车辆系统当前正在运行的车载系统或应用程序的图形用户界面信息。图形用户界面信息包括当前图形用户界面中元素的布局信息,例如当前图形用户界面中包含的控件、每个控件的类型、位置,不同控件之间的关联关系等。
进一步地,车辆将本地采集的语音输入信息和图形用户界面信息发送至云端的服务器,服务器根据图形用户界面信息可以获知与用户进行交互的图形用户界面以及界面中的相关内容,从而利用图形用户界面信息作为辅助信息,对语音输入信息进行解析,从而生成操作指令,并回传给本地的车辆,进而车辆根据操作指令执行对应的操作。
其中,对语音输入信息的解析通常包括语音识别和语义理解两部分,语音识别可以在本地完成,例如可以通过车辆的文本语音转换模块对语音信息进行识别,将语音转换为文本。当然,语音识别也可以在服务器进行,从而减小车辆的处理负担。语义理解可以在服务器完成。
可以理解地,当前图形用户界面信息可以让服务器在进行语义理解时,如同用户所见,更加明确车辆当前图形用户界面中所包含的内容。在语音交互时,如同用户与图形用户界面进行交互相,在图形用户界面中能够实施的交互都可以通过语义理解明确目标对象,从而实现用户原本与图形用户界面的交互以语音方式进行。
当前图形用户界面信息对应的语音交互信息,是存储在服务器中与用户所见的图形用户界面对应的可进行语义理解的描述信息。通过语音交互信息,服务器可以将语音输入信息与图形用户界面中的元素对应,从而生成对应的语音控制操作指令。在实际操作中,服务器中存储有对应不同图形用户界面的语音交互信息,在接收到车辆上传的当前图形用户界面信息后,经过搜索匹配,服务器就可以确认与当前图形用户界面信息对应的语音交互信息,进一步地,根据语音交互信息可以对语音输入信息进行语义理解,从而生成对应的语音控制操作指令。
在一个示例中,服务器中存储有信息点卡片图形用户界面信息对应的语音交互信息、车载系统菜单图形用户界面信息对应的语音交互信息等不同场景下图形用户界面信息对应的语音交互信息,当前用户与信息点卡片进行语音交互,车辆将接收到的用户语音输入信息,以及信息点卡片的图形用户界面信息,进行搜索匹配,服务器确认用户当前在与信息点卡片进行语音交互,从而根据相应的语音交互信息对语音输入信息进行语义理解,确认语音交互的目标对象与操作意图,进而生成语音控制操作指令。
车辆接收服务器回传的语音操作指令进行解析从而定位到操作的目标对象,进而以与触控操作相同的操作方式和操作参数对目标对象实施操作。
在本实施方式中,当前图形用户界面信息包括所述车辆当前图形用户界面的控件属性信息。
具体地,当前图形用户界面信息,以图形用户界面中的控件为单位,信息包括控件的控件标识、控件类型、文本描述、控制支持的操作方式、操作参数、多个控件在界面中的位置、布局关系等相关属性。
其中,控件标识可用于标识当前图形用户界面中的每个元素,每个元素具有唯一的标识。元素也即是当前图形用户界面中呈现的内容,以信息点卡片界面为例,其中的元素包括信息点名称、地址、收藏、搜周边、导航路线等。
文本描述,也即是对该元素在图形用户界面中的表达方式,例如,对于收藏控件,其文本描述为“收藏”。
控件类型也即是该元素在图形用户界面中的元素呈现类型,例如文本、按钮、单选按钮、复选框、滑动条、选项卡、列表等。
控件支持的操作方式,即对应类型的控件可以进行的操作,例如文本不支持相关操作,按钮可支持的操作为点击,单选按钮可支持的操作为开、关,复选框可支持的操作为点击,滑动条可支持的操作为赋值,选项卡可支持的操作选择,列表可支持的操作为滚动等。
操作参数对应操作方式的程度,例如,点击对应的操作参数为短按、长按,滑动条对应的操作参数为大中小等。
多个控件在界面中的位置以及布局关系反映了相关元素在图形用户界面中的布局信息,相当于为服务器提供了视觉信息,使得服务器能够获取到用户所见的图形用户界面。
根据上述信息,服务器可以在云端获知用户当前所见的图形用户界面以及组成界面的各个元素的信息。如此,服务器根据车辆100上报的图形用户界面信息,可以明确用户当前的交互场景,匹配到对应的语音交互信息,准确地理解用户语音输入信息的真实意图,将语音输入信息定位到图形用户界面中的相关元素,从而生成相应的操作指令。
请参阅图3,在某些实施方式中,语音控制方法包括:
S50:根据控件属性信息构建语音交互元素的有向图;
S60:将有向图同步至服务器以在服务器形成语音交互信息库。
在某些实施方式中,S50可以由控制模块106实现,S60可以由通信模块104实现。也即是说,控制模块106用于根据控件属性信息构建语音交互元素的有向图,通信模块104用于将有向图同步至服务器以在服务器形成语音交互信息库。
在某些实施方式中,处理器用于根据控件属性信息构建语音交互元素的有向图。通信元件用于将有向图同步至服务器以在服务器形成语音交互信息库。
具体地,有向图可以用于描述元素之间的界面布局结构关系。本实施方式中,语音交互元素的有向图中的节点表示图形用户界面中的控件,有向图中的边表示各个控件在布局上的包含关系。如此,将图形用户界面构建为语音交互元素的有向图,可以完整保留图形用户界面的布局信息以及控件的操作信息。
在实际操作过程中,当图形用户界面渲染完成后,系统遍历控件的分级视图,构建与当前图形用户界面对应的语音交互元素的有向图,并将该有向图上报服务器。当图形用户界面更新,或者说,新的图形用户界面完成渲染后,系统再次遍历控件的分级视图,获取发生变化的控件,然后对有向图对应的部分进行更新并上报服务器。
服务器接收有向图后进行存储及相关的信息管理。不同图形用户界面对应的有向图形成语音交互信息库,语音交互信息库中的每一个语音交互信息对应一个图形用户界面。
请参阅图4,在某些实施方式中,S50包括:
S51:根据控件属性信息建立语音交互元素与控件的映射关系;
S52:根据映射关系和控件在图形用户界面中的布局关系生成有向图。
在某些实施方式中,S51和S52可以由控制模块106实现。或者说,控制模块106用于根据控件属性信息建立语音交互元素与控件的映射关系,即用于根据映射关系和控件在图形用户界面中的布局关系生成有向图。
在某些实施方式中,处理器用于根据控件属性信息建立语音交互元素与控件的映射关系,即用于根据映射关系和控件在图形用户界面中的布局关系生成有向图。
在某些实施方式中,语音交互元素由元素标识、元素属性和元素可支持操作构成语音交互元素。
请参阅图5,具体地,语音交互元素的元素标识与图形用户界面中控件的控件标识相对应,从而将图形用户界面中的控件与语音交互元素建立连联。
元素属性包括元素类型,文本描述等,元素类型用于记录与该语音交互元素对应的图形用户界面中的控件的属性,例如文本、按钮、单选按钮、复选框、滑动条、选项卡、列表等。文本描述用于记录与该语音交互元素对应的图形用户界面中的控件的表达方式,例如“收藏”、“收周边”、“车辆提示音”等。
元素可支持操作包括操作方式与操作参数,操作方式用于记录与该语音交互元素对应的图形用户界面中的控件支持的操作方式,例如点击、赋值等操作方式。操作参数用于记录与该语音交互元素对应的图形用户界面中的控件支持操作方式的操作程度,例如长按、短按等。
如此,请参阅图6,根据控件的属性信息,可建立图形用户界面的控件与语音交互元素的映射。例如,在车辆的系统菜单图形用户界面中,“蓝牙开关”控件映射为语音交互元素中的单选按钮元素,“导航音量播报”控件映射为语音交互元素中的滑动条元素,“车辆提示音”控件映射为语音交互元素中的选项卡元素。
语音交互信息由语音交互元素构成,例如对于“导航音量播报”控件映射为语音交互元素,其元素标识为N,元素类型为滑动条元素,文本描述为“导航音量播报”,操作参数为音量30。
请参阅图7,当前图形用户界面中不同控件映射的语音交互元素共同构成与该图形用户界面信息对应的语音交互信息。
进一步地,以语音交互元素为节点,根据图形用户界面中各个控件的布局关系,得到语音交互元素的包含关系,以包含关系作为边,从而形成语音交互元素的有向图,例如,对于系统菜单而言,上方的关闭控件对应一个节点,菜单内容选项对应一个节点,正在显示的声音选项界面对应一个节点。进一步地菜单内容选项节点包括蓝牙、WLAN、声音、显示、实验室、用户反馈、关于本机等子节点,声音节点包括语音播报音量、导航播报音量以及车辆提示音等子节点。
请参阅图8,在某些实施方式中,S40包括:
S41:根据语音控制操作指令定位与语音控制操作指令关联的图形用户界面控件;
S42:按照语音控制操作指令对应的触控操作对图形用户界面控件同等执行。
在某些实施方式中,S41和S42可以由控制模块106实现。或者说,控制模块106用于根据语音控制操作指令定位与语音控制操作指令关联的图形用户界面控件,以及用于按照语音控制操作指令对应的触控操作对图形用户界面控件同等执行。
在某些实施方式中,处理器用于根据语音控制操作指令定位与语音控制操作指令关联的图形用户界面控件,以及用于按照语音控制操作指令对应的触控操作对图形用户界面控件同等执行。
具体地,服务器根据语音交互信息对语音输入信息进行语义理解,生成语音控制操作指令,操作指令回传至车辆,车辆根据操作指令定位到需要操作的目标控件,然后对目标控制执行与触控操作同等操作。
在某些实施方式中,语音控制方法还包括:
控制车辆播报操作的执行反馈。
具体地,服务器在生成操作指令的同时生成与执行操作指令相关的反馈信息,车辆接收操作指令和反馈信息后,在执行操作指令的同时播报操作的执行反馈,播报方式可以是以语音的方式向用户反馈执行的结果,例如“连接成功”等。此外,播报方式还可以是使用显示区域以提示文字或者弹窗等方式给予用户执行操作的反馈。如此,方便用户通过执行反馈获知语音输入指令的执行情况,从而进行后续动作。
请参阅图9,本申请还提供了一种信息处理方式,用于处理上述实施方式中,由车辆发送至服务器的语音输入信息和图形用户界面信息。信息处理方式包括:
S70:接收车辆上传的语音输入信息和当前图形用户界面信息;
S80:根据当前图形用户界面信息得到对应的语音交互信息;
S90:根据语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令。
本申请实施方式提供了一种服务器。服务器包括通信元件和处理器。通信元件用于接收车辆上传的语音输入信息和当前图形用户界面信息。处理器用于根据当前图形用户界面信息得到对应的语音交互信息以及用于根据语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令。
请参阅图10,本申请实施方式还提供了一种服务器200,本申请实施方式的信息处理方法可以由本申请实施方式的服务器200实现。
具体地,服务器200包括通信模块202和处理模块204。S70可以由通信模块202实现,S80和S90可以由处理模块204实现。或者说,通信模块202用于接收车辆上传的语音输入信息和当前图形用户界面信息。处理模块204用于根据当前图形用户界面信息得到对应的语音交互信息以及用于根据语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令。
本实施方式的服务器与车辆通信,在实施语音控制的过程中,结合车辆当前图形用户界面信息对语音输入信息的语义进行解析,使得语音助手对于语义理解的能力得到提升,图形用户界面中的元素都能够通过语音进行操作,为用户提供更方便的交互方式,智能性和用户体验更佳。
不同图形用户界面对应的有向图上报服务器后形成语音交互信息库,语音交互信息库中的每一个语音交互信息对应一个图形用户界面。
在实际操作中,当服务器接收到车辆上传的当前图形用户界面信息后,根据该图形用户界面信息可以从语音交互信息库中寻找到匹配的语音交互信息,进而根据对应的语音交互信息对语音输入信息进行拆解,从而将语音输入信息与语音交互元素相关联生成语音控制操作指令,该语音控制操作指令包括语音交互元素的信息,从而能够与图形用户界面中的控件建立联系。
请参阅图11,在某些实施方式中,S80包括:
S81:根据当前图形用户界面信息在语音交互信息库中进行匹配以得到语音交互信息,语音交互信息由语音交互元素构成。
在某些实施方式中,S81可以由处理模块204实现,也即是说,处理模块204用于根据当前图形用户界面信息在语音交互信息库中进行匹配以得到语音交互信息。
在某些实施方式中,处理器用于根据当前图形用户界面信息在语音交互信息库中进行匹配以得到语音交互信息。
具体地,车辆每个图形用户界面在建立有向图后上传到服务器,从而在服务器形成语音交互信息库。在后续使用中,当接收到车辆上报的当前图形用户界面信息后,可根据控件标识在语音交互信息库中进行搜索。可以理解地,当前图形用户界面中的控件根据属性信息与语音交互元素建立映射,因而能够根据控件标识搜索到具有相同标识的语音交互元素,语音交互信息包括与当前图形用户界面中每个控件映射关联的语音交互元素,由此可以确定与当前图形用户界面对应的语音交互信息。
请参阅图12,在本实施方式中,S90包括:
S91:将语音输入信息进行拆分,以使得拆分后的语音输入信息分别与语音交互信息中的语音交互元素形成映射;
S92:根据映射生成语音事件,语音控制操作指令由所述语音事件构成。
在某些实施方式中,S91和S92可以用由处理模块204实现。或者说,处理模块204用于将语音输入信息进行拆分以使得拆分后的语音输入信息分别与语音交互信息中的语音交互元素形成映射,以及用于根据映射生成语音事件。
在某些实施方式中,处理器用于将语音输入信息进行拆分以使得拆分后的语音输入信息分别与语音交互信息中的语音交互元素形成映射,以及用于根据映射生成语音事件。
请参阅图13,具体地,语音输入信息可根据自然语音理解进行语义拆分,拆分为实体与操作意图。实体是指目标对象,操作意图也即是希望对目标对象进行的操作以及操作参数。例如,对于语音输入信息“将车辆提示音设为小”,经拆分后确定实体为“车辆提示音”,操作为“设为”,操作参数为“小”。
同时服务器根据上传的当前图形用户界面在语音交互信息库中进行比对,得到语音交互信息与系统菜单中声音设置的图形用户界面对应。该语音交互信息中包括与该图形用户界面控件对应的全部语音交互元素。在一个示例中。可以按照语音交互元素的文本描述或元素标识等生成倒排索引,进而将语音输入信息中的实体与倒排索引中的语音交互元素信息进行匹配,快速确定语音输入信息中的目标对象。
确定语音交互元素后,就可以根据语音交互元素的元素属性以及可支持操作,来确定语音输入信息中希望对目标对象进行的操作。
在上述示例中,经匹配后,确认语音输入信息中的实体“车辆提示音”与语音交互元素“车辆提示音”形成映射。语音交互元素“车辆提示音”的元素类型为选项卡、可支持操作的为选择、操作参数为大中小。语音输入信息中的操作“设为”与“选择”形成映射,语音输入信息中的操作参数“小”与“小”形成映射。
请参阅图14,根据上述映射可以生成对应该语音输入信息的语音事件,语音事件包括事件类型:语音控制、元素类型:选项卡、元素标识、文本描述:车辆提示音、操作:选择、操作参数:小。
语音事件构成语音控制操作指令并下发车辆。车辆根据语音控制操作指令中的元素标识以及文本描述定位到图形用户界面中需要操作的目标控件,进而根据可支持操作和操作参数对目标控制执行操作相应的操作。
在上述示例中,根据语音事件生成将车辆音量设置为小的操作指令并下发车辆,车辆根据语音事件中的元素标识和文本描述定位到目标对象为“车辆提示音”控件,操作为选择,操作参数为小。进一步地,车辆执行对应的操作,将车辆提示音的音量设置为小。
在某些实施方式中,信息处理方法还包括:
接收输入的标注信息对语音交互元素进行泛化。
可以理解地,语音交互元素中文本描述、可支持的操作以及操作参数基于相关标准生成,解释性较差,而不同用户对于同一意图的表达或者相同用户对于同一意图前后多次的表达都可能不同。因而,在收集一定量的语音输入信息后可以对语音交互元素的文本描述方式以及可支持的操作以及操作参数的表达方式进行人工的标注和泛化,泛化后的语音交互元素关联更多的表述方式,从而可以更好地辅助语音输入信息的解析。
例如,对于按钮可支持的操作指令,可以泛化为如点击、按等。对单选按钮可支持的操作指令,可以泛化为如打开、关闭等。对于“车辆提示音”的文本描述可以泛化为“提示音”、“车辆提示音量”等。
请参阅图15,以下以一个交互示例对车辆和服务器的语音交互进行说明:
用户在信息点卡片图形用户界面,唤醒语音助手,并发出“搜周边”的语音指令,车辆将图形用户界面信息和语音输入信息一并发送至服务器。服务器在接收到图形用户信息后,首先,根据其中的控件属性信息,如控件标识,在语音交互式信息库中匹配得到对应信息点卡片图形用户界面的语音交互信息,并获得该语音交互信息中的语音交互元素的相关信息。进一步地,服务器将接收到的语音输入信息进行拆分,并分别将拆分后的部分与语音交互元素进行匹配并形成映射,其中语音输入信息的目标对象是“搜周边”控件,“搜周边”控件的元素类型为按钮,可支持的操作为点击,操作参数为短按。进一步地,根据形成的映射生成语音事件,并将有语音事件构成的语音控制操作指令下发车辆。车辆接收语音控制操作指令后,通过语音事件的相关信息定位到目标对象是“搜周边”控件,从而执行与触控操作同等操作完成语音控制。
如此,在用户通过车辆实施语音控制的过程中,在实施语音控制的过程中,结合车辆当前图形用户界面信息对语音输入信息的语义进行理解,使得语音助手对于语义理解的能力得到提升,图形用户界面中的元素都能够通过语音进行操作,为用户提供更方便的交互方式,智能性和用户体验更佳。
本申请实施方式还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行上述任一实施方式的车辆的语音控制方法或信息处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一非易失性计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种车辆的语音控制方法,其特征在于,所述语音控制方法包括:
获取语音输入信息;
发送所述语音输入信息和所述车辆的当前图形用户界面信息至服务器,所述当前图形用户界面信息包括所述车辆当前图形用户界面的控件属性信息;
根据所述控件属性信息构建语音交互元素的有向图以用于描述所述语音交互元素间的界面布局结构关系,所述语音交互元素的元素标识与所述控件属性信息中的控件标识相对应;
将所述有向图同步至所述服务器以在所述服务器形成语音交互信息库;
接收服务器根据所述语音输入信息、所述当前图形用户界面信息和根据所述当前图形用户界面信息在所述语音交互信息库中进行匹配得到的对应所述当前图形用户界面信息的语音交互信息生成的语音控制操作指令;
解析所述语音控制操作指令并按照所述语音控制操作指令对应的触控操作同等执行。
2.根据权利要求1所述的语音控制方法,其特征在于,所述根据控件属性信息构建语音交互元素的有向图包括:
根据所述控件属性信息建立所述语音交互元素与所述控件的映射关系;
根据所述映射关系和所述控件在图形用户界面中的布局关系生成所述有向图。
3.根据权利要求2所述的语音控制方法,其特征在于,所述语音交互元素由元素标识、元素属性和元素可支持操作构成。
4.根据权利要求1所述的语音控制方法,其特征在于,所述解析所述语音控制操作指令并按照所述语音控制操作指令对应的触控操作同等执行包括:
根据所述语音控制操作指令定位与所述语音控制操作指令关联的图形用户界面控件;
按照所述语音控制操作指令对应的触控操作对所述图形用户界面控件同等执行。
5.一种信息处理方法,其特征在于,包括:
接收车辆上传的语音输入信息和当前图形用户界面信息,所述当前图形用户界面信息包括所述车辆当前图形用户界面的控件属性信息;
根据所述当前图形用户界面信息在语音交互信息库中进行匹配以得到所述语音交互信息,所述语音交互信息由语音交互元素构成,所述语音交互信息库由同步至服务器的语音交互元素的有向图形成,所述语音交互元素的有向图根据所述控件属性信息构建而成以用于描述所述语音交互元素间的界面布局结构关系,所述语音交互元素的元素标识与所述控件属性信息中的控件标识相对应;
根据所述语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令。
6.根据权利要求5所述的信息处理方法,其特征在于,所述根据所述语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令包括:
将所述语音输入信息进行拆分,以使得拆分后的语音输入信息分别与所述语音交互信息中的语音交互元素形成映射;
根据所述映射生成语音事件,所述语音控制操作指令由所述语音事件构成。
7.一种车辆,其特征在于,包括:
语音获取模块,用于获取语音输入信息;
通信模块,用于发送所述语音输入信息和所述车辆的当前图形用户界面信息至服务器,所述当前图形用户界面信息包括所述车辆当前图形用户界面的控件属性信息;
控制模块,用于根据控件属性信息构建语音交互元素的有向图以用于描述所述语音交互元素间的界面布局结构关系,所述语音交互元素的元素标识与所述控件属性信息中的控件标识相对应;
所述通信模块还用于将所述有向图同步至所述服务器以在所述服务器形成语音交互信息库;
所述通信模块还用于接收服务器根据所述语音输入信息、所述当前图形用户界面信息和根据所述当前图形用户界面信息在所述语音交互信息库中进行匹配得到的对应所述当前图形用户界面信息的语音交互信息生成的语音控制操作指令;
控制模块,用于解析所述语音控制操作指令并按照所述语音控制操作指令对应的触控操作同等执行。
8.一种服务器,其特征在于,所述服务器包括:
通信模块,用于接收车辆上传的语音输入信息和当前图形用户界面信息,所述当前图形用户界面信息包括所述车辆当前图形用户界面的控件属性信息;和
处理模块,用于根据所述当前图形用户界面信息在语音交互信息库中进行匹配以得到所述语音交互信息,所述语音交互信息由语音交互元素构成,所述语音交互信息库由同步至服务器的语音交互元素的有向图形成,所述语音交互元素的有向图根据所述控件属性信息构建而成以用于描述所述语音交互元素间的界面布局结构关系,所述语音交互元素的元素标识与所述控件属性信息中的控件标识相对应;
所述处理模块还用于根据所述语音交互信息对语音输入信息进行语义理解以生成语音控制操作指令。
9.一种计算机可执行指令的非易失性计算机可读存储介质,其特征在于,当所述计算机可执行指令被一个或多个处理器执行时,使得所述处理器执行权利要求1-4中任一项所述的车辆的语音控制方法或根据权利要求5-6任一项所述的信息处理方法。
CN202010599637.2A 2020-06-28 2020-06-28 语音控制方法、信息处理方法、车辆和服务器 Active CN111768780B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202111279877.5A CN114005445A (zh) 2020-06-28 2020-06-28 信息处理方法、服务器和计算机可读存储介质
CN202010599637.2A CN111768780B (zh) 2020-06-28 2020-06-28 语音控制方法、信息处理方法、车辆和服务器
EP20900757.4A EP3955244A4 (en) 2020-06-28 2020-10-16 VOICE CONTROL METHOD, INFORMATION PROCESSING METHOD, VEHICLE AND SERVER
PCT/CN2020/121499 WO2022000859A1 (zh) 2020-06-28 2020-10-16 语音控制方法、信息处理方法、车辆和服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010599637.2A CN111768780B (zh) 2020-06-28 2020-06-28 语音控制方法、信息处理方法、车辆和服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111279877.5A Division CN114005445A (zh) 2020-06-28 2020-06-28 信息处理方法、服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111768780A CN111768780A (zh) 2020-10-13
CN111768780B true CN111768780B (zh) 2021-12-07

Family

ID=72722412

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111279877.5A Pending CN114005445A (zh) 2020-06-28 2020-06-28 信息处理方法、服务器和计算机可读存储介质
CN202010599637.2A Active CN111768780B (zh) 2020-06-28 2020-06-28 语音控制方法、信息处理方法、车辆和服务器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111279877.5A Pending CN114005445A (zh) 2020-06-28 2020-06-28 信息处理方法、服务器和计算机可读存储介质

Country Status (3)

Country Link
EP (1) EP3955244A4 (zh)
CN (2) CN114005445A (zh)
WO (1) WO2022000859A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114005445A (zh) * 2020-06-28 2022-02-01 广州小鹏汽车科技有限公司 信息处理方法、服务器和计算机可读存储介质
CN111767021A (zh) * 2020-06-28 2020-10-13 广州小鹏车联网科技有限公司 语音交互方法、车辆、服务器、系统和存储介质
CN112416965A (zh) * 2020-11-30 2021-02-26 重庆长安汽车股份有限公司 语音无法理解说法数据的分流处理方法、系统及存储介质
CN113076079A (zh) * 2021-04-20 2021-07-06 广州小鹏汽车科技有限公司 语音控制方法、服务器、语音控制系统和存储介质
CN113421561B (zh) * 2021-06-03 2024-01-09 广州小鹏汽车科技有限公司 语音控制方法、语音控制装置、服务器和存储介质
CN113450778A (zh) * 2021-06-09 2021-09-28 惠州市德赛西威汽车电子股份有限公司 一种基于语音交互控制的训练方法及存储介质
CN113253970B (zh) * 2021-07-09 2021-10-12 广州小鹏汽车科技有限公司 语音交互方法及装置、语音交互系统、交通工具及介质
CN114067797A (zh) * 2021-11-19 2022-02-18 杭州逗酷软件科技有限公司 一种语音控制方法、装置、设备以及计算机存储介质
CN113990301B (zh) * 2021-12-28 2022-05-13 广州小鹏汽车科技有限公司 语音交互方法及其装置、服务器和可读存储介质
CN117275472A (zh) * 2022-06-13 2023-12-22 华为技术有限公司 语音控制方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107608652A (zh) * 2017-08-28 2018-01-19 三星电子(中国)研发中心 一种语音控制图形界面的方法和装置
US10453333B1 (en) * 2010-07-16 2019-10-22 Ari Krupnik Methods and apparatus for leveraging a mobile phone or mobile computing device for use in controlling model vehicles
CN111145747A (zh) * 2019-12-30 2020-05-12 智车优行科技(北京)有限公司 一种语音控制实现方法及装置
CN111261153A (zh) * 2018-12-03 2020-06-09 现代自动车株式会社 车辆语音命令处理装置和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130246920A1 (en) * 2012-03-19 2013-09-19 Research In Motion Limited Method of enabling voice input for a visually based interface
US20140207461A1 (en) * 2013-01-24 2014-07-24 Shih-Yao Chen Car a/v system with text message voice output function
CN105161106A (zh) * 2015-08-20 2015-12-16 深圳Tcl数字技术有限公司 智能终端的语音控制方法、装置及电视机系统
JP6565883B2 (ja) * 2016-12-02 2019-08-28 トヨタ自動車株式会社 車両用制御装置
KR102096590B1 (ko) * 2018-08-14 2020-04-06 주식회사 알티캐스트 Gui 음성제어 장치 및 방법
CN111061453B (zh) * 2019-12-26 2023-12-26 北京官匠空间科技有限公司 一种用于app生态系统的语音交互方法、装置
CN114005445A (zh) * 2020-06-28 2022-02-01 广州小鹏汽车科技有限公司 信息处理方法、服务器和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10453333B1 (en) * 2010-07-16 2019-10-22 Ari Krupnik Methods and apparatus for leveraging a mobile phone or mobile computing device for use in controlling model vehicles
CN107608652A (zh) * 2017-08-28 2018-01-19 三星电子(中国)研发中心 一种语音控制图形界面的方法和装置
CN111261153A (zh) * 2018-12-03 2020-06-09 现代自动车株式会社 车辆语音命令处理装置和方法
CN111145747A (zh) * 2019-12-30 2020-05-12 智车优行科技(北京)有限公司 一种语音控制实现方法及装置

Also Published As

Publication number Publication date
CN111768780A (zh) 2020-10-13
EP3955244A4 (en) 2022-05-04
WO2022000859A1 (zh) 2022-01-06
CN114005445A (zh) 2022-02-01
EP3955244A1 (en) 2022-02-16

Similar Documents

Publication Publication Date Title
CN111768780B (zh) 语音控制方法、信息处理方法、车辆和服务器
CN107608652B (zh) 一种语音控制图形界面的方法和装置
WO2022000863A1 (zh) 语音交互信息的构造方法、车辆和存储介质
CN106682219B (zh) 关联文档获取方法及装置
US9854320B2 (en) Method and system for accessing TV programs and applications on smart TV
KR20170014353A (ko) 음성 기반의 화면 내비게이션 장치 및 방법
CN110992937B (zh) 语言离线识别方法、终端及可读存储介质
CN111768777A (zh) 语音控制方法、信息处理方法、车辆和服务器
CN110018858A (zh) 一种基于语音控制的应用管理方法、装置
CN111722825A (zh) 交互方法、信息处理方法、车辆和服务器
EP3944068A2 (en) Method, apparatus and system for voice interaction, vehicles and storage media
CN111722905A (zh) 交互方法、信息处理方法、车辆和服务器
CN112882623B (zh) 文本处理方法、装置、电子设备及存储介质
CN106648864A (zh) 打开和/或切换多个应用的方法及装置
CN108595965B (zh) 防止界面控件的属性信息被窃取的方法及其装置
WO2023046009A1 (zh) 文档处理方法、装置、电子设备和计算机可读存储介质
CN108170785B (zh) 终端搜索操作的引导方法、装置及计算机可读存储介质
CN115729534A (zh) 低代码页面的创建方法、展示方法、装置、设备及介质
CN111768779A (zh) 交互方法、信息处理方法、车辆和服务器
CN110083685B (zh) 用于意图识别的数据配置方法及装置
CN113253970B (zh) 语音交互方法及装置、语音交互系统、交通工具及介质
CN112164402B (zh) 车辆语音交互方法、装置、服务器和计算机可读存储介质
CN113113015A (zh) 交互方法、信息处理方法、车辆和服务器
CN113157966A (zh) 显示方法、装置及电子设备
CN112380871A (zh) 语义识别方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 46, room 406, No.1, Yichuang street, Zhongxin knowledge city, Huangpu District, Guangzhou City, Guangdong Province

Applicant after: Guangzhou Xiaopeng Automatic Driving Technology Co.,Ltd.

Address before: Room 46, room 406, No.1, Yichuang street, Zhongxin knowledge city, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Guangzhou Xiaopeng Internet of vehicles Technology Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20201203

Address after: 510640 No.8 Songgang street, Cencun, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: GUANGZHOU XIAOPENG MOTORS TECHNOLOGY Co.,Ltd.

Address before: Room 46, room 406, No.1, Yichuang street, Zhongxin knowledge city, Huangpu District, Guangzhou City, Guangdong Province

Applicant before: Guangzhou Xiaopeng Automatic Driving Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant