CN112164402A - 车辆语音交互方法、装置、服务器和计算机可读存储介质 - Google Patents

车辆语音交互方法、装置、服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN112164402A
CN112164402A CN202010988976.XA CN202010988976A CN112164402A CN 112164402 A CN112164402 A CN 112164402A CN 202010988976 A CN202010988976 A CN 202010988976A CN 112164402 A CN112164402 A CN 112164402A
Authority
CN
China
Prior art keywords
voice request
layer
request information
voice
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010988976.XA
Other languages
English (en)
Other versions
CN112164402B (zh
Inventor
唐乾斌
赵耀
易晖
翁志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202010988976.XA priority Critical patent/CN112164402B/zh
Publication of CN112164402A publication Critical patent/CN112164402A/zh
Application granted granted Critical
Publication of CN112164402B publication Critical patent/CN112164402B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

本申请公开了一种语音交互方法。包括:对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息;根据预定的策略分别匹配第一层语音请求信息和第二层语音请求信息的策略并得到对应的优先级;对第一层语音请求信息的优先级和第二层语音请求信息的优先级进行融合处理以确定语音请求的执行策略。本申请实施方式的语音交互方法中,将接收到的语音请求进行分层处理,分别判断分层语音请求信息对应的执行策略的优先级,并将各分层的执行策略的优先级进行融合,得到语音请求的最终执行策略。如此,将原本复杂度较高的语音请求的复杂度较低,语音请求具有明确的执行引导策略。本申请还公开了一种语音交互装置、服务器及存储介质。

Description

车辆语音交互方法、装置、服务器和计算机可读存储介质
技术领域
本申请涉及语音识别技术领域,特别涉及一种车辆语音交互方法、语音交互装置、服务器和计算机可读存储介质。
背景技术
随着人工智能技术的发展,语音智能平台或者说语音助手因为能够在一定条件下识别用户的语音输入并生成相应的操作指令,为用户操作车辆设备,例如车辆的中控显示屏,提供了极大的便利,而被广泛应用。随着技术的发展,语音助手的智能性逐渐提升,例如可以由单轮对话扩展至多轮对话。在多轮对话中,任务的信息复杂度较高,因此,对于当前任务的执行决策成为亟待解决的问题。
发明内容
有鉴于此,本申请的实施例提供了一种车辆语音交互方法、语音交互装置、服务器和计算机可读存储介质。
本申请提供了一种车辆语音交互方法,包括:
对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息;
根据预定的策略分别匹配所述第一层语音请求信息和所述第二层语音请求信息的策略并得到对应的优先级;
对所述第一层语音请求信息的优先级和所述第二层语音请求信息的优先级进行融合处理以确定所述语音请求的执行策略。
在某些实施方式中,所述对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息包括:
提取所述语音请求中的特征信息;
基于预定的分层规则将所述特征信息划分为所述第一层语音请求信息和第二层语音请求信息。
在某些实施方式中,所述基于预定的分层规则将所述特征信息划分为所述第一层语音请求信息和第二层语音请求信息包括:
以对话状态跟踪器信息为要素将所述特征信息划分为所述第一层语音请求信息;
以语义理解信息为要素将所述特征信息划分为所述第二层语音请求信息。
在某些实施方式中,所述语义理解信息包括:场景语义理解、全局语义理解和场景数据信息。
在某些实施方式中,所述根据预定的策略分别匹配所述第一层语音请求信息和所述第二层语音请求信息的策略并得到对应的优先级:
根据所述对话状态跟踪器的状态信息,自所述预定的策略匹配所述第一层语音请求信息的第一执行策略并获取所述第一执行策略的优先级;
根据所述语义理解的结果信息,自所述预定的策略匹配所述第二层语音请求信息的第二执行策略并获取所述第二执行策略的优先级。
在某些实施方式中,对所述第一层语音请求信息的优先级和所述第二层语音请求信息的优先级进行融合处理以确定所述语音请求的执行策略包括:
根据所述预定的策略,比较所述第一执行策略的优先级和所述第二执行策略的优先级对应的分值;
根据比较结果将所述分值更高的执行策略确定为所述语音请求的执行策略。
在某些实施方式中,所述语音交互方法还包括:
若所述语音请求的执行策略为预定执行策略,进行转换处理。
本申请提供了一种用于车辆的语音交互装置,所述语音交互装置包括:
处理模块,用于对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息;
匹配模块,用于根据预定的策略分别匹配所述第一层语音请求信息和所述第二层语音请求信息的策略并得到对应的优先级;
融合模块,用于对所述第一层语音请求信息的优先级和所述第二层语音请求信息的优先级进行融合处理以确定所述语音请求的执行策略。
本申请提供了一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述的语音交互方法。
本申请提供了一种包含计算机可执行指令的非易失性计算机可读存储介质,当所述计算机程序被一个或多个处理器执行时,实现所述的语音交互方法。
本申请实施方式的语音交互方法、语音交互装置、服务器和计算机可读存储介质中,在用户与车辆进行的多轮语音交互过程中,将接收到的语音请求进行分层处理,分别判断分层语音请求信息对应的执行策略的优先级,并将各分层的执行策略的优先级进行融合,得到语音请求的最终执行策略。如此,通过分层的方式将原本复杂度较高的语音请求的复杂度较低,使得在多轮语音交互过程中的语音请求具有明确的执行引导策略。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请某些实施方式的语音交互方法的流程示意图。
图2是本申请某些实施方式的语音交互装置的模块示意图。
图3是本申请某些实施方式的语音交互方法的流程示意图。
图4是本申请某些实施方式的语音交互方法的流程示意图。
图5是本申请某些实施方式的语音交互方法的流程示意图。
图6是本申请某些实施方式的语音交互方法的流程示意图。
图7是本申请某些实施方式的语音交互方法的流程示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
请参阅图1,本申请提供了一种车辆语音交互方法。包括:
S10:对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息;
S20:根据预定的策略分别匹配第一层语音请求信息和第二层语音请求信息的策略并得到对应的优先级;
S30:对第一层语音请求信息的优先级和第二层语音请求信息的优先级进行融合处理以确定语音请求的执行策略。
本申请实施方式提供了一种服务器。服务器包括通信元件和处理器。通信元件用于接收车辆上传的语音请求。处理器用于对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息,及用于根据预定的策略分别匹配第一层语音请求信息和第二层语音请求信息的策略并得到对应的优先级,以及用于对第一层语音请求信息的优先级和第二层语音请求信息的优先级进行融合处理以确定语音请求的执行策略。
请参阅图2,本申请实施方式还提供了一种语音交互装置100,本申请实施方式的信息处理方法可以由本申请实施方式的语音交互装置100实现。
具体地,语音识别装置100包括处理模块102、匹配模块104和融合模块106。S10可以由处理模块102实现,S20可以由匹配模块104实现,S30可以由融合模块106实现。或者说,处理模块102用于对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息。匹配模块104用于根据预定的策略分别匹配第一层语音请求信息和第二层语音请求信息的策略并得到对应的优先级。融合模块106用于对第一层语音请求信息的优先级和第二层语音请求信息的优先级进行融合处理以确定语音请求的执行策略。
本申请实施方式的车辆的语音交互方法、语音交互装置100和服务器中,在用户与车辆进行的多轮语音交互过程中,将接收到的语音请求进行分层处理,分别判断分层语音请求信息对应的执行策略的优先级,并将各分层的执行策略的优先级进行融合,得到语音请求的最终执行策略。如此,通过分层的方式将原本复杂度较高的语音请求的复杂度较低,使得在多轮语音交互过程中的语音请求具有明确的执行引导策略。
具体地,车辆包括显示区域、电声元件、通信元件和处理器等。车辆的显示区域可以包括仪表屏、车载显示区域屏幕以及车辆挡风玻璃上可以实现的抬头显示等。车辆上运行的车载系统使用图形用户界面(Graphical User Interface,GUI)为用户呈现展示的内容。显示区域包括诸多UI元素,不同的显示区域可以展示相同或不同的UI元素。其中,UI元素可以包括卡片对象、应用程序图标或界面、文件夹图标、多媒体文件图标以及用于进行交互可操作的控件等。其中,车辆的显示区域可以为用户提供控制车辆以及与车辆进行交互的便捷入口,在车载操作系统中添加语音助手,能够在一定条件下通过识别语音便捷地生成相应的控制指令,进一步地为用户与车辆的交互提供便利。
在本实施方式中,在一些应用场景中,用户唤醒语音助手后,发送语音请求,例如用户通过当前图形用户界面进行车辆的相关控制而发出语音控制指令,例如在空调控制界面中下达相关的空调控制指令,再如在多媒体图形用户界面中下达多媒体播放的相关播放控制指令等。在诸如上述应用场景中,在获取语音信息的同时,获取车辆系统当前正在运行的车载系统或应用程序的图形用户界面信息。图形用户界面信息包括当前图形用户界面中元素的布局信息,如当前图形用户界面中包含的控件、每个控件的类型、位置,不同控件之间的关联关系等。
具体地,图形用户界面信息也即是场景数据信息,以图形用户界面中的控件为单位,信息包括控件的控件标识、控件类型、文本描述、控件支持的操作方式、操作参数、多个控件在界面中的位置、布局关系等相关属性。
其中,控件标识可用于标识当前图形用户界面中的每个元素,每个元素具有唯一的标识。元素也即是当前图形用户界面中呈现的内容,以信息点卡片界面为例,其中的元素包括信息点名称、地址、收藏、搜周边、导航路线等。
文本描述,也即是对该元素在图形用户界面中的表达方式,例如,对于收藏控件,其文本描述为“收藏”。
控件类型也即是该元素在图形用户界面中的元素呈现类型,例如按钮、滑块、状态按钮、文本输入框、复选框、单选按钮、群组按钮、开关按钮、视图、组、对话框等。
控件支持的操作方式,即对应类型的控件可以进行的操作,例如按钮可支持的操作包括点击及选中,滑块可支持的操作包括滑动及选中,状态按钮可支持的操作包括点击、滑动、选中、单选及多选,文本输入框可支持的操作包括点击、选中及输入文本复选框可支持的操作包括点击、多选及选中,单选按钮可支持的操作包括点击、单选及选中,群组按钮可支持的操作包括点击、方位滑动和选中,开关按钮可支持的操作包括点击、打开、关闭和选中,视图可支持的操作包括点击、方位滑动、单选和选中、组可支持的操作包括点击和选中、对话框的操作包括点击和方位滑动。
操作参数对应操作方式的程度,例如,点击对应的操作参数为短按、长按,方位滑动对应的操作参数为大中小等。
多个控件在界面中的位置以及布局关系反映了相关元素在图形用户界面中的布局信息,相当于为服务器提供了视觉信息,使得服务器能够获取到用户所见的图形用户界面。
在车载系统连续多轮对话中,语音请求需要融合多路信息,多路信息包括全局语义、场景语义等。其中全局语义是不结合GUI信息,将语音请求解析为结构化字段领域-意图-槽位进行语义理解,场景语义是指结合GUI信息,对语音请求进行语义理解。
例如,在实际操作中,服务器在接收到一语音请求后,会经过不同的语义理解路径进行处理,经过场景语义理解和全局语义理解得到的结果并不相同,那么究竟该执行哪个语义理解结果对应的任务?又如,在一个多轮对话中,在先轮次语音请求在语义理解后可能触发了一个对话剧本,而当前轮次的语音请求与对话剧本无关,那么究竟是执行对话剧本的流程,还是执行当前轮次的语音请求对应的任务,都需要在对话过程中明确处理规则。
需要说明地,对话剧本是针对某些具体地包含多流程的任务有向图。一个对话剧本可以看作是一个大的独立任务包含的若干动作的集合。设置对话剧本方便对对话进行管理。例如,导航任务包括搜索POI、算路、选路线、导航等多个子任务。在语音请求命中了导航任务后,即转入对话剧本,后续对话流程在导航任务的对话剧本中流转,具有更强的指向性。
为了解决上述提及的在对话中各轮次任务的执行策略的问题,本申请中,对于接收到的语音请求进行语义理解,然后对语义理解中的元素进行处理,从而得到第一层语音请求信息和第二层语音请求信息。不同分层的语音请求信息是经过语义理解后的信息依据不同的规则得到的判断条件的重组的对象,进一步地根据相应的分层原则对分层信息进行优先级策略匹配。
其中,预定的策略可以是预存储于服务器的存储器中的策略列表,其中包括多个执行策略以及相对应的优先级评分。不同分层信息可能匹配到不同的执行策略,而不同的执行策略又对应不同的优先级评分,在优先级不同的情况下,进行融合处理,得到最终的语音请求的执行策略。
其中融合处理的策略可以是取高分策略,分数越高表明其命中的策略优先级越高,优先执行更贴合用户当前轮次的语音请求的意图。当然也可以是根据优先级和权重进行综合考量。
在一个示例中,当前图形用户界面为导航地图界面,用户在首轮发出语音请求“导航去A地点”,根据相关的语义理解确定是导航的意图,并且触发进入导航对话剧本。首轮确定的任务执行策略是全局剧本,系统反馈“为您找到三个地点,请问去哪一个?”,图形用户界面中会在导航地图页面上提供找到的三个地点的列表。
次轮,用户希望将地图放大后再确认实际的目的地,发出语音请求“放大地图”,一方面,由对话状态跟踪器中记录的参数可获知当前为场景语义、对话第二轮,不在对话剧本中,对话状态跟踪器的走向是执行等,该部分信息可作为第一层语音请求信息。另一方面根据不同语义理解处理可得到对地图进行放大操作、对地图界面中的比例尺滑块进行放大操作的结果,该部分信息可作为第二层语音请求信息。两层语音请求信息分别对应场景任务执行的执行策略以及场景优先的执行策略。其中,场景优先的执行策略的优先级高于场景任务执行的执行策略,经过融合处理后,次轮的语音请求的执行策略为优先执行场景任务,即执行对导航地图中的比例尺滑块上滑的操作。
需要说明地,从结果来看,在上述场景中无论是执行场景任务的执行策略还是场景优先的执行策略最终都会执行对导航地图的放大操作,但由于在首轮对话中命了对话剧本,因此,要还要对全局剧本执行策略与场景优先的执行策略进行决策,根据各自优先级的融合结果,最终在此轮的执行策略为,优先执行场景任务而将全局导航任务挂起,也即是在该轮中跳出对话剧本。系统反馈“好的,请问您去哪一个?”
第三轮,用户发出语音请求“第一个”,一方面,由对话状态跟踪器中记录的参数可获知当前为对话第三轮,在对话剧本中,对话状态跟踪器的走向是执行等,该部分信息可作为第一层语音请求信息。另一方面根据不同语义理解处理可得到选择序号1的元素、点击地点列表中的第一个的结果,该部分信息可作为第二层语音请求信息。两层语音请求信息分别对应场景任务执行的执行策略以及全局剧本的执行策略。其中,全局剧本的执行策略的优先级高于场景任务执行的执行策略,经过融合处理后,第三轮的语音请求的执行策略为优先执行全局剧本,即执行选取列表中的第一个进行算路、选路线以及开始导航。系统反馈“出发,全程M公里,预计达到时间N分钟。”
请参阅图3,在某些实施方式中,S10包括:
S11:提取语音请求中的特征信息;
S12:基于预定的分层规则将特征信息划分为第一层语音请求信息和第二层语音请求信息。
在某些实施方式中,S11和S12可以由处理模块102实现。也即是说,处理模块102用于提取语音请求中的特征信息,以及用于基于预定的分层规则将特征信息划分为第一层语音请求信息和第二层语音请求信息。
在某些实施方式中,处理器用于提取语音请求中的特征信息,以及用于基于预定的分层规则将特征信息划分为第一层语音请求信息和第二层语音请求信息。
具体地,特征信息是语音请求在进行自然语言理解等处理后得到的信息,包括但不限于经过全局语义理解后命中的领域名称、意图、意图ID等,经过场景语义理解后命中的场景ID、元素ID、结合场景数据得到该场景ID的属性信息等,对话状态跟踪器中记录的多轮对话的时域ID、是否在剧本中等状态信息等。
提取特征信息也即是进行策略匹配前预处理过程,将上述特征信息转换为策略匹配引擎能够接受的属性标签,或者说能够进行匹配的判断条件,每个分层可能具有多个属性值,将多个属性值组装成一个对象,也即是该层对应的语音请求信息。
预处理过程包括通过场景数据、场景语义理解判断命中的场景元素并转化为可用于分层的属性标签,以及通过全局语义理解转化为场景语义理解并转化为可用于分层的属性标签,以及获取对话状态跟踪器中的状态信息等。其中,全局语义理解转化为场景语义理解这种情况发生在场景语义理解未召回且在预定义的映射库里全局语义能够匹配到场景语义的情况下进行,如此,可以完善业务,对场景信息进行有效的补充。预定的分层规则也即是将上述组装成的对象依照一定的规则进行划分。或者说依照策略匹配规则将组合成的对象划分为第一层和第二层。
需要说明地,所述的第一层和第二层并不存在层级或层次上的包含、递进等关系,可以看作是两个并列对象进行不同方式的执行策略匹配。
请参阅图4,在某些实施方式中,S12包括:
S121:以对话状态跟踪器信息为要素将特征信息划分为第一层语音请求信息;
S122:以语义理解信息为要素将特征信息划分为第二层语音请求信息。
在某些实施方式中,S121、S122可以处理模块102实现。或者说,处理模块102用于以对话状态跟踪器信息为要素将特征信息划分为第一层语音请求信息,以及用于以语义理解信息为要素将特征信息划分为第二层语音请求信息。
在某些实施方式中,处理器用于以对话状态跟踪器信息为要素将特征信息划分为第一层语音请求信息,以及用于以语义理解信息为要素将特征信息划分为第二层语音请求信息。
具体地,对话状态跟踪器信息包括是否开启场景任务、当前对话进行的轮数、对话是否在剧本中、是否有全局语义、是否有全局语义等状态信息。在一个示例中语音请求经过语义理解后,提取特征信息,并依据对话状态跟踪器信息为要素将部分特征信息组合成第一层语音请求信息,从而可以通过对话状态跟踪器信息匹配执行策略。
相类似地,语义理解信息包括场景语义理解、全局语义理解和场景数据信息。
第二层语音请求信息是将特征信息以语义理解信息为要素将部分特征信息组合得到,从而可以通过语义理解信息匹配执行策略。
在一个示例中,在导航页面中,语音请求“调高音量”,特征信息可包括:经全局语义理解,操作为调节,对象为音量;经场景语义理解,命中导航音量滑块,场景数据有导航地图页面有音量调高相关控件,对话状态跟踪器中的信息包括对话为第N轮,不在剧本中,场景任务命中多个音量调高控件,场景需澄清。根据相关规则,将特征信息划分为第一层语音请求信息包括对话为第N轮,在剧本中,调高命中多个场景需澄清。第二层语音请求信息包括场景页面为导航,场景语义命中导航音量滑块。进而,第一层语音请求信息匹配的策略为“场景澄清”,第二层语音请求信息匹配的策略为“场景优先”。
请参阅图5,在某些实施方式中,S20包括:
S21:根据对话状态跟踪器的状态信息,自预定的策略匹配第一层语音请求信息的第一执行策略并获取第一执行策略的优先级;
S22:根据语义理解的结果信息,自预定的策略匹配第二层语音请求信息的第二执行策略并获取第二执行策略的优先级。
在某些实施方式中,S21、S22可以由匹配模块104实现。或者说,匹配模块104用于根据对话状态跟踪器的状态信息,自预定的策略匹配第一层语音请求信息的第一执行策略并获取第一执行策略的优先级,以及用于根据语义理解的结果信息,自预定的策略匹配第二层语音请求信息的第二执行策略并获取第二执行策略的优先级。
在某些实施方式中,处理器用于根据对话状态跟踪器的状态信息,自预定的策略匹配第一层语音请求信息的第一执行策略并获取第一执行策略的优先级,以及用于根据语义理解的结果信息,自预定的策略匹配第二层语音请求信息的第二执行策略并获取第二执行策略的优先级。
具体地,语音请求在经过预处理后重新组装成为具有不同判断条件的对象,即第一层语音请求信息和第二层语音请求信息。不同层语音请求信息具有对应的匹配规则集,在一个示例中,例如对于第一层语音请求信息的匹配规则包括判断是否是场景任务、对话状态跟踪的走向预测、对话轮数,是否在剧本中等。第二语音请求信息的匹配规则包括场景id、意图映射的策略标签等。
根据这些匹配规则去为不同分层的语音请求信息在预定的策略中匹配相对应的执行策略,同时获取该执行策略对应的优先级。
预定的策略中有部分是相对独立且可以确定的默认策略,例如,在场景中语音请求命中当前图形界面中两个元素,在这种情况下,需要用户进行澄清。在实施过程中,也会遇到一些默认策略外的情况,面对这些情况,通过自定义策略进行补充,自定义策略可以是热更新的,方便维护人员随时进行补充,热更新可以随时进行动态添加,无需对原有策略的架构进行修改,更加快捷方便并且易于维护。例如,在对话状态在导航剧本中,语音请求是放大地图,而放大地图并不是剧本的动作,此时,需要将剧本任务暂停,优先执行放大地图命令,也即是说,在这种情况下,需要调高放大地图命令的优先级,可以自定义一个策略,来调高放大地图命令的优先级。
也即是说,预定的策略包括默认策略和自定义策略两部分,其中默认策略部分用于第一层语音请求信息匹配执行策略,自定义策略用于第二层语音请求信息匹配执行策略。
请参阅图6,在某些实施方式中,S30包括:
S31:根据预定的策略,比较第一执行策略的优先级和第二执行策略的优先级对应的分值;
S32:根据比较结果将分值更高的执行策略确定为语音请求的执行策略。
在某些实施方式中,S31和S32可以由融合模块106实现。或者说,融合模块106用于根据预定的策略,比较第一执行策略的优先级和第二执行策略的优先级对应的分值以及根据比较结果将分值更高的执行策略确定为语音请求的执行策略。
在某些实施方式中,处理器用于根据预定的策略,比较第一执行策略的优先级和第二执行策略的优先级对应的分值以及根据比较结果将分值更高的执行策略确定为语音请求的执行策略。
具体地,预定策略的列表中对应每个执行策略提供一个优先级分值,在匹配到相应的策略后确定相应的优先级分值。本实施方式中,对于具有不同优先级分值的两个执行策略采用高分优先的融合策略,也即是最终的执行策略为优先级分值更高的一个。
请参阅图7,在某些实施方式中,语音交互方法还包括:
S50:若语音请求的执行策略为预定执行策略,进行转换处理。
在某些实施方式中,S50可以由处理模块102实现,也即是说,处理模块106用于在语音请求的执行策略为预定执行策略的情况下,进行转换处理。
在某些实施方式中,处理器用于在语音请求的执行策略为预定执行策略的情况下,更新对话状态跟踪器的信息。
具体地,当在策略匹配的过程中匹配到场景转全局的执行策略时,需要进行转换处理,从而将场景信息转换为全局任务。其目的在于构建全局语义的输入格式。如果不进行任务的转化,对应语音请求的任务将无法执行。
在一个示例中,在导航页面中,输入语音请求“搜索充电桩”,经过上述分层、匹配、融合的策略后最终确定的执行策略为场景转全局。具体而言,该语音请求经过场景语义理解命中场景界面中的充电桩元素,对应的动作是以当前位置为中心搜索预定范围内的充电桩。经过全局语义理解命中搜索充电桩,对应的动作是搜索当前导航路线中沿途的充电桩。这种情况下,根据先关信息可知当前处于导航场景下又命中了充电桩元素,那么就将场景语义搜索附近的充电桩转换为全局语义搜索沿途的充电桩,并执行相应的任务。
以下以一个示例对多轮对话中的执行策略进行说明:
首轮,用户发出语音请求“调高”,根据全局语义理解,命中调高的操作。根据场景语义理解,命中多个可调高的控件,结合场景信息,可调高的控件包括温度、亮度。对话状态跟踪器信息包括首轮,不在剧本中,场景任务命中多个可调高控件,场景需引导。两层信息分别匹配到的执行策略为场景引导和普通全局,场景澄清对应的优先级分值更高。经融合后,首轮确定的语音请求的执行策略是场景引导,系统反馈“您想调高什么,试着对我说调高温度”。
次轮,用户发出语音请求“调高亮度”,根据全局语义理解,命中调高的操作,对象是亮度。根据场景语义理解,命中两个亮度可调高的控件,结合场景信息,可调高的控件包括仪表屏量亮度和车载显示区域屏幕亮度。对话状态跟踪器信息包括对话次轮,不在剧本中,场景任务命中两个可调高控件,场景需澄清。两层信息分别匹配到的执行策略为场景澄清和普通全局,场景澄清对应的优先级分值更高。经融合后,次轮确定的语音请求的执行策略是场景澄清,系统反馈“找到仪表亮度和大屏亮度,要调高哪个”。图形用户界面可提供可调节对象的列表,第一个为仪表亮度,第二个为大屏亮度。
第三轮,用户发出语音请求“第一个”,根据全局语义理解,命中序号1。根据场景语义理解,命中一个亮度可调高的仪表控件,结合场景信息,可调高的控件为仪表屏量亮度。对话状态跟踪器信息包括对话第三轮,不在剧本中,场景任务命中一个可调高控件,场景任务可执行。两层信息分别匹配到的执行策略为场景执行和普通全局,场景执行对应的优先级分值更高。经融合后,第三轮确定的语音请求的执行策略是场景执行,系统反馈“仪表亮度已调高”。
本申请实施方式还提供了一种计算机可读存储介质。一个或多个包含计算机可执行指令的非易失性计算机可读存储介质,当计算机可执行指令被一个或多个处理器执行时,使得处理器执行上述任一实施方式的车辆的语音交互方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,程序可存储于一非易失性计算机可读存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种车辆语音交互方法,其特征在于,包括:
对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息;
根据预定的策略分别匹配所述第一层语音请求信息和所述第二层语音请求信息的策略并得到对应的优先级;
对所述第一层语音请求信息的优先级和所述第二层语音请求信息的优先级进行融合处理以确定所述语音请求的执行策略。
2.根据权利要求1所述的语音交互方法,其特征在于,所述对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息包括:
提取所述语音请求中的特征信息;
基于预定的分层规则将所述特征信息划分为所述第一层语音请求信息和第二层语音请求信息。
3.根据权利要求2所述的语音交互方法,其特征在于,所述基于预定的分层规则将所述特征信息划分为所述第一层语音请求信息和第二层语音请求信息包括:
以对话状态跟踪器信息为要素将所述特征信息划分为所述第一层语音请求信息;
以语义理解信息为要素将所述特征信息划分为所述第二层语音请求信息。
4.根据权利要求3所述的语音交互方法,其特征在于,所述语义理解信息包括:场景语义理解、全局语义理解和场景数据信息。
5.根据权利要求3所述的语音交互方法,其特征在于,所述根据预定的策略分别匹配所述第一层语音请求信息和所述第二层语音请求信息的策略并得到对应的优先级:
根据所述对话状态跟踪器的状态信息,自所述预定的策略匹配所述第一层语音请求信息的第一执行策略并获取所述第一执行策略的优先级;
根据所述语义理解的结果信息,自所述预定的策略匹配所述第二层语音请求信息的第二执行策略并获取所述第二执行策略的优先级。
6.根据权利要求1所述的语音交互方法,其特征在于,对所述第一层语音请求信息的优先级和所述第二层语音请求信息的优先级进行融合处理以确定所述语音请求的执行策略包括:
根据所述预定的策略,比较所述第一执行策略的优先级和所述第二执行策略的优先级对应的分值;
根据比较结果将所述分值更高的执行策略确定为所述语音请求的执行策略。
7.根据权利要求1所述的语音交互方法,其特征在于,所述语音交互方法还包括:
若所述语音请求的执行策略为预定执行策略,进行转换处理。
8.一种用于车辆的语音交互装置,其特征在于,所述语音识别装置包括:
处理模块,用于对接收到的语音请求进行分层处理以得到第一层语音请求信息和第二层语音请求信息;
匹配模块,用于根据预定的策略分别匹配所述第一层语音请求信息和所述第二层语音请求信息的策略并得到对应的优先级;
融合模块,用于对所述第一层语音请求信息的优先级和所述第二层语音请求信息的优先级进行融合处理以确定所述语音请求的执行策略。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-7任一项所述的语音交互方法。
10.一种计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-7中任一项所述的语音交互方法。
CN202010988976.XA 2020-09-18 2020-09-18 车辆语音交互方法、装置、服务器和计算机可读存储介质 Active CN112164402B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010988976.XA CN112164402B (zh) 2020-09-18 2020-09-18 车辆语音交互方法、装置、服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010988976.XA CN112164402B (zh) 2020-09-18 2020-09-18 车辆语音交互方法、装置、服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112164402A true CN112164402A (zh) 2021-01-01
CN112164402B CN112164402B (zh) 2022-07-12

Family

ID=73863554

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010988976.XA Active CN112164402B (zh) 2020-09-18 2020-09-18 车辆语音交互方法、装置、服务器和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112164402B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360897A (zh) * 2014-10-29 2015-02-18 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
WO2018102980A1 (zh) * 2016-12-06 2018-06-14 吉蒂机器人私人有限公司 语音交互方法、装置及系统
US20180190292A1 (en) * 2016-02-03 2018-07-05 Hua Xu Voice recognition system and construction method thereof
US20190295534A1 (en) * 2017-02-15 2019-09-26 Tencent Technology (Shenzhen) Company Limited Speech recognition method, electronic device, and computer storage medium
CN110866105A (zh) * 2019-11-15 2020-03-06 康佳集团股份有限公司 一种语义决策方法、移动终端及存储介质
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104360897A (zh) * 2014-10-29 2015-02-18 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US20180190292A1 (en) * 2016-02-03 2018-07-05 Hua Xu Voice recognition system and construction method thereof
WO2018102980A1 (zh) * 2016-12-06 2018-06-14 吉蒂机器人私人有限公司 语音交互方法、装置及系统
US20190295534A1 (en) * 2017-02-15 2019-09-26 Tencent Technology (Shenzhen) Company Limited Speech recognition method, electronic device, and computer storage medium
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质
CN110866105A (zh) * 2019-11-15 2020-03-06 康佳集团股份有限公司 一种语义决策方法、移动终端及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112164400A (zh) * 2020-09-18 2021-01-01 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Also Published As

Publication number Publication date
CN112164402B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN107315511B (zh) 服务显示方法、装置、设备和系统
JP5234160B2 (ja) 車両用装置および情報表示システム
EP3513324B1 (en) Computerized natural language query intent dispatching
US7177816B2 (en) System and method of handling problematic input during context-sensitive help for multi-modal dialog systems
WO2022057152A1 (zh) 语音交互方法、服务器和计算机可读存储介质
US8612153B2 (en) Apparatus and method for map data management
CN112164401B (zh) 语音交互方法、服务器和计算机可读存储介质
US10352715B2 (en) Driving assistant system
US20200193983A1 (en) Vehicle having dialogue system and control method thereof
CN110018858A (zh) 一种基于语音控制的应用管理方法、装置
CN107293294B (zh) 一种语音识别处理方法及装置
CN111722826B (zh) 语音交互信息的构造方法、车辆和存储介质
CN108592938A (zh) 导航路线规划方法、装置及存储介质
CN108349450B (zh) 用于提供建议信号以控制车辆中的至少一个功能的方法和装置
CN110203154B (zh) 车辆功能的推荐方法、装置、电子设备和计算机存储介质
CN111279296A (zh) 使用隐式路由来创建模块化对话
EP2863385B1 (en) Function execution instruction system, function execution instruction method, and function execution instruction program
EP2660562A1 (en) Route Guidance Apparatus and Method with Voice Recognition
CN112164402B (zh) 车辆语音交互方法、装置、服务器和计算机可读存储介质
CN113421561A (zh) 语音控制方法、语音控制装置、服务器和存储介质
CN109029480B (zh) 具有改进的导航工具的地图应用
CN109976515B (zh) 一种信息处理方法、装置、车辆及计算机可读存储介质
US10896676B2 (en) Server system, information system, and in-vehicle apparatus
WO2014199428A1 (ja) 候補告知装置、候補告知方法及び候補告知用プログラム
Rogers et al. Adaptive user interfaces for automotive environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant