CN115457959B - 语音交互方法、服务器及计算机可读存储介质 - Google Patents

语音交互方法、服务器及计算机可读存储介质 Download PDF

Info

Publication number
CN115457959B
CN115457959B CN202211389565.4A CN202211389565A CN115457959B CN 115457959 B CN115457959 B CN 115457959B CN 202211389565 A CN202211389565 A CN 202211389565A CN 115457959 B CN115457959 B CN 115457959B
Authority
CN
China
Prior art keywords
information
target
voice request
voice
operation object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211389565.4A
Other languages
English (en)
Other versions
CN115457959A (zh
Inventor
樊骏锋
宁洪珂
丁鹏傑
郭梦雪
赵群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202211389565.4A priority Critical patent/CN115457959B/zh
Publication of CN115457959A publication Critical patent/CN115457959A/zh
Application granted granted Critical
Publication of CN115457959B publication Critical patent/CN115457959B/zh
Priority to PCT/CN2023/125464 priority patent/WO2024099046A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W40/00Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models
    • B60W40/08Estimation or calculation of non-directly measurable driving parameters for road vehicle drive control systems not related to the control of a particular sub unit, e.g. by using mathematical models related to drivers or passengers
    • B60W2040/089Driver voice
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Transportation (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Navigation (AREA)

Abstract

本申请公开了一种语音交互方法,包括:接收车辆转发的语音请求;处理所述语音请求,提取所述语音请求的意图信息和槽位信息,确认根据语义无法直接获取目标位置和/或目标操作对象;根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象;根据所述目标位置和所述目标操作对象生成与所述语音请求对应的车辆控制指令;将所述车辆控制指令转发至所述车辆以完成所述语音交互。本申请中,在语音交互过程中,服务器无法识别语音请求的语义时,则可通过一系列方法确定目标位置和目标操作对象时,最终生成车辆控制指令。本申请中的语音交互方法可识别用户口语化语音请求,提高语音交互的流畅性。

Description

语音交互方法、服务器及计算机可读存储介质
技术领域
本申请涉及车载语音技术领域,特别涉及一种语音交互方法、服务器及计算机可读存储介质。
背景技术
目前,车载语音技术可以支持用户通过语音在车辆座舱内进行交互,例如控制车辆零部件或与车载系统用户界面中的组件进行交互。例如,用户通过语音控制车载系统的用户界面中的音乐播放器控件打开等。在实际交互场景中,用户通常需要严格按照规定的句式输入语音请求,才能够正常进行语音交互,而用户利用相对自由或接近日常的表述,可能导致语音助手无法识别语音请求,进而导致语音交互不能顺利进行,影响语音交互的流畅性和便捷性。
发明内容
本申请提供了一种语音交互方法、服务器及计算机可读存储介质。
本申请的语音交互方法,包括:
接收车辆转发的语音请求;
处理所述语音请求,提取所述语音请求的意图信息和槽位信息,确认根据语义无法直接获取目标位置和/或目标操作对象,其中,所述意图信息包括动作类型,所述槽位信息包括参考点、相对位置信息和/或操作对象;
根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象;
根据所述目标位置和所述目标操作对象生成与所述语音请求对应的车辆控制指令;
将所述车辆控制指令转发至所述车辆以完成所述语音交互。
如此,本申请中,在用户通过语音与车载系统用户界面进行交互的过程中,服务器在提取语音请求的意图信息和槽位信息后,无法根据语义直接获取目标位置和目标操作对象时,仍可通过一系列方法确定语音请求的目标位置和目标操作对象,最终生成车辆控制指令。本申请的语音交互方法可识别用户口语化语音请求,完成对目标位置和目标操作对象的定位,而不需要用户进行多轮澄清,提高语音交互的流畅性和便捷性。
所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
对所述槽位信息中的参考点进行归一化处理,以将所述参考点对应至车辆座舱内的绝对位置。
如此,可将提取到的语音请求中的参考点槽位信息进行归一化处理,使参考点与车辆座舱内相应的绝对位置对应起来,以便后续结合相对位置信息确定目标操作对象的位置范围。
所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
根据所述绝对位置和所述相对位置信息确定所述目标位置。
如此,可将参考点对应的车辆座舱内的绝对位置与相对位置信息结合,进行目标位置范围的确定。使后续查找目标操作对象的范围限定在目标位置内,过程更为准确和高效。
所述方法还包括:
在所述槽位信息中缺失所述参考点的情况下,根据所述语音请求的历史对话信息确认所述参考点。
如此,当参考点信息模糊时,服务器将搜索历史对话内容,将上条语音请求中的参考点确认为本条语音请求的参考点,使语音交互过程更具连贯性。
所述方法还包括:
在所述槽位信息中缺失所述参考点的情况下,根据所述语音请求的音区信息确认所述参考点。
如此,当参考点信息缺失时,服务器将判断语音请求的音区信息,将用户所在音区作为参考点,使语音交互过程更具连贯性。
所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
根据所述相对位置信息确定候选操作对象。
如此,服务器可在根据相对位置信息确定的目标位置内,将所有对象确定为候选操作对象。将后续在候选操作对象范围内筛选得到目标操作对象的过程缩小至目标位置范围内进行,提高筛选步骤的高效性。
所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
根据所述槽位信息中的操作对象对所述候选操作对象进行第一筛选处理;
根据所述意图信息中操作类型对经过第一筛选处理的所述候选操作对象进行第二筛选处理以得到所述目标操作对象。
如此,可根据用户语音请求中的意图信息,首先在目标区域内筛选出候选操作对象,再在筛选出的候选操作对象中进行第二次筛选,筛选出其中可操作对象作为目标操作对象,以便融合生成车载系统能够识别并执行的指令。
所述方法还包括:
在所述槽位信息中缺失所述操作对象的情况下,根据所述语音请求的音区信息确定所述操作对象。
如此,当操作对象信息缺失时,服务器将进行模糊匹配,判断语音请求的音区信息,并将用户所在音区范围确认为操作对象的位置范围,据此确定操作对象信息,使语音交互过程更具连贯性。
所述根据所述目标位置和所述目标操作对象生成与所述语音请求对应的车辆控制指令,包括:
所述车辆的状态信息、所述目标位置和所述目标操作对象,确定对所述目标操作对象的操作权限;
根据所述操作权限生成所述车辆控制指令。
如此,可根据车辆的状态信息、目标位置及目标操作对象,确定目标对象的操作权限,并根据权限识别结果生成所述车辆控制指令。使语音交互过程及结果更适应车辆的行驶状态,保障驾驶安全。
所述方法还包括:
对所述语音请求的意图信息和槽位信息进行存储。
如此,可存储语音请求中的意图信息和槽位信息,以便车辆在下轮执行任务过程中,获取历史轮次中执行的信息,得到更具可靠性的语音交互结果。
本申请的服务器,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
本申请的计算机可读存储介质,存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述的方法。
本申请的实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实施方式的实践了解到。
附图说明
本申请的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是本申请语音交互方法的流程示意图之一;
图2是本申请语音交互方法的流程示意图之二;
图3是本申请语音交互方法的流程示意图之三;
图4是本申请语音交互方法的流程示意图之四;
图5是本申请语音交互方法的流程示意图之五。
具体实施方式
下面详细描述本申请的实施方式,实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本申请的实施方式,而不能理解为对本申请的实施方式的限制。
请参阅图1、图2及图3,本申请提供一种语音交互方法,包括:
01:接收车辆转发的语音请求;
02:处理语音请求,提取语音请求的意图信息和槽位信息,确认根据语义无法直接获取目标位置和/或目标操作对象;
03:根据意图信息和槽位信息确定语音请求的目标位置和目标操作对象;
04:根据目标位置和目标操作对象生成与语音请求对应的车辆控制指令;
05:将车辆控制指令转发至车辆以完成语音交互。
本申请还提供了一种服务器,服务器包括存储器和处理器。本申请的语音交互方法可以由本申请的服务器实现。具体地,存储器中存储有计算机程序,处理器用于接收车辆转发的语音请求,处理语音请求,提取语音请求的意图信息和槽位信息,并确认根据语义无法直接获取目标位置和/或目标操作对象,以及根据意图信息和槽位信息确定语音请求的目标位置和目标操作对象,根据目标位置和目标操作对象生成与语音请求对应的车辆控制指令,最后将车辆控制指令转发至车辆以完成语音交互。
车载系统语音交互功能,可实现用户对车辆的控制。目前,车载系统语音交互功能支持用户通过语音在车辆座舱内进行交互。相关技术中,车载系统语音交互功能能够识别的语音请求通常需要用户严格按照规定的句式进行输入。如图2所示,在语音控制车窗开闭的场景中,若用户输入语音请求的句式符合表达规范,如“打开主驾车窗”,则该语音请求可以被语音助手准确识别。通过自然语言处理,利用意图分类模型和槽位提取模型,最终生成控制对象明确的车辆控制指令。然而,当用户发出相对自由或更接近日常表述的语音请求,如用户发出类似“打开我左边的车窗”的语音请求时,则无法直接识别该语音请求进而生成相应的控制指令,通常需要用户进行多轮澄清后,才能够确认最终的目标,从而生成相应的控制指令,或对用户发出“听不懂”等类似的反馈。
如图3所示,本申请中,针对上述场景,对于用户发出的语音请求,例如上例中的“打开我左边车窗”,服务器在接收到车辆转发的该类语音请求后,提取语音请求中的意图信息和槽位信息。其中,意图分类模型对语音请求的内容进行分类预测,得到意图信息为“打开”。此处的意图信息区别于传统自然语言理解模型中的意图信息,分类更少,主要针对用户的动作而不涉及动作实施的对象,如“打开”、“关闭”、“点击”、“切换”等动作类别。
槽位提取模型可针对上述实际语音请求“打开我左边车窗”中的位置定位信息进行提取,包括参考点槽位、相对位置信息槽位和/或操作对象的槽位。其中,参考点可作为确定相对位置信息的参考位置,可包括“主驾”“后排”或“屏幕”等,实际场景中用户可能通过更生活化语言表达,则需要按预定规则进行自然语言处理得到参考点对应的车辆座舱内绝对位置。
相对位置信息是指语音请求中描述相对于参考点位置的区域位置信息,可包括“左边”、“右侧”、“上边”等。
操作对象是指语音请求中一些描述车内零部件以及用户界面部件或区域的自然语言信息,具有执行意图信息描述的相关动作的能力,例如“车窗”、“音量设置按钮”等,且现有自然语言理解模型无法利用位置信息对各操作对象进行区分。对于语音请求“打开我左边的车窗”而言,槽位提取模型可提取到槽位信息包括:参考点槽位“我”,相对位置信息槽位“左边”,操作对象槽位“车窗”。此外,对车载系统用户界面中各语音交互元素的控制,如“点击大屏中间那个按钮”和“把导航设置下面的功能打开”等。
可以理解地,在实际的语音交互场景中,用户可能无法完整实现意图信息、参考点信息、相对位置信息和操作对象信息这四个关键信息的准确输入。例如,对于语音请求“打开我左边的车窗”而言,由于口语习惯,主驾用户可能实际输入的语音请求为“打开左边车窗”,“打开车窗”,语音请求中参考点或相对位置不明确。或在实现“打开主驾车窗”动作后,主驾用户接着输入语音请求“再把后边的也关了”,此语音请求中,参考点槽位、相对位置槽位及操作对象槽位的信息均无法直接通过语义获取。
在上述场景中,车载系统服务器可通过模糊匹配、权限识别、信息继承等方法,最终明确语音请求的关键信息,即得到确定目标位置和目标操作对象。最后,服务器将得到的目标位置和目标操作对象,结合语音请求的意图信息,生成可被车辆识别的控制指令,包括对车内零部件及用户界面部件或区域的控制指令。最后将控制指令下发至车辆,并由车辆执行指令动作。
本申请的语音交互方法,在确认用户语音请求无法直接根据语义判断目标位置及目标操作对象时,仍可得到目标位置及目标操作对象,进而生成可被车辆识别的控制指令并下发至车辆,使车辆顺利完成语音请求的执行。语音助手可兼容语音请求中更贴近生活的口语化表述方式,使车载语音交互具有更流畅的体验感。
综上,本申请中,在用户通过语音与车载系统用户界面进行交互的过程中,服务器在提取语音请求的意图信息和槽位信息后,无法根据语义直接获取目标位置和目标操作对象时,仍可通过一系列方法确定语音请求的目标位置和目标操作对象,最终生成车辆控制指令。本申请的语音交互方法可识别用户口语化语音请求,完成对目标位置和目标操作对象的定位,而不需要用户进行多轮澄清,提高语音交互的流畅性和便捷性。
请参阅图4,步骤03包括:
031:对槽位信息中的参考点进行归一化处理,以将参考点对应至车辆座舱内的绝对位置。
处理器用于对槽位信息中的参考点进行归一化处理,以将参考点对应至车辆座舱内的绝对位置。
具体地,在根据语义无法直接获取目标位置和目标操作对象的情况下,服务器可对提取到的槽位信息中的参考点进行归一化处理,即将用户输入的语音请求的槽位信息中参考点与车辆座舱内的绝对位置预定语义规则进行实体归一化。预定语义规则在此不作限定。
在一个示例中,用户发出的语音请求为“打开我左边的车窗”时,需要进行归一化过程的包括槽位信息中的参考点“我”。“我”作为参考点,通过识别声音来源信息,定位输入语音请求的用户“我”在车辆座舱中所处的位置。例如,主驾内用户输入语音请求中,参考点的槽位信息为“我”,则将“我”这一槽位信息归一化至“主驾”这一车内绝对位置。
如此,可将提取到的语音请求中的参考点槽位信息进行归一化处理,使参考点与车辆座舱内相应的绝对位置对应起来,以便后续结合相对位置信息确定目标操作对象的位置范围。
步骤03包括:
032:根据绝对位置和相对位置信息确定目标位置。
处理器用于根据绝对位置和相对位置信息确定目标位置。
请参阅图4,具体地,可以结合归一化得到的参考点绝对位置,并根据相对位置信息,获取目标操作对象对应的位置范围,即目标位置。其中,相对位置信息默认以三维空间的位置表述。当用户的语音请求面向车载系统的用户界面时,不支持三维位置信息的表述,则自动降为二维位置信息的表述。
在一个示例中,主驾的用户发出的语音请求为“打开我左边的车窗”时,归一化得到参考点“我”的车内绝对位置为“主驾”。提取语音请求中相对位置信息“左边”,由于该语音请求并非面向车载系统的用户界面,则目标位置范围可确定为,参考点“主驾”的“左侧”包含的三维空间。
如此,可将参考点对应的车辆座舱内的绝对位置与相对位置信息结合,进行目标位置范围的确定。使后续查找目标操作对象的范围限定在目标位置内,过程更为准确和高效。
请参阅图4及图5,方法还包括:
07:在槽位信息中缺失参考点的情况下,根据语音请求的历史对话信息确认参考点。
处理器用于在槽位信息中缺失参考点的情况下,根据语音请求的历史对话信息确认参考点。
具体地,用户输入语音请求时,因随机性可能造成参考点的缺失。例如,在多轮语音请求场景下,可继承上一条的语义。信息继承的方法可用于,在语音请求中提取到的参考点槽位信息模糊,存在“它”、“这个”等指代词的情况,代表前一轮的语音请求中已经出现过的参考点。此时,服务器应搜索历史对话内容,根据其中的对话信息确认模糊指代词所对应参考点。
在一个示例中,中控显示屏处于购物列表的场景下,用户第一轮输入语音请求“帮我点个A商品”,第二轮输入语音请求为“它左边那个我也要”。服务器在第二轮输入的语音请求中,提取到的槽位信息包括“它”和“那个”两个指代词。根据历史对话内容的搜索结果,上轮语音请求中已经出现参考点“A商品”,则可以确认第二轮语音请求中的“它”指代上轮语音请求中的“A商品”。相类似地,针对历史对话内容,可确认语音请求“它左边那个我也要”的目的也是购买商品,则“那个”指代的是购物列表中位于“A商品”“左边”相应的商品。
如此,当参考点信息模糊时,服务器将搜索历史对话内容,将上条语音请求中的参考点确认为本条语音请求的参考点,使语音交互过程更具连贯性。
请参阅图5,方法还包括:
08:在槽位信息中缺失参考点的情况下,根据语音请求的音区信息确认参考点。
处理器用于在槽位信息中缺失参考点的情况下,根据语音请求的音区信息确认参考点。
具体地,用户输入语音请求时,因随机性可能造成参考点的缺失。此时,服务器将根据语音请求的音区信息确认参考点。
在实际场景中,用户输入语音请求“打开左边的车窗”,语音请求中没有关于相对位置信息槽位“左边”相对应的参考点槽位信息。此时根据输入语音请求的音区信息,判断输入语音请求的用户所在的座位作为参考点。例如,当输入语音请求的是主驾用户时,参考点确定为主驾,则语音请求可理解为“打开主驾左边的车窗”。
如此,当参考点信息缺失时,服务器将判断语音请求的音区信息,将用户所在音区作为参考点,使语音交互过程更具连贯性。
请参阅图4,步骤03包括:
033:根据相对位置信息确定候选操作对象。
处理器用于根据相对位置信息确定候选操作对象。
具体地,在相对位置信息默认指示的三维区域范围内,搜索所有具有执行语音请求动作意图的可操作对象,作为候选对象。其中,相对位置信息默认以三维空间的位置表述。当用户的语音请求面向车载系统的用户界面时,不支持三维位置信息的表述,则自动降为二维位置信息的表述。
在一个示例中,语音请求槽位信息中相对位置信息为“左手边”,则选择参考点左侧范围内的可操作对象,作为候选操作对象。如果参考点为“主驾”,不是位于用户界面上的按键,则确定参考点“主驾”左侧三维空间为目标位置,并选择目标位置范围内所有可操作对象作为为候选操作对象;如果参考点为用户界面中某按键,则确定该按键左侧平面范围为目标位置,并选择其中所有可操作对象为候选操作对象。
如此,服务器可在根据相对位置信息确定的目标位置内,将所有对象确定为候选操作对象。将后续在候选操作对象范围内筛选得到目标操作对象的过程缩小至目标位置范围内进行,提高筛选步骤的高效性。
请参阅图4,步骤03还包括:
034:根据槽位信息中的操作对象对候选操作对象进行第一筛选处理;
035:根据意图信息中操作类型对经过第一筛选处理的候选操作对象进行第二筛选处理以得到目标操作对象。
处理器用于根据槽位信息中的操作对象对候选操作对象进行第一筛选处理,以及根据意图信息中操作类型对经过第一筛选处理的候选操作对象进行第二筛选处理以得到目标操作对象。
具体地,服务器获取目标位置内选出的所有候选操作对象后,可根据语音请求槽位信息中的操作对象信息,候选操作对象进行第一筛选处理。第一筛选处理即利用语义相似度模型,获取相似度较高的数个候选操作对象,例如,可筛选出语义相似度前十位的候选操作对象。第一筛选处理得到相似度较高的候选操作对象的数量,可为所有候选操作对象数量之内的任何数,在此不作限定。
进一步地,可根据语音请求的意图信息,在上述步骤中经第一筛选处理得到的相似度较高的候选操作对象范围内,进行第二筛选处理,最终获取目标操作对象。第二筛选处理可根据语音请求的意图信息,选择具有执行语音请求意图能力的操作对象,作为最终的目标操作对象。
在一个示例中,例如,“打开”的意图可以用在“车窗”等操作对象上,但“切换”的意图则无法用在“车窗”上,即最终确定的目标操作对象是具有执行语音请求意图能力的操作对象。
如此,可根据用户语音请求中的意图信息,首先在目标区域内筛选出候选操作对象,再在筛选出的候选操作对象中进行第二次筛选,筛选出其中可操作对象作为目标操作对象,以便融合生成车载系统能够识别并执行的指令。
请参阅图5,方法还包括:
09:在槽位信息中缺失操作对象的情况下,根据语音请求的音区信息确定操作对象。
处理器用于在槽位信息中缺失操作对象的情况下,根据语音请求的音区信息确定操作对象。
具体地,用户输入语音请求时,因随机性可能造成操作对象信息的缺失。此时,服务器将采用模糊匹配的方法,根据语音请求音区来源定位,识别用户所在位置,并确定为目标位置。
在一个示例中,用户输入语音请求“播放一个电影”,则该语音请求中槽位信息不包含操作对象。因为车辆中存在前排中控显示屏和后排中控显示屏,服务器可通过判断语音请求发出的音区,得到操作对象的位置范围。例如该语音请求为主驾用户发出,则确定操作对象为前排中控显示屏。
如此,当操作对象信息缺失时,服务器将进行模糊匹配,判断语音请求的音区信息,并将用户所在音区范围确认为操作对象的位置范围,据此确定操作对象信息,使语音交互过程更具连贯性。
步骤04包括:
041:车辆的状态信息、目标位置和目标操作对象,确定对目标操作对象的操作权限;
042:根据操作权限生成车辆控制指令。
处理器用于车辆的状态信息、目标位置和目标操作对象,确定对目标操作对象的操作权限,以及根据操作权限生成车辆控制指令。
车辆的状态信息描述车辆所处的状态,包括车辆所处的档位。如部分自动档的车辆具有停车档。
目标操作对象的操作权限是指部分车辆部件的功能可能受到车辆所处状态的限制。例如,为了保证车辆驾驶过程中的安全,当车辆处在行驶状态时,主驾相关的部分娱乐性质的交互功能将受到限制。
具体地,在一个实例中,若用户发出的语音请求为“播放一个电影”,该语音请求的意图信息为“播放电影”,则判断目标位置为车载系统的前排或后排的用户界面,目标操作对象为用户界面中控制播放视频功能的控件。进一步地,由于车载系统中播放视频的功能可能对正在行驶的车辆造成安全隐患,则在确定控制播放视频功能的控件为目标操作对象时,使用权限识别方法,触发预设权限限制。
在某些示例中,权限限制可以是,当车辆在行驶状态,即车辆未在停车档状态时,前排发出“播放电影”的语音请求,则判断需要开启并播放视频的目标操作对象为前排具有控制播放视频功能的中控显示屏。此时,安全驾驶限制开启,可在生成车辆控制指令前,设置语音消息或用户界面文字弹窗,提醒用户安全驾驶。当车辆处于停车档状态下,则不弹出任何安全警示,生成车辆控制指令。如果通过音区信息,判断发出“播放电影”语音请求的用户位于车辆后排,则无需进行车辆状态的判断,控制后排中控显示屏直接“播放电影”。
如此,可根据车辆的状态信息、目标位置及目标操作对象,确定目标对象的操作权限,并根据权限识别结果生成所述车辆控制指令。使语音交互过程及结果更适应车辆的行驶状态,保障驾驶安全。
请参阅图4,方法还包括:
对语音请求的意图信息和槽位信息进行存储。
处理器用于对语音请求的意图信息和槽位信息进行存储。
具体地,从用户输入语音请求起,经过一系列语音处理过程,到车辆接收到可识别的控制指令,并完成执行动作为止,称为一轮对话。服务器可在一轮对话结束时,存储本轮语音请求的历史轮次中语音请求的意图信息和槽位信息,为下轮语音交互过程提供历史结果依据。
如此,可存储语音请求中的意图信息和槽位信息,以便车辆在下轮执行任务过程中,获取历史轮次中执行的信息,得到更具可靠性的语音交互结果。
本申请的计算机可读存储介质,存储有计算机程序,当计算机程序被一个或多个处理器执行时,实现上述的方法。
在本说明书的描述中,参考术语“上述”、“具体地”、“进一步地”、“可以理解地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (12)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的语音请求;
处理所述语音请求,提取所述语音请求的意图信息和槽位信息,确认根据语义无法直接获取目标位置和/或目标操作对象,其中,所述意图信息包括动作类型,所述槽位信息包括参考点、相对位置信息和/或操作对象;
根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象;
根据所述目标位置和所述目标操作对象生成与所述语音请求对应的车辆控制指令;
将所述车辆控制指令转发至所述车辆以完成所述语音交互。
2.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
对所述槽位信息中的参考点进行归一化处理,以将所述参考点对应至车辆座舱内的绝对位置。
3.根据权利要求2所述的语音交互方法,其特征在于,所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
根据所述绝对位置和所述相对位置信息确定所述目标位置。
4.根据权利要求2所述的语音交互方法,其特征在于,所述方法还包括:
在所述槽位信息中缺失所述参考点的情况下,根据所述语音请求的历史对话信息确认所述参考点。
5.根据权利要求2所述的语音交互方法,其特征在于,所述方法还包括:
在所述槽位信息中缺失所述参考点的情况下,根据所述语音请求的音区信息确认所述参考点。
6.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
根据所述相对位置信息确定候选操作对象。
7.根据权利要求6所述的语音交互方法,所述根据所述意图信息和所述槽位信息确定所述语音请求的目标位置和目标操作对象,包括:
根据所述槽位信息中的操作对象对所述候选操作对象进行第一筛选处理;
根据所述意图信息中操作类型对经过第一筛选处理的所述候选操作对象进行第二筛选处理以得到所述目标操作对象。
8.根据权利要求7所述的语音交互方法,其特征在于,所述方法还包括:
在所述槽位信息中缺失所述操作对象的情况下,根据所述语音请求的音区信息确定所述操作对象。
9.根据权利要求1所述的语音交互方法,其特征在于,所述根据所述目标位置和所述目标操作对象生成与所述语音请求对应的车辆控制指令,包括:
所述车辆的状态信息、所述目标位置和所述目标操作对象,确定对所述目标操作对象的操作权限;
根据所述操作权限生成所述车辆控制指令。
10.根据权利要求1所述的语音交互方法,其特征在于,所述方法还包括:
对所述语音请求的意图信息和槽位信息进行存储。
11.一种服务器,其特征在于,所述服务器包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现权利要求1-10任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被一个或多个处理器执行时,实现如权利要求1-10任意一项所述的方法。
CN202211389565.4A 2022-11-08 2022-11-08 语音交互方法、服务器及计算机可读存储介质 Active CN115457959B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211389565.4A CN115457959B (zh) 2022-11-08 2022-11-08 语音交互方法、服务器及计算机可读存储介质
PCT/CN2023/125464 WO2024099046A1 (zh) 2022-11-08 2023-10-19 语音交互方法、服务器及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211389565.4A CN115457959B (zh) 2022-11-08 2022-11-08 语音交互方法、服务器及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN115457959A CN115457959A (zh) 2022-12-09
CN115457959B true CN115457959B (zh) 2023-02-10

Family

ID=84310489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211389565.4A Active CN115457959B (zh) 2022-11-08 2022-11-08 语音交互方法、服务器及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN115457959B (zh)
WO (1) WO2024099046A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115457959B (zh) * 2022-11-08 2023-02-10 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质
CN116092494B (zh) * 2023-04-07 2023-08-25 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116092495B (zh) * 2023-04-07 2023-08-29 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质
CN111968640A (zh) * 2020-08-17 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN112435660A (zh) * 2019-08-08 2021-03-02 上海博泰悦臻电子设备制造有限公司 车辆控制方法、系统及车辆
CN113226886A (zh) * 2021-03-31 2021-08-06 华为技术有限公司 控制车辆行驶的方法、装置及车辆
CN113362828A (zh) * 2020-03-04 2021-09-07 北京百度网讯科技有限公司 用于识别语音的方法和装置
CN115148212A (zh) * 2022-06-27 2022-10-04 海信电子科技(武汉)有限公司 一种语音交互方法、智能设备及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9798799B2 (en) * 2012-11-15 2017-10-24 Sri International Vehicle personal assistant that interprets spoken natural language input based upon vehicle context
US9747898B2 (en) * 2013-03-15 2017-08-29 Honda Motor Co., Ltd. Interpretation of ambiguous vehicle instructions
CN109493871A (zh) * 2017-09-11 2019-03-19 上海博泰悦臻网络技术服务有限公司 车载系统的多屏语音交互方法及装置、存储介质和车机
CN108520747A (zh) * 2018-03-29 2018-09-11 浙江吉利汽车研究院有限公司 一种具有语音识别功能的车载控制装置
CN110001549A (zh) * 2019-04-17 2019-07-12 百度在线网络技术(北京)有限公司 用于控制车辆的方法和装置
CN110428834A (zh) * 2019-07-31 2019-11-08 北京梧桐车联科技有限责任公司 一种操作车辆部件的方法和装置
CN114999490A (zh) * 2022-08-03 2022-09-02 成都智暄科技有限责任公司 一种智能座舱音频控制系统
CN115064167B (zh) * 2022-08-17 2022-12-13 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115457959B (zh) * 2022-11-08 2023-02-10 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415656A (zh) * 2019-01-04 2020-07-14 上海擎感智能科技有限公司 语音语义识别方法、装置及车辆
CN111508482A (zh) * 2019-01-11 2020-08-07 阿里巴巴集团控股有限公司 语义理解及语音交互方法、装置、设备及存储介质
CN112435660A (zh) * 2019-08-08 2021-03-02 上海博泰悦臻电子设备制造有限公司 车辆控制方法、系统及车辆
CN113362828A (zh) * 2020-03-04 2021-09-07 北京百度网讯科技有限公司 用于识别语音的方法和装置
CN111968640A (zh) * 2020-08-17 2020-11-20 北京小米松果电子有限公司 语音控制方法、装置、电子设备及存储介质
CN113226886A (zh) * 2021-03-31 2021-08-06 华为技术有限公司 控制车辆行驶的方法、装置及车辆
CN115148212A (zh) * 2022-06-27 2022-10-04 海信电子科技(武汉)有限公司 一种语音交互方法、智能设备及系统

Also Published As

Publication number Publication date
CN115457959A (zh) 2022-12-09
WO2024099046A1 (zh) 2024-05-16

Similar Documents

Publication Publication Date Title
CN115457959B (zh) 语音交互方法、服务器及计算机可读存储介质
DE112016004863T5 (de) Parametersammlung und automatische Dialogerzeugung in Dialogsystemen
CN112164401B (zh) 语音交互方法、服务器和计算机可读存储介质
US9196248B2 (en) Voice-interfaced in-vehicle assistance
US7974835B2 (en) Method, system, and apparatus for natural language mixed-initiative dialogue processing
WO2022057152A1 (zh) 语音交互方法、服务器和计算机可读存储介质
CN107024931A (zh) 用于自动驾驶的语音识别系统和方法
EP3164807A1 (en) Systems and methods for speech-based searching of content repositories
CN111883118A (zh) 一种基于个性化语音的车辆控制方法、装置及存储介质
CN114005445A (zh) 信息处理方法、服务器和计算机可读存储介质
US11069351B1 (en) Vehicle voice user interface
CN113723528B (zh) 车载语视融合多模态交互方法及系统、设备、存储介质
CN113239178A (zh) 意图生成方法、服务器、语音控制系统和可读存储介质
CN113421561B (zh) 语音控制方法、语音控制装置、服务器和存储介质
JP2011215742A (ja) 対話システム、対話フローの更新方法およびプログラム
CN111540222A (zh) 基于无人车的智能交互方法、装置及无人车
CN110767219B (zh) 语义更新方法、装置、服务器和存储介质
CN110956967A (zh) 基于声纹识别的车辆控制方法与车辆
CN115457960B (zh) 语音交互方法、服务器及计算机可读存储介质
Löckelt et al. Making sense of partial
US11620994B2 (en) Method for operating and/or controlling a dialog system
CN116483305A (zh) 智能网联汽车数字虚拟人应用系统及其使用方法、车辆
Alvarez et al. The voice user help, a smart vehicle assistant for the elderly
US20060143216A1 (en) Method and system for integrating multimodal interpretations
CN116030811B (zh) 语音交互方法、车辆及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant