CN115019797A - 语音交互方法及服务器 - Google Patents

语音交互方法及服务器 Download PDF

Info

Publication number
CN115019797A
CN115019797A CN202210664733.XA CN202210664733A CN115019797A CN 115019797 A CN115019797 A CN 115019797A CN 202210664733 A CN202210664733 A CN 202210664733A CN 115019797 A CN115019797 A CN 115019797A
Authority
CN
China
Prior art keywords
vehicle
information
voice request
network state
local execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210664733.XA
Other languages
English (en)
Inventor
孙文平
赵群
丁鹏傑
魏子兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202210664733.XA priority Critical patent/CN115019797A/zh
Publication of CN115019797A publication Critical patent/CN115019797A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种语音交互方法及服务器。该语音交互方法,包括:在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求;查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果;对所述本地执行结果进行实体抽取获得实体信息;根据所述实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果;根据所述上下文信息补全结果输出执行指令下发至所述车辆。本申请提供的方案,能够维持语音交互的持续性,降低用户操作负担,提高行车安全性和提高用户体验。

Description

语音交互方法及服务器
技术领域
本申请涉及语音交互技术领域,尤其涉及一种语音交互方法及服务器。
背景技术
语音交互是基于语音输入的新一代交互模式。随着汽车工业和人机交互技术的不断发展,智能汽车也为用户提供了语音交互功能。
相关技术中,在车辆进入地库、隧道等特殊环境时,会暂时进入无网状态,此时用户通过车辆的车载本地终端可以执行基本语音指令,但当车辆驶出当前环境恢复有网状态时,不能够继承无网状态下的语音指令上下文语义,导致用户需要发出二次语音指令进行澄清以完成语音控制。
但是,需要用户发出二次语音指令进行澄清使得语音交互的持续性受到影响,增加用户操作负担,并且可能分散用户注意力,对行车安全造成影响,也降低了用户体验。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种语音交互方法及服务器,能够维持语音交互的持续性,降低用户操作负担,提高行车安全性和提高用户体验。
本申请第一方面提供一种语音交互方法,包括:
在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求;
查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果;
对所述本地执行结果进行实体抽取获得实体信息;
根据所述实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果;
根据所述上下文信息补全结果输出执行指令下发至所述车辆。
所述车辆在无网状态下执行的历史语音请求对应的本地执行结果按以下方式确定:
车辆在无网状态下接收到历史语音请求后,对所述历史语音请求进行解析得到实体信息;
根据所述历史语音请求和所述实体信息输出历史执行指令对车辆进行控制,得到所述历史语音请求对应的本地执行结果。
所述方法还包括:
由所述车辆将所述本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储,并在切换到联网状态后发送给所述服务器。
所述查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果,包括:
将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的语义继承间隔标识值与间隔标识值阈值进行比较;
根据所述语义继承间隔标识值小于或等于间隔标识值阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
所述查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果,包括:
将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的时间戳与时间戳阈值进行比较;
根据所述时间戳小于或等于时间戳阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
所述根据所述实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果,包括:
将所述实体信息作为所述当前语音请求对应的实体信息,获得包含实体信息的上下文信息补全结果。
所述对所述本地执行结果进行实体抽取获得实体信息,包括:
对所述本地执行结果进行实体抽取,获得动作实体信息和车控实体信息。
本申请第二方面提供一种服务器,包括:
请求接收模块,用于在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求;
结果查询模块,用于查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果;
信息抽取模块,用于对所述结果查询模块查询到的本地执行结果进行实体抽取获得实体信息;
信息补全模块,用于根据所述信息抽取模块获得的实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果;
指令输出模块,用于根据所述信息补全模块获得的上下文信息补全结果输出执行指令下发至所述车辆。
本申请第三方面提供一种服务器,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
本申请第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
本申请提供的技术方案可以包括以下有益效果:
本申请方案,在车辆的网络状态从无网状态切换到联网状态后,如果接收车辆转发的当前语音请求,先查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果,然后对所述本地执行结果进行实体抽取获得实体信息,则可以根据所述实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果。获得上下文信息补全结果后,就使得当前语音请求与历史语音请求的语义具有前后关联性和持续性,实现语义的继承,即使当前语音请求不完整或模糊,也可以根据历史语音请求对应的本地执行结果补全语义信息,使得准确分析出用户当前语音请求的含义,实现对车辆的控件的精准控制操作。因此,本申请方案能够维持语音交互的持续性,降低用户操作负担,提高行车安全性和提高用户体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
通过结合附图对本申请示例性实施方式进行更详细地描述,本申请的上述以及其它目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
图1是本申请示出的语音交互方法的流程示意图;
图2是本申请另一示出的语音交互方法的流程示意图;
图3是本申请另一示出的语音交互方法的流程示意图;
图4是本申请示出的语音交互方法的应用框架示意图;
图5是本申请示出的服务器的结构示意图;
图6是本申请另一示出的服务器的结构示意图;
图7是本申请示出的语音交互系统的结构示意图;
图8是本申请语音交互系统中的车辆的结构示意图;
图9是本申请示出的另一服务器的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施方式。虽然附图中显示了本申请的实施方式,然而应该理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本申请更加透彻和完整,并且能够将本申请的范围完整地传达给本领域的技术人员。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以下结合附图详细描述本申请的技术方案。
图1是本申请示出的语音交互方法的流程示意图。该方法可以应用于服务器。
参见图1,该方法包括:
S101、在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求。
车辆在进入地库、隧道等特殊环境时会暂时进入无网状态,但当车辆驶出特殊环境后则恢复联网状态。在切换到联网状态后,服务器可以接收车辆转发的当前语音请求。
S102、查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果。
在S102中可以将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的语义继承间隔标识值与间隔标识值阈值进行比较;根据语义继承间隔标识值小于或等于间隔标识值阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
在S102中可以将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的时间戳与时间戳阈值进行比较;根据时间戳小于或等于时间戳阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
其中,车辆在无网状态下执行的历史语音请求对应的本地执行结果可以按以下方式确定:
车辆在无网状态下接收到历史语音请求后,对历史语音请求进行解析得到实体信息;根据历史语音请求和实体信息输出历史执行指令对车辆进行控制,得到历史语音请求对应的本地执行结果。
车辆可以将本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储,并在切换到联网状态后发送给服务器。
S103、对本地执行结果进行实体抽取获得实体信息。
其中,在查询到对应的本地执行结果后,可以对本地执行结果进行实体抽取,获得动作实体信息和车控实体信息。例如,“关闭”为动作实体信息,“车窗”为车控实体信息。
S104、根据实体信息对当前语音请求进行信息继承,获得上下文信息补全结果。
其中,可以将实体信息作为当前语音请求对应的实体信息,获得包含实体信息的上下文信息补全结果。例如,当前语音请求为“打开”,此时信息不全,但根据对本地执行结果进行实体抽取获得的实体信息为“车窗”,将“车窗”作为当前语音请求对应的实体信息,可以得到上下文信息补全结果“打开车窗”。
S105、根据上下文信息补全结果输出执行指令下发至车辆。
例如,根据上下文信息补全结果为“打开车窗”则输出执行指令“打开车窗”下发至车辆,由车辆根据接收的执行指令,将车辆的车窗打开。
本申请方案,在车辆的网络状态从无网状态切换到联网状态后,如果接收车辆转发的当前语音请求,先查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果,然后对本地执行结果进行实体抽取获得实体信息,则可以根据实体信息对当前语音请求进行信息继承,获得上下文信息补全结果。获得上下文信息补全结果后,就使得当前语音请求与历史语音请求的语义具有前后关联性和持续性,实现语义的继承,即使当前语音请求不完整或模糊,也可以根据历史语音请求对应的本地执行结果补全语义信息,使得准确分析出用户当前语音请求的含义,实现对车辆的控件的精准控制操作。因此,本申请方案能够维持语音交互的持续性,降低用户操作负担,提高行车安全性和提高用户体验。
图2是本申请示出的语音交互方法中车辆端的离线处理流程示意图。该方法可以应用于车辆端。
参见图2,该方法包括:
S201、车辆在无网状态下接收到历史语音请求后,对历史语音请求进行解析得到实体信息。
在无网状态下,车辆接收到用户的历史语音请求后,可以调用内部模块对用户的历史语音请求进行解析,得到对应的实体信息,包括动作实体信息和车控实体信息等。
S202、根据历史语音请求和实体信息输出历史执行指令对车辆进行控制,得到历史语音请求对应的本地执行结果。
其中,根据解析得到的实体信息和历史语音请求,可以输出历史执行指令,根据历史执行指令对车辆的控件进行控制,得到历史语音请求对应的本地执行结果。
S203、车辆将本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储,并在切换到联网状态后发送给服务器。
车辆可以将本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储。当网络从无网状态恢复到联网状态时,车辆可以将本地执行结果发送给服务器进行存储。
本申请根据历史语音请求和实体信息输出历史执行指令对车辆进行控制,得到历史语音请求对应的本地执行结果并存储,在切换到联网状态后再发送给服务器,这样可以为后续服务器识别历史上下文语义和实现语义继承提供参考。
图3是本申请另一实施例示出的语音交互方法的流程示意图,图4是本申请示出的语音交互方法的应用框架示意图。图3和图4所示的流程中,通过服务器与车辆(包括本地终端和车机端)之间的交互过程介绍本申请的方案。
相关技术中,车辆在进入地库、隧道等特殊环境时会暂时进入无网状态,此时用户通过车辆的车载本地终端可以执行基本语音指令,但当车辆驶出特殊环境恢复联网状态时,相关技术方案不能够继承用户无网状态下的语音指令上下文语义。例如用户在隧道无网状态下发出“关闭车窗”语音请求,出隧道时发出“打开”语音请求,此时由于没有继承无网状态下的上下文语义,识别不了该“打开”语音请求的具体语义,无法帮用户打开车窗。相关技术一般是需询问用户对哪个控件进行何种操作,需要用户发出二次语音请求进行澄清确认。当用户二次发出“打开车窗”的完整语音请求后,才能确定用户的真实意图,从而完成车辆控制。然而,用户期望从无网状态切换到联网状态这个过程中对各种控件的操作是可持续的,二次澄清和需用户重新下发请求的过程不仅耗时,还会让用户的整体体验感降低。另外这种切换环境一般是在地库出口、隧道出入口等位置,此时车辆的行驶环境复杂,需用户再次语音澄清可能会分散用户注意力,对用户行车安全造成影响。
本申请的方案,提供了一种网络状态切换时带语义继承的持续语音交互解决方案,满足了用户在隧道、地库等特殊环境出现网络状态切换情况下与车机端进行持续语音交互的需求。例如,车辆在隧道行驶时用户通过语音指令操作车窗、车灯、空调等控件,在车辆驶出隧道时用户可以进行二轮模糊操作,也能够实现用户对车灯等控件的带语义持续操控。例如,在隧道中执行用户发出的“打开车灯”语音请求,在出隧道时接收到用户发出的“关闭”语音请求,此时根据语义继承可以确定用户的语音请求为“关闭车灯”,因此不需用户再次澄清语音请求,直接执行“关闭车灯”。
参见图3和图4,该方法包括:
S301、车辆的本地终端在无网状态下接收语音请求,对语音请求进行解析得到实体信息,根据语音请求和实体信息输出执行指令发送给车辆的车机端。
需说明的是,如果从服务器在联网状态下接收到语音请求的阶段来考虑,此时车辆在无网状态下接收的语音请求相对而言可以称为历史语音请求,执行指令可以为历史执行指令。
车辆的本地终端接收用户的语音请求,可以经过本地终端的内部模块处理后下发执行指令到车机端。
在无网状态下,本地终端接收到用户的语音请求后,会调用内部模块中的各个子模块对用户的语音请求进行解析。其中子模块中通常可以包括本地ASR(Automatic SpeechRecognition,自动语音识别)模块、本地NLU(Natural Language Understanding,自然语言理解)模块等。本申请可以利用意图识别技术。所谓意图识别,就是让搜索引擎能够识别出与用户输入的查询最相关的信息。用户输入的语音请求可以作为一个query(请求),利用各个子模块,能够处理获得出用户的query所对应的domain(领域)和意图。对于用户输入的query,根据统计分类模型可以确定出每一个意图的概率,最终给出查询的意图。例如,在隧道中接收到用户发出的“关闭车窗”语音请求,本地终端会识别出该语音请求的domain为control(控制),意图为window_close(关闭车窗),也就是说此时可以识别出动作实体信息为“关闭”,车控实体信息为“车窗”。因此,本地终端向车机端发送domain为control,意图为window_close的执行指令。
S302、车辆的车机端接收执行指令,根据执行指令对车辆的控件进行控制,向本地终端返回语音请求对应的本地执行结果。
车机端接收到执行指令,执行相应的动作,对车辆的控件进行控制,并将最终执行结果也即本地执行结果回传到本地终端。
由于本地终端能够执行的执行指令受限,所以车机端最终的本地执行结果会回传到本地终端。其中,本地执行结果通常可以包括执行分类、最终执行结果等信息,这样可以为之后的指令执行提供参考。
S303、车辆的本地终端接收车机端返回的本地执行结果,将本地执行结果进行动态存储,并在切换到联网状态后发送给服务器。
车辆的本地终端可以将本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储。当网络从无网状态恢复到联网状态时,车辆的本地终端将本地执行结果发送给服务器的数据库例如数据存储模块中进行存储。
本申请中,本地终端可以将本地执行结果设置语义继承间隔标识值或者设置时间戳进行动态存储,或者是同时设置语义继承间隔标识值和时间戳进行动态存储。
本地终端首先可以依据用户历史上下文语义继承query的统计特征,动态设定历史query存储策略,也即通过当前用户的语义继承的历史统计特征,得到包含动态query数量和动态语义继承执行最大间隔的动态存储策略。其中,该策略中包括用户动态query数量与动态query最大间隔。之后,根据动态存储策略,确定本地终端的历史执行队列长度,在每次间隔轮询中根据轮询时间设定,实时调整队列中每个query的间隔标识进行动态存储并作为服务器的上下文语义输入依据。其中,可以整合多轮本地执行结果后发送给服务器。该策略需将本地执行结果设置语义继承间隔标识值或者设置时间戳,本申请利用动态间隔标识和时间戳可以进行双重判断,满足不同用户的精准继承需求。
S304、服务器在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求。
需说明的是,如果从车辆在联网状态下接收到用户的语音请求的阶段来考虑,此时服务器接收的车辆转发的语音请求可以称为当前语音请求。
S305、查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果。
服务器在联网状态下接收到用户的当前语音请求后,首先可以判断在持续监听的数据库例如数据存储模块中是否存在车辆发送的历史语音请求对应的本地执行结果,如果存在,则从数据库中查询历史语音请求对应的本地执行结果。
其中,可以将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的语义继承间隔标识值与间隔标识值阈值进行比较;根据语义继承间隔标识值小于或等于间隔标识值阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
其中,可以将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的时间戳与时间戳阈值进行比较;根据时间戳小于或等于时间戳阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
例如,服务器将本地执行结果的结果队列中各query的间隔标识值(语义继承间隔标识值)与间隔标识值阈值进行比较,将本地执行结果的结果队列中各query的时间戳与和时间戳阈值进行比较。其中间隔标识值阈值可以是动态存储统计特征中得到的用户语义继承执行最大间隔值。若满足条件,也就是若本地执行结果的语义继承间隔标识值小于或等于间隔标识值阈值,和/或,本地执行结果的时间戳小于或等于时间戳阈值,则将查询到的本地执行结果作为拟进行实体抽取的本地执行结果,后续可以进行实体抽取和query预处理。
例如动态特征统计得到的用户语义继承执行最大间隔标识值为5,本地执行结果的结果队列中有一个历史query信息,语义继承间隔标识值为3是小于用户语义继承执行最大间隔标识值5,且时间戳小于或等于时间戳阈值,则服务器可以将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
S306、对查询到的本地执行结果进行实体抽取获得实体信息。
在S306中,对查询到的本地执行结果进行实体抽取,获得动作实体信息和车控实体信息。例如,识别出对应的车控实体信息,同时去除用户口语化等原因携带的一些无意义词语。例如对于“帮我打开车窗”,最终识别出动作实体信息为“打开”,车控实体信息为“车窗”。
S307、服务器根据实体信息对当前语音请求进行信息继承,获得上下文信息补全结果。
服务器将上一步骤中得到的实体信息与用户当前语音请求也即当前的query进行组合,调用其中的信息继承模块进行融合处理也即进行缺失信息补充。例如,可以利用模板、知识库和神经网络模型等组合方法对query进行缺失信息补充,得到上下文信息补全结果。
以车辆进出隧道情况举例,在隧道无网状态下执行用户发出的“温度调高”语音请求,出隧道后切换到联网状态下接收到用户发出的“调低”语音请求。当车辆驶出隧道时,服务器从数据库查询到历史语音请求对应的本地执行结果,且满足用户语义继承最大间隔条件,因此可以进一步进行实体抽取获得对应的“温度”和“调高”的历史上下文实体信息,也即历史动作实体信息为“调高”,历史车控实体信息为“温度”。
假设联网状态下接收到的当前语音请求为“调低”,则可以将当前语音请求“调低”与获得的实体信息也即历史上下文实体信息传入信息继承模块。信息继承模块可以进行上下文信息补全,得到完整的上下文信息补全结果“温度调低”。
S308、根据上下文信息补全结果输出执行指令下发至车辆。
根据上一步骤得到的完整的上下文信息补全结果为“温度调低”,可以最终输出执行指令“温度调低”。
服务器输出执行指令下发至车辆,由车辆的车机端根据执行指令完成对车辆的具体控件的操作。例如,执行指令为“温度调低”,则车机端将车辆的空调控件的温度调低。
综上所描述,本申请提出的方案,能够使用户在网络环境切换时,实现带语义继承的连续语音交互,更准确地帮助用户在复杂环境中实现对车辆控件的精准操作。同时,本申请也实现车辆的本地终端与服务器的紧密融合。本申请依据用户历史特征实现动态的本地执行结果的存储与更新,得到更符合用户语义习惯的端与云的融合结果。本申请在满足用户语义继承执行最大间隔的同时,扩展服务器上下文,并进一步利用信息继承模块来补全用户语义,不仅实现了用户在网络环境切换时带语义继承的连续语音交互需求,使得用户在进出隧道地库等复杂环境中可以对车辆控件进行连续精准操作,还避免了相关技术方案中需要用户进行二次澄清所带来的分散用户注意力的问题,提高了用户体验,也提高了用户的行车安全性。
与前述应用功能实现方法相对应,本申请还提供了一种服务器及系统。
图5是本申请示出的服务器的结构示意图。
参见图5,本申请提供的服务器50,包括:请求接收模块51、结果查询模块52、信息抽取模块53、信息补全模块54、指令输出模块55。
请求接收模块51,用于在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求。车辆在进入地库、隧道等特殊环境时会暂时进入无网状态,但当车辆驶出特殊环境后则恢复联网状态。在切换到联网状态后,请求接收模块51可以接收车辆转发的当前语音请求。
结果查询模块52,用于查询服务器50中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果。其中,车辆在无网状态下执行的历史语音请求对应的本地执行结果可以按以下方式确定:车辆在无网状态下接收到历史语音请求后,对历史语音请求进行解析得到实体信息;根据历史语音请求和实体信息输出历史执行指令对车辆进行控制,得到历史语音请求对应的本地执行结果。车辆可以将本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储,并在切换到联网状态后发送给服务器50。
信息抽取模块53,用于对结果查询模块52查询到的本地执行结果进行实体抽取获得实体信息。
信息补全模块54,用于根据信息抽取模块53获得的实体信息对当前语音请求进行信息继承,获得上下文信息补全结果。
指令输出模块55,用于根据信息补全模块54获得的上下文信息补全结果输出执行指令下发至车辆。例如,指令输出模块55根据上下文信息补全结果为“打开车窗”则输出执行指令“打开车窗”下发至车辆,由车辆根据接收的执行指令,将车辆的车窗打开。
图6是本申请另一示出的服务器的结构示意图。
参见图6,本申请提供的服务器50,包括:请求接收模块51、结果查询模块52、信息抽取模块53、信息补全模块54、指令输出模块55。结果查询模块52包括第一查询子模块521、第二查询子模块522。
其中,请求接收模块51、结果查询模块52、信息抽取模块53、信息补全模块54、指令输出模块55的功能可参见图5中的描述。
第一查询子模块521,用于将服务器50中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的语义继承间隔标识值与间隔标识值阈值进行比较;根据语义继承间隔标识值小于或等于间隔标识值阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
第二查询子模块522,用于将服务器50中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的时间戳与时间戳阈值进行比较;根据时间戳小于或等于时间戳阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
信息补全模块54,可以将实体信息作为当前语音请求对应的实体信息,获得包含实体信息的上下文信息补全结果。例如,当前语音请求为“打开”,此时信息不全,但根据对本地执行结果进行实体抽取获得的实体信息为“车窗”,将“车窗”作为当前语音请求对应的实体信息,可以得到上下文信息补全结果“打开车窗”
信息抽取模块53,可以对本地执行结果进行实体抽取,获得动作实体信息和车控实体信息。
本申请的服务器,在车辆的网络状态从无网状态切换到联网状态后,如果接收车辆转发的当前语音请求,先查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果,然后对本地执行结果进行实体抽取获得实体信息,则可以根据实体信息对当前语音请求进行信息继承,获得上下文信息补全结果。获得上下文信息补全结果后,就使得当前语音请求与历史语音请求的语义具有前后关联性和持续性,实现语义的继承,即使当前语音请求不完整或模糊,也可以根据历史语音请求对应的本地执行结果补全语义信息,使得准确分析出用户当前语音请求的含义,实现对车辆的控件的精准控制操作。因此,本申请方案能够维持语音交互的持续性,降低用户操作负担,提高行车安全性和提高用户体验。
图7是本申请示出的语音交互系统的结构示意图。
参见图7,本申请提供的语音交互系统70,包括:服务器71、车辆72。
服务器71,用于在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求;查询服务器71中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果;对本地执行结果进行实体抽取获得实体信息;根据实体信息对当前语音请求进行信息继承,获得上下文信息补全结果;根据上下文信息补全结果输出执行指令下发至车辆。
车辆72,用于在车辆的网络状态从无网状态切换到联网状态后,向服务器71转发当前语音请求。
其中,服务器71的结构和功能可以参见图5或图6中服务器50的描述。
图8是本申请语音交互系统中的车辆的结构示意图。
参见图8,本申请提供的车辆72包括:信息解析模块721、执行结果模块722、存储设置模块723。
信息解析模块721,用于车辆72在无网状态下接收到历史语音请求后,对历史语音请求进行解析得到实体信息。
执行结果模块722,用于根据历史语音请求和实体信息输出历史执行指令对车辆72进行控制,得到历史语音请求对应的本地执行结果。
存储设置模块723,用于将本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储,并在切换到联网状态后发送给服务器。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不再做详细阐述说明。
图9是本申请示出的另一服务器的结构示意图。
参见图9,服务器1000包括存储器1010和处理器1020。
处理器1020可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器1010可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)和永久存储装置。其中,ROM可以存储处理器1020或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器1010可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(例如DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器1010可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等)、磁性软盘等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器1010上存储有可执行代码,当可执行代码被处理器1020处理时,可以使处理器1020执行上文述及的方法中的部分或全部。
此外,根据本申请的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本申请的上述方法中部分或全部步骤的计算机程序代码指令。
或者,本申请还可以实施为一种计算机可读存储介质(或非暂时性机器可读存储介质或机器可读存储介质),其上存储有可执行代码(或计算机程序或计算机指令代码),当可执行代码(或计算机程序或计算机指令代码)被电子设备(或服务器等)的处理器执行时,使处理器执行根据本申请的上述方法的各个步骤的部分或全部。
以上已经描述了本申请的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种语音交互方法,其特征在于,包括:
在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求;
查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果;
对所述本地执行结果进行实体抽取获得实体信息;
根据所述实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果;
根据所述上下文信息补全结果输出执行指令下发至所述车辆。
2.根据权利要求1所述的方法,其特征在于,所述车辆在无网状态下执行的历史语音请求对应的本地执行结果按以下方式确定:
车辆在无网状态下接收到历史语音请求后,对所述历史语音请求进行解析得到实体信息;
根据所述历史语音请求和所述实体信息输出历史执行指令对车辆进行控制,得到所述历史语音请求对应的本地执行结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
由所述车辆将所述本地执行结果设置语义继承间隔标识值和/或时间戳进行动态存储,并在切换到联网状态后发送给所述服务器。
4.根据权利要求1所述的方法,其特征在于,所述查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果,包括:
将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的语义继承间隔标识值与间隔标识值阈值进行比较;
根据所述语义继承间隔标识值小于或等于间隔标识值阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
5.根据权利要求1所述的方法,其特征在于,所述查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果,包括:
将服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果的时间戳与时间戳阈值进行比较;
根据所述时间戳小于或等于时间戳阈值,将查询到的本地执行结果作为拟进行实体抽取的本地执行结果。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果,包括:
将所述实体信息作为所述当前语音请求对应的实体信息,获得包含实体信息的上下文信息补全结果。
7.根据权利要求1至5任一项所述的方法,其特征在于,所述对所述本地执行结果进行实体抽取获得实体信息,包括:
对所述本地执行结果进行实体抽取,获得动作实体信息和车控实体信息。
8.一种服务器,其特征在于,包括:
请求接收模块,用于在车辆的网络状态从无网状态切换到联网状态后,接收车辆转发的当前语音请求;
结果查询模块,用于查询服务器中存储的车辆在无网状态下执行的历史语音请求对应的本地执行结果;
信息抽取模块,用于对所述结果查询模块查询到的本地执行结果进行实体抽取获得实体信息;
信息补全模块,用于根据所述信息抽取模块获得的实体信息对所述当前语音请求进行信息继承,获得上下文信息补全结果;
指令输出模块,用于根据所述信息补全模块获得的上下文信息补全结果输出执行指令下发至所述车辆。
9.一种服务器,其特征在于,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。
CN202210664733.XA 2022-06-14 2022-06-14 语音交互方法及服务器 Pending CN115019797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210664733.XA CN115019797A (zh) 2022-06-14 2022-06-14 语音交互方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210664733.XA CN115019797A (zh) 2022-06-14 2022-06-14 语音交互方法及服务器

Publications (1)

Publication Number Publication Date
CN115019797A true CN115019797A (zh) 2022-09-06

Family

ID=83075311

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210664733.XA Pending CN115019797A (zh) 2022-06-14 2022-06-14 语音交互方法及服务器

Country Status (1)

Country Link
CN (1) CN115019797A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028700A (zh) * 2023-03-29 2023-04-28 小米汽车科技有限公司 车辆的离线查询方法及其装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116028700A (zh) * 2023-03-29 2023-04-28 小米汽车科技有限公司 车辆的离线查询方法及其装置
CN116028700B (zh) * 2023-03-29 2023-07-04 小米汽车科技有限公司 车辆的离线查询方法及其装置

Similar Documents

Publication Publication Date Title
US20190318208A1 (en) Image identification system and image identification method
US20220358921A1 (en) Speech processing for multiple inputs
US11069351B1 (en) Vehicle voice user interface
CN115019797A (zh) 语音交互方法及服务器
CN110262413A (zh) 智能家居控制方法、控制装置、车载终端及可读存储介质
CN111540222A (zh) 基于无人车的智能交互方法、装置及无人车
CN110570867A (zh) 一种本地新增语料的语音处理方法及系统
US20240046931A1 (en) Voice interaction method and apparatus
EP3782856B1 (en) Device control apparatus, and control method for controlling devices
US11507752B1 (en) Evaluating natural language processing components
CN115686215A (zh) 一种车用多模态交互方法、装置及车辆
CN111883126A (zh) 数据处理方式的选择方法、装置及电子设备
Lee et al. A real-time intelligent speed optimization planner using reinforcement learning
CN114724544B (zh) 语音芯片、语音识别方法、装置、设备及智能汽车
CN117454885B (zh) 一种语音文本的意图识别方法、装置及存储介质
US20220355664A1 (en) Vehicle having voice recognition system and method of controlling the same
CN115132198B (zh) 数据处理方法、装置、电子设备、程序产品及介质
US11869490B1 (en) Model configuration
US20230386455A1 (en) Dialogue System and Method for Controlling the Same
WO2023115588A1 (zh) 语音交互的方法、装置和存储介质
CN118298824A (zh) 一种基于现有车辆的语音控制方法、装置、设备及车辆
CN117095683A (zh) 一种语音识别处理方法、系统、装置和存储介质
CN117854505A (zh) 语音数据处理系统、移动终端和服务器
CN115171686A (zh) 一种工程化实现自然语义处理的方法、装置、设备及系统
CN115376500A (zh) 一种智能语音识别处理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination