CN116092494B - 语音交互方法、服务器和计算机可读存储介质 - Google Patents

语音交互方法、服务器和计算机可读存储介质 Download PDF

Info

Publication number
CN116092494B
CN116092494B CN202310374365.XA CN202310374365A CN116092494B CN 116092494 B CN116092494 B CN 116092494B CN 202310374365 A CN202310374365 A CN 202310374365A CN 116092494 B CN116092494 B CN 116092494B
Authority
CN
China
Prior art keywords
information
slot
sub
voice request
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310374365.XA
Other languages
English (en)
Other versions
CN116092494A (zh
Inventor
丁鹏傑
赵群
宁洪珂
樊骏锋
朱麒宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202310374365.XA priority Critical patent/CN116092494B/zh
Publication of CN116092494A publication Critical patent/CN116092494A/zh
Application granted granted Critical
Publication of CN116092494B publication Critical patent/CN116092494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Navigation (AREA)

Abstract

本申请公开了一种语音交互方法,包括:接收车辆转发的语音请求;对语音请求进行槽位识别及应用程序接口预测;基于预设模型,根据语音请求、槽位识别得到的槽位信息和预测到的应用程序接口确定应用程序接口参数填充的填充信息;根据填充信息执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。本申请采用的预设模型,能够直接判断对于当前的应用程序接口,所识别出来的每个槽位,应该作为该应用程序的哪些参数进行填充,而无需多次进行相似度计算,从而加快端到端系统的进行语音交互的整个流程的执行速度,减少语音识别的时延,提高用户的语音交互体验。

Description

语音交互方法、服务器和计算机可读存储介质
技术领域
本发明涉及车载语音技术领域,特别涉及一种语音交互方法、服务器和计算机可读存储介质。
背景技术
目前的对话系统利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签,并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示,根据此状态使用对话策略模块选择合适的对话动作,最后通过自然语言生成模块将对话动作转成自然语言回复。当前,已有相关技术提供端到端的语音识别方案,该方案通常包括有槽位识别、应用程序接口预测以及参数填充三个核心部分,其中,在参数填充过程中,需要将每个槽位信息与预测得到的每个应用程序接口的参数一一通过相似度模型进行判断,最终确定符合条件的参数,如此将会较为显著地增加语音识别的时延,难以满足车载场景下的车辆控制的时效性需求。
发明内容
本申请提供了一种语音交互方法、服务器及计算机可读存储介质。
本申请的语音交互方法,包括:
接收车辆转发的语音请求;
对所述语音请求进行槽位识别及应用程序接口预测;
基于预设模型,根据所述语音请求、槽位识别得到的槽位信息和预测到的应用程序接口确定应用程序接口参数填充的填充信息,所述填充信息包括目标参数及对应的参数值;
根据所述填充信息执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
如此,本申请的语音交互方法可对语音请求进行槽位识别及应用程序接口的预测,建立预设模型,并预测得到语音请求对应的应用程序接口参数填充的填充信息,对应用程序接口进行参数填充,最终输出执行结果并下发至车辆,完成语音交互。本申请的语音交互方法采用的预设模型,能够直接判断对于当前的应用程序接口,所识别出来的每个槽位,应该作为该应用程序的哪些参数进行填充,而无需多次进行相似度计算,从而加快端到端系统的进行语音交互的整个流程的执行速度,减少语音识别的时延,提高用户的语音交互体验。
所述预设模型通过如下步骤构建:
将所述语音请求和预设字符进行拼接作为文本序列编码得到第一特征向量;
对所述槽位识别得到的槽位信息进行序列标注得到第二特征向量;
根据预测到的应用程序接口得到第三特征向量;
根据所述第一特征向量、所述第二特征向量和所述第三特征向量构建所述预设模型。
如此,可将语音请求与预设字符进行拼接、对槽位信息进行序列标注、以及预测应用程序接口,得到特征向量,并构建预设模型,以便得到应用程序接口参数填充的填充信息,完成参数填充过程。
所述基于预设模型,根据所述语音请求、槽位识别得到的槽位信息和预测到的应用程序接口确定应用程序接口参数填充的填充信息,包括:
基于所述预设模型,根据所述槽位信息确定与所述语音请求的当前信息相对应的第一子填充信息,所述第一子填充信息包括第一子目标参数和与所述第一子目标参数对应的第一子参数值;
基于所述预设模型,根据所述语音请求确定与所述语音请求的缺失信息相对应的第二子填充信息,所述第二子填充信息包括第二子目标参数和与所述第二子目标参数对应的第二子参数值;
根据所述第一子填充信息和所述第二子填充信息确定所述填充信息。
如此,可基于预设模型,根据语音请求中识别到的槽位信息,以及语音请求中未表达完整的缺失信息,确定语音请求的填充信息,以便车载系统能够为用户准确提供相应服务,提升语音交互体验。
所述槽位信息包括槽位值和与所述槽位值相对应的槽位类型,所述基于所述预设模型,根据所述槽位信息确定与所述语音请求的当前信息相对应的第一子填充信息,包括:
基于所述预设模型,根据所述槽位值和对所述槽位类型的序列标注确定所述第一子填充信息。
如此,可基于预设模型,根据对于语音请求进行槽位识别得到槽位值,以及对应的槽位类型序列标注,确定第一子填充信息,使应用程序接口能够据此进行参数填充,以便车载系统能够为用户准确提供相应服务,提升语音交互体验。
所述槽位信息包括多组相对应槽位值和槽位类型,所述基于所述预设模型,根据所述槽位值和对所述槽位类型的序列标注确定所述第一子填充信息,包括:
基于所述预设模型,根据所述槽位值和对所述槽位类型的序列标注确定每组槽位信息相对应的所述第一子填充信息。
如此,可基于预设模型,根据对于语音请求进行槽位识别得到的槽位值,以及对应的槽位类型序列标注,确定每组槽位信息对应的第一子填充信息,使应用程序接口能够据此进行参数填充,以便车载系统能够为用户准确提供相应服务,提升语音交互体验。
所述基于所述预设模型,根据所述语音请求确定与所述语音请求的缺失信息相对应的第二子填充信息,包括:
基于所述预设模型,根据预设的辅助信息确定所述第二子填充信息。
如此,可基于预设模型,根据预设的辅助信息,确定第二子填充信息,以便预测应用程序接口的参数填充值,减少了因用户语音请求缺少部分信息而导致的语音交互过程缺乏流畅性。
所述基于所述预设模型,根据预设的辅助信息确定所述第二子填充信息,包括:
基于所述预设模型,根据所述语音请求的句式信息确定所述语音请求的缺失信息;
根据所述缺失信息,确定所述第二子目标参数和所述第二子参数值。
如此,可基于预设模型,根据语音请求的句式信息,确定语音请求的缺失信息,最终确定第二子目标参数和第二子参数值,即可预测得到语音请求中未提及的应用程序接口的参数填充值,减少了因用户语音请求缺少部分信息而导致的语音交互过程缺乏流畅性。
所述根据所述缺失信息,确定所述第二子目标参数和所述第二子参数值,包括:
根据所述句式信息和所述缺失信息,对所述语音请求进行信息补充以使得补充后的语音请求符合所述句式信息;
对所述补充后的语音请求进行槽位识别处理,得到与所述缺失信息相对应的缺失槽位值和缺失槽位类型;
根据所述缺失槽位值和所述缺失槽位类型,确定所述第二子目标参数和所述第二子参数值。
如此,可根据语音请求的句式信息和缺失信息,补充语音请求的信息使之符合句式要求,并对补充后的语音请求进行槽位识别,确定缺失槽位值及其对应的缺失槽位类型,以得到第二子目标参数和第二子参数值,最终预测得到应用程序接口的参数填充值,以便语音交互的顺利进行。
本申请的服务器,包括处理器和存储器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述的方法。
本申请的计算机可读存储介质,存储由计算机程序,当所述计算机程序被一个或多个处理器执行时,实现上述实施方式任一项所述的语音交互方法。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是相关技术中对话系统的结构示意图;
图2是本申请的端到端架构的对话系统的结构示意图;
图3是本申请的语音交互方法的流程示意图之一;
图4是本申请的语音交互方法的流程示意图之二;
图5是本申请的语音交互方法的模型结构及部分输出结果的示意图;
图6是本申请的语音交互方法的流程示意图之三;
图7是本申请的语音交互方法的流程示意图之四;
图8是本申请的语音交互方法的流程示意图之五;
图9是本申请的语音交互方法的流程示意图之六;
图10是本申请的语音交互方法的流程示意图之七;
图11是本申请的语音交互方法的流程示意图之八。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
请参阅图1,传统的车载语音架构基于传统的模块化策略,在组件之间采用分工实现整个对话流程,例如自然语言理解、状态跟踪、对话策略和自然语言生成等。这些组件要么主要是人工按照规则制作的,要么是在有监督数据集上通过训练模型产生的。每个组件的训练都需要大量的标注数据,然而标注数据往往是很昂贵的,这也限制了系统的拓展性。同时,传统车载语音系统依赖于大量的规则和业务逻辑来保证系统的准确和稳定,也进一步限制了其规模和功能。
从对话的整体处理链路来说,传统的车载语音架构拿到用户输入后,需要先对其进行自然语言理解,即进行领域分类、意图识别和槽位识别,然后在对话管理模块中结合对话的状态和对话策略选择执行满足用户输入要求的应用程序接口(ApplicationProgramming Interface,API),并通过自然语言生成模块返回和用户交互的系统输出。
有鉴于此,请参阅图2,本申请的基于端到端的对话系统包含三个核心的算法模块:槽位识别模块用于识别出用户输入的语音请求中的实体;行动预测(ActionPrediction,AP)模块用来预测用户输入所对应的实现用户当前目标的应用程序接口;参数填充(Argument Filling,AF)模块用来识别用户输入中的实体对应上一步中得到的应用程序接口中的参数。
槽位识别模块用于获取需要在应用程序接口中调用的实体,行动预测模块决定了后续实现用户语音输入所调用的应用程序接口是否是正确的,参数填充模块则进行选择哪些实体用来作为应用程序接口的参数进行执行。
然而,基于端到端架构的对话系统参数填充过程中,需要将每个提取到的槽位信息与预测得到的每个应用程序接口的参数一一通过相似度模型进行判断,最终确定每个槽位信息应当作为应用程序接口的哪些参数进行填充。例如,对于一个语音请求而言,如果通过槽位识别模块识别出了n个槽位,行动预测模块识别出符合条件的应用程序接口有m个对应参数,那么进行参数填充的过程则需要模型执行m×n次,极大增加了应用程序接口预测过程的时延。
基于上述可能遇到的问题,请参阅图3,本发明提供了一种语音交互方法。该语音交互方法包括:
01:接收车辆转发的语音请求;
02:对语音请求进行槽位识别及应用程序接口预测;
03:基于预设模型,根据语音请求、槽位识别得到的槽位信息和预测到的应用程序接口确定应用程序接口参数填充的填充信息;
04:根据填充信息执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
本发明还提供一种服务器。服务器包括处理器和存储器,存储器上存储有计算机程序。处理器用于接收车辆转发的语音请求,以及对语音请求进行槽位识别及应用程序接口预测,以及基于预设模型,根据语音请求、槽位识别得到的槽位信息和预测到的应用程序接口确定应用程序接口参数填充的填充信息,以及根据填充信息执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
首先,对接收到的车辆转发的用户语音请求进行槽位识别,并根据槽位识别过程得到的语句中的实体,对语音请求进行应用程序接口预测。具体而言,可根据槽位识别得到的结果中包含的实体词,通过Action Prediction(AP)模块预测该语音请求所需要的应用程序接口(API)。例如,对用户语音请求“播放歌曲A”进行应用程序接口预测得到的应用程序接口为播放音乐的应用程序接口1。对用户语音请求“导航去目的地A”进行应用程序接口预测得到的应用程序接口为导航的应用程序接口2。
特别地,为了解决槽位识别中每个垂域需要单独设计造成人力成本和数据成本过高的问题,本申请的槽位识别方案采用端到端架构,不区分垂域,不需要垂域内部训练模型。
进一步地,可根据预设模型,结合语音请求的内容、槽位识别得到的槽位信息和预测得到的应用程序接口的结果,确定应用程序接口参数填充的填充信息。其中,本申请的预设模型可结合前述提及的相关信息,直接输出应用程序接口参数填充的填充信息,以用于后续的参数填充,而无需在参数填充过程中,再进行多次计算。填充信息包括目标参数及对应的参数值。例如,对于语音请求“播放周杰伦的稻香”,基于预设模型,得到槽位信息[“周杰伦”——singer]和[“稻香”——song],预测到的应用程序接口为"MusicPlay",其中接口对应的参数包括"artist_name"和"song_name",可确定应用程序接口参数填充的填充信息为MusicPlay(artist_name=“周杰伦”,song_name=“稻香”)。最后,Argument Filling(AF)模块可根据填充信息执行参数填充,即对于上述语音请求能够将识别得到的歌曲和歌手的槽位信息填入相应的应用程序接口的相应参数中,以便车载系统提供相应的音乐播放服务,并将输出执行结果下发至车辆完成语音交互。
可以理解地,在上述语音请求“播放周杰伦的稻香”中,若使用传统基于端到端架构的对话系统进行槽位识别和参数填充,则对于得到的两个槽位信息和两个对应参数,需要相似度模型进行2×2次,共4次判断,才能使参数填充的信息与槽位信息完成对应。并且,由于用户发出语音请求的随机性,语音请求中可能存在更多槽位和可填充的参数,使用相似度模型判断槽位和可填充的参数之间对应关系的过程,极大增加了整个语音识别过程的时延。本申请的预设模型的输出中包含已经确定的应用程序接口参数填充的填充信息,通过模型计算的次数不再随槽位和可填充的参数的个数而增加,而只需要一次计算便可得到应用程序接口参数填充的填充信息,可大大减少模型的预测次数,从而加快端到端系统的进行语音交互的整个流程的执行速度,减少语音识别过程的时延。
本申请的端到端架构可以精简传统对话系统架构的中间模块如自然语言理解模块、对话管理模块、车机指令生成模块、自然语言生成模块等,减少对于不同垂域的多个模型的调用,降低车载系统的延时,提升对于用户指令的响应速度。
综上,本申请的语音交互方法可对语音请求进行槽位识别及应用程序接口的预测,建立预设模型,并预测得到语音请求对应的应用程序接口参数填充的填充信息,以便对应用程序接口进行参数填充,最终输出执行结果并下发至车辆,完成语音交互。本申请的语音交互方法采用的预设模型,能够直接判断对于当前的应用程序接口,所识别出来的每个槽位,应该作为该应用程序的哪些参数进行填充,而无需多次进行相似度计算,从而加快端到端系统的进行语音交互的整个流程的执行速度,减少语音识别的时延,提高用户的语音交互体验。
请参阅图4,步骤03中的预设模型通过如下步骤构建:
05:将语音请求和预设字符进行拼接作为文本序列编码得到第一特征向量;
06:对槽位识别得到的槽位信息进行序列标注得到第二特征向量;
07:根据预测到的应用程序接口得到第三特征向量;
08:根据第一特征向量、第二特征向量和第三特征向量构建预设模型。
处理器用于将语音请求和预设字符进行拼接作为文本序列编码得到第一特征向量,以及对槽位识别得到的槽位信息进行序列标注得到第二特征向量,以及根据预测到的应用程序接口得到第三特征向量,以及根据第一特征向量、第二特征向量和第三特征向量构建预设模型。
具体地,在确定对应用程序接口进行参数填充的填充信息之前,需要构建参数填充的预设模型。构建过程中,存在预设字符,包括用于文本分类的标志字符,例如[CLS]、[SEP]等。将语音请求中的字符按顺序排列,并与预设字符进行拼接,作为文本序列编码,最终得到第一特征向量。例如,语音请求“降低至二十三度”与预设字符进行拼接,得到“[CLS]降低至二十三度[SEP]”。
在某些示例中,例如上述示例中语音请求“降低至二十三度”存在槽位信息不全的情况为了方便后续槽位信息的补全,可使用unused id 作为填充默认值的占位符,占位符的个数最大填充量为8,即:[unused1] [unused2]… [unused8]。8位占位符可以基本满足对于槽位信息补全的需求,占位符的位数可以根据具体的槽位信息补全的需求进行确定。则在上述示例中,如图5所示第一特征向量包括文本分类标志字符、语音请求字符,以及上述8位占位符。
在进行文本序列编码处理后,需对语音请求进行槽位类型标注处理。其中,标注处理的方式的选择与语音请求中包含槽位类型相关。在自然语言理解过程中进行槽位理解时,常见的标注方式为BIO标注方式:B表示该词处于一个槽位的起始位置(Begin), I 表示该词处于一个槽位中间位置(Inside), O 表示该词不属于实体词(Outside),无法提取槽位。
特别地,为了区分不同类型的槽位信息,使用BIO标注方式对槽位进行标注时,需要设置不同槽位类型的标签以示区别。例如,对于语音请求“降低至二十三度”中,“降低”槽位中,可将字符“降”标注为"B-set",字符“驾”标注为"I-set"。同理,“二十三度”槽位中,可将字符“二”标注为"B-value",字符“十”、“三”、“度”均可标注为"I-value"。
此外,需要说明的是,上述第一槽位特征向量中的作为填充默认值的占位符统一视为“不属于实体词”的情况,使用BIO标注方式时均用字符"O"表示。
如图5所示,根据BIO标注方式对槽位信息进行序列标注后,可得到语音请求对应的第二特征向量。
通过槽位识别的结果,可以预测到对应的应用程序接口,即可得到第三特征向量,以便后续得到接口参数的填充信息。如图5所示,上述语音请求“降低至二十三度”的第三特征向量为"AcSet",表达应用程序接口为“空调设置”接口。
最终,可根据得到的第一特征向量、第二特征向量,以及第三特征向量构建预设模型,以便确定需要进行填充的参数。
如此,可将语音请求与预设字符进行拼接、对槽位信息进行序列标注、以及预测应用程序接口,得到特征向量,并构建预设模型,以便得到应用程序接口参数填充的填充信息,完成参数填充过程。
请参阅图6,步骤03包括:
031:基于预设模型,根据槽位信息确定与语音请求的当前信息相对应的第一子填充信息;
032:基于预设模型,根据语音请求确定与语音请求的缺失信息相对应的第二子填充信息;
033:根据第一子填充信息和第二子填充信息确定填充信息。
处理器用于基于预设模型,根据槽位信息确定与语音请求的当前信息相对应的第一子填充信息,以及基于预设模型,根据语音请求确定与语音请求的缺失信息相对应的第二子填充信息,以及根据第一子填充信息和第二子填充信息确定填充信息。
首先,可根据对语音请求进行槽位识别得到的槽位信息,确定与语音请求的当前存在的槽位信息相对应的第一子填充信息。第一子填充信息包括能够从用户语音请求中提取的槽位信息。
语音请求的缺失信息即为用户语音请求中存在的槽位缺少部分信息,包括因语义模糊或语义缺失等缺失信息。基于预设模型,可以根据语音请求中已经识别出的槽位信息,得到语音请求的缺失信息。第二子填充信息可填入预设模型中作为填充默认值的占位符中,补充语音请求中缺失的语义。
最终,可根据第一子填充信息和第二子填充信息,共同确定当前语音请求的填充信息。
在一个示例中,用户语音请求为“怎样到达市中心”,经过预设模型,可识别出槽位信息[“市中心”=destination_name] ,应用程序接口预测得到接口为"NavigationStart",可得到第一子填充信息为[destination_name=“市中心”],即语音请求中包含了导航行程的终点信息。同时,由于用户并未设置导航的起点,则第二子填充信息为[start_location=“当前位置”]。最终确定填充于应用程序接口的填充信息为NavigationStart(destination_name=“市中心”, start_location=“当前位置”)。
如此,可基于预设模型,根据语音请求中识别到的槽位信息,以及语音请求中未表达完整的缺失信息,确定语音请求的填充信息,以便车载系统能够为用户准确提供相应服务,提升语音交互体验。
请参阅图7,槽位信息包括槽位值和与槽位值相对应的槽位类型,步骤031包括:
0311:基于预设模型,根据槽位值和对槽位类型的序列标注确定第一子填充信息。
处理器用于基于预设模型,根据槽位值和对槽位类型的序列标注确定第一子填充信息。
具体地,可根据语音请求的槽位置和对应槽位类型的序列标注结果,确定第一子填充信息。对于自然理解过程中常用的槽位类型标注方式,即BIO标注方式中:B表示该词处于一个槽位的起始位置(Begin), I 表示该词处于一个槽位中间位置(Inside), O 表示该词不属于实体词(Outside),无法提取槽位。则可根据B和I两种槽位类型标注结果,得到对应的槽位信息,包括槽位值和槽位类型的信息,以便确定B和I两种槽位类型标注结果当前槽位对应的第一子填充信息,即[槽位类型=“槽位值”]。
在一个示例中,根据对用户语音请求“降低至二十三度”进行槽位识别,得到的槽位值“降低”和“二十三度”,以及槽位类型对应的序列标注,判断“降低”对应的槽位类型为"set",表示“设置”类型槽位,以及“二十三度”对应的槽位类型为"value",表示“数值”类型槽位。第一子填充信息为[set=“降低”]和[value=“二十三度”]。
如此,可基于预设模型,根据对于语音请求进行槽位识别得到槽位值,以及对应的槽位类型序列标注,确定第一子填充信息,使应用程序接口能够据此进行参数填充,以便车载系统能够为用户准确提供相应服务,提升语音交互体验。
请参阅图8,槽位信息包括多组相对应槽位值和槽位类型,步骤0311包括:
03111:基于预设模型,根据槽位值和对槽位类型的序列标注确定每组槽位信息相对应的第一子填充信息。
处理器用于基于预设模型,根据槽位值和对槽位类型的序列标注确定每组槽位信息相对应的第一子填充信息。
具体地,可根据语音请求的槽位置和对应槽位类型的序列标注结果,确定第一子填充信息。对于自然理解过程中常用的槽位类型标注方式,即BIO标注方式中,同一类型的B和I标注的字符构成一个槽位,则可根据B和I两种槽位类型标注结果以槽位为单位确定每组槽位信息的划分。例如,对于语音请求“降低至二十三度”,可将字符“降”标注为"B-set",字符“低”标注为"I-set",则“降低”为一组槽位。同理,还可将字符“二”标注为"B-value",字符“十”、“三”、“度”均可标注为"I-value",则“二十三度”为另一组槽位。在表示处于一个槽位的起始位置的"B"序列标注对应处,确定当前槽位信息对应的槽位类型并填充,进一步确认第一子填充信息。
在上述示例中,根据对用户语音请求“降低至二十三度”进行槽位识别,得到的槽位值“降低”和“二十三度”,以及槽位类型对应的序列标注,如图5所示,在预设模型中的“降”对应处填入槽位类型为"set",第一子填充信息则确定为[set=“降低”]。相类似地,在预设模型中“二”对应处填入槽位类型为"value",第一子填充信息则确定为[value=“二十三度”]。除“降”和“二”两个槽位起始词外,其他词对应处填入槽位类型序列标注"O"。
如此,可基于预设模型,根据对于语音请求进行槽位识别得到的槽位值,以及对应的槽位类型序列标注,确定每组槽位信息对应的第一子填充信息,使应用程序接口能够据此进行参数填充,以便车载系统能够为用户准确提供相应服务,提升语音交互体验。
请参阅图9,步骤032包括:
0321:基于预设模型,根据预设的辅助信息确定第二子填充信息。
处理器用于基于预设模型,根据预设的辅助信息确定第二子填充信息。
具体地,预设的辅助信息可以是根据语音请求所属领域总结得到的槽位识别优先级等信息,例如,导航领域中存在辅助信息“起点默认是当前位置”等。当用户语音请求存在缺失信息时,可能造成无法识别进而停止语音交互过程等后果,因此需要根据预设的辅助信息,确定应用程序接口对应的第二子填充信息。
在一个示例中,根据对用户语音请求“降低至二十三度”进行槽位识别,得到的槽位值“降低”和“二十三度”。可以判断该语音请求属于车辆控制领域,则预设的辅助信息可以是“车辆控制领域中温度控制默认对应空调”,即可得到第二子填充信息为[device=“空调”]、[function=“温度”]。
如此,可基于预设模型,根据预设的辅助信息,确定第二子填充信息,以便预测应用程序接口的参数填充值,减少了因用户语音请求缺少部分信息而导致的语音交互过程缺乏流畅性。
请参阅图10,步骤0321包括:
03211:基于预设模型,根据语音请求的句式信息确定语音请求的缺失信息;
03212:根据缺失信息,确定第二子目标参数和第二子参数值。
处理器用于基于预设模型,根据语音请求的句式信息确定语音请求的缺失信息,以及根据缺失信息,确定第二子目标参数和第二子参数值。
具体地,句式信息可以是根据用户历史语音记录总结的领域化句式结构特点,能够区分语音请求所属的领域。语音请求的缺失信息即为用户语音请求中存在的槽位缺少部分信息,包括因语义模糊或语义缺失等缺失信息。在对语音请求进行槽位识别得到槽位信息后,可基于预设模型,根据语音请求的句式信息,可以判断语音请求是否存在缺失信息,以及存在哪些缺失信息。例如,对于用户语音请求“降低至二十三度”,预设模型判断应用程序接口为"AcSet",在对应的“空调控制”领域中,其完整句式应为“(空调)(温度)降低至二十三度”,可确定存在语义缺失的问题,且缺失信息包括,“降低”缺失对应操作对象信息“空调”,“二十三度”同样缺失了对应信息“温度”。
确定语音请求的缺失信息后,可根据缺失信息进一步确定第二子填充信息,包括第二子目标参数和第二子参数值。在上述示例中,缺失信息对应的第二子目标参数为车辆控制装置(device)和功能(fuction),分别对应第二子参数值为“空调”和“温度”。第二子目标参数和第二子参数值构成了第二子填充信息,可按顺序填入模型中填充默认值的占位符对应的第二特征向量中。
相反地,若预设模型中不支持对语音请求中缺失信息的判断和补充的过程,则当用户语音请求缺少部分信息时,可能造成无法识别进而停止语音交互过程等后果,影响语音交互过程的流畅性。
如此,可基于预设模型,根据语音请求的句式信息,确定语音请求的缺失信息,最终确定第二子目标参数和第二子参数值,即可预测得到语音请求中未提及的应用程序接口的参数填充值,减少了因用户语音请求缺少部分信息而导致的语音交互过程缺乏流畅性。
请参阅图11,步骤03212包括:
032121:根据句式信息和缺失信息,对语音请求进行信息补充以使得补充后的语音请求符合句式信息;
032122:对补充后的语音请求进行槽位识别处理,得到与缺失信息相对应的缺失槽位值和缺失槽位类型;
032123:根据缺失槽位值和缺失槽位类型,确定第二子目标参数和第二子参数值。
处理器用于根据句式信息和缺失信息,对语音请求进行信息补充以使得补充后的语音请求符合句式信息,以及对补充后的语音请求进行槽位识别处理,得到与缺失信息相对应的缺失槽位值和缺失槽位类型,以及根据缺失槽位值和缺失槽位类型,确定第二子目标参数和第二子参数值。
具体地,在得到用户语音请求对应的句式信息和缺失信息后,可根据缺失信息对语音请求进行信息补充,最终得到符合相应句式信息的语音请求。例如,对于存在部分信息缺失的用户语音请求“降低至二十三度”,缺失信息包括“降低”缺失对应操作对象信息“空调”,“二十三度”同样缺失了对应信息“温度”。确定语音请求的缺失信息后,可将缺失信息填入语音请求中,对语音请求进行信息补充,得到符合相应句式信息的语音请求“(空调)(温度)降低至二十三度”。
进一步地,可对进行信息补充后的语音请求再次进行槽位识别处理,得到缺失信息对应的缺失槽位值和缺失槽位类型。对于补全后的语音请求“(空调)(温度)降低至二十三度”,与缺失信息相对应的缺失槽位值为“空调”和“温度”,缺失槽位值分别对应槽位类型为"device"和"fuction"。
最终,根据缺失槽位值及其对应的槽位类型,确定第二子填充信息,包括第二子目标参数和第二子参数值。在上述示例中,缺失信息对应的第二子目标参数为车辆控制装置(device)和功能(fuction),分别对应第二子参数值为“空调”和“温度”。最终,第二子目标参数和第二子参数值可构成第二子填充信息 [device=“空调”]、[function=“温度”]。对语音请求进行缺失槽位值和缺失槽位类型的判断,并确定需要补充的第二子填充信息,可以避免因用户语音请求不符合句式信息而造成的语音交互过程意外中断等问题。
如此,可根据语音请求的句式信息和缺失信息,补充语音请求的信息使之符合句式要求,并对补充后的语音请求进行槽位识别,确定缺失槽位值及其对应的缺失槽位类型,以得到第二子目标参数和第二子参数值,最终预测得到应用程序接口的参数填充值,以便语音交互的顺利进行。
本申请的计算机可读存储介质,存储有计算机程序,当计算机程序被一个或多个处理器执行时,实现上述的方法。
在本说明书的描述中,参考术语“上述”、“具体地”、“特别地”、“进一步地”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多用于实现特定逻辑功能或过程的步骤的可执行请求的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本申请的实施方式,可以理解的是,上述实施方式是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施方式进行变化、修改、替换和变型。

Claims (9)

1.一种语音交互方法,其特征在于,包括:
接收车辆转发的语音请求;
对所述语音请求进行槽位识别及应用程序接口预测;
基于预设模型,根据槽位识别得到的槽位信息确定与所述语音请求的当前信息相对应的第一子填充信息,所述第一子填充信息包括第一子目标参数和与所述第一子目标参数对应的第一子参数值;
基于所述预设模型,根据所述语音请求确定与所述语音请求的缺失信息相对应的第二子填充信息,所述第二子填充信息包括第二子目标参数和与所述第二子目标参数对应的第二子参数值;
根据所述第一子填充信息和所述第二子填充信息确定填充信息,所述填充信息包括目标参数及对应的参数值;
根据所述填充信息执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
2.根据权利要求1所述的语音交互方法,其特征在于,所述预设模型通过如下步骤构建:
将所述语音请求和预设字符进行拼接作为文本序列编码得到第一特征向量,所述预设字符包括用于文本分类的标志字符;
对所述槽位识别得到的槽位信息进行序列标注得到第二特征向量;
根据预测到的应用程序接口得到第三特征向量;
根据所述第一特征向量、所述第二特征向量和所述第三特征向量构建所述预设模型。
3.根据权利要求1所述的语音交互方法,其特征在于,所述槽位信息包括槽位值和与所述槽位值相对应的槽位类型,所述基于所述预设模型,根据所述槽位信息确定与所述语音请求的当前信息相对应的第一子填充信息,包括:
基于所述预设模型,根据所述槽位值和对所述槽位类型的序列标注确定所述第一子填充信息。
4.根据权利要求3所述的语音交互方法,其特征在于,所述槽位信息包括多组相对应槽位值和槽位类型,所述基于所述预设模型,根据所述槽位值和对所述槽位类型的序列标注确定所述第一子填充信息,包括:
基于所述预设模型,根据所述槽位值和对所述槽位类型的序列标注确定每组槽位信息相对应的所述第一子填充信息。
5.根据权利要求1所述的语音交互方法,其特征在于,所述基于所述预设模型,根据所述语音请求确定与所述语音请求的缺失信息相对应的第二子填充信息,包括:
基于所述预设模型,根据预设的辅助信息确定所述第二子填充信息。
6.根据权利要求5所述的语音交互方法,其特征在于,所述基于所述预设模型,根据预设的辅助信息确定所述第二子填充信息,包括:
基于所述预设模型,根据所述语音请求的句式信息确定所述语音请求的缺失信息;
根据所述缺失信息,确定所述第二子目标参数和所述第二子参数值。
7.根据权利要求6所述的语音交互方法,其特征在于,所述根据所述缺失信息,确定所述第二子目标参数和所述第二子参数值,包括:
根据所述句式信息和所述缺失信息,对所述语音请求进行信息补充以使得补充后的语音请求符合所述句式信息;
对所述补充后的语音请求进行槽位识别处理,得到与所述缺失信息相对应的缺失槽位值和缺失槽位类型;
根据所述缺失槽位值和所述缺失槽位类型,确定所述第二子目标参数和所述第二子参数值。
8.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-7任一项所述的语音交互方法。
9.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-7任一项所述的语音交互方法。
CN202310374365.XA 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质 Active CN116092494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310374365.XA CN116092494B (zh) 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310374365.XA CN116092494B (zh) 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN116092494A CN116092494A (zh) 2023-05-09
CN116092494B true CN116092494B (zh) 2023-08-25

Family

ID=86206758

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310374365.XA Active CN116092494B (zh) 2023-04-07 2023-04-07 语音交互方法、服务器和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116092494B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
US10446147B1 (en) * 2017-06-27 2019-10-15 Amazon Technologies, Inc. Contextual voice user interface
WO2022057152A1 (zh) * 2020-09-18 2022-03-24 广州橙行智动汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
WO2022135419A1 (zh) * 2020-12-21 2022-06-30 广州橙行智动汽车科技有限公司 一种语音交互的方法和装置
CN115064167A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115064166A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 车辆语音交互方法、服务器和存储介质
CN115083413A (zh) * 2022-08-17 2022-09-20 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115457959A (zh) * 2022-11-08 2022-12-09 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130196293A1 (en) * 2012-01-31 2013-08-01 Michael C. Wood Phonic learning using a mobile computing device having motion sensing capabilities
US20210392642A1 (en) * 2018-10-31 2021-12-16 Zhicong Kong Ventilated, stackable, pressing molds

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
US10446147B1 (en) * 2017-06-27 2019-10-15 Amazon Technologies, Inc. Contextual voice user interface
WO2022057152A1 (zh) * 2020-09-18 2022-03-24 广州橙行智动汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
WO2022135419A1 (zh) * 2020-12-21 2022-06-30 广州橙行智动汽车科技有限公司 一种语音交互的方法和装置
CN115064167A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115064166A (zh) * 2022-08-17 2022-09-16 广州小鹏汽车科技有限公司 车辆语音交互方法、服务器和存储介质
CN115083413A (zh) * 2022-08-17 2022-09-20 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质
CN115457959A (zh) * 2022-11-08 2022-12-09 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于学习算法的机器人触觉识别和语音交互的研究;黄昆霞;中国优秀硕士学位论文全文数据库;第40-54页 *

Also Published As

Publication number Publication date
CN116092494A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN115064166B (zh) 车辆语音交互方法、服务器和存储介质
CN115064167B (zh) 语音交互方法、服务器和存储介质
CN115083413B (zh) 语音交互方法、服务器和存储介质
US7548847B2 (en) System for automatically annotating training data for a natural language understanding system
CN111626049B (zh) 多媒体信息的标题修正方法、装置、电子设备及存储介质
CN115455166A (zh) 一种智能对话系统异常检测的方法、装置、介质及设备
CN112017628B (zh) 韵律预测模型训练方法、韵律预测方法及相关装置
CN114969504A (zh) 结合用户兴趣分析的大数据处理方法及系统
WO2024067471A1 (zh) 语音识别方法、服务器、语音识别系统和可读存储介质
CN116092494B (zh) 语音交互方法、服务器和计算机可读存储介质
CN115064168B (zh) 语音交互方法、服务器和存储介质
CN116740210A (zh) 一种图像内容再生成方法、装置、设备及存储介质
CN115543809A (zh) 自动驾驶功能的测试场景库构建方法及装置
CN116092493B (zh) 语音交互方法、服务器和计算机可读存储介质
CN115454554A (zh) 文本描述的生成方法、装置、终端及存储介质
CN116110397B (zh) 语音交互方法、服务器和计算机可读存储介质
CN116092495B (zh) 语音交互方法、服务器和计算机可读存储介质
CN109254774A (zh) 软件开发系统中代码的管理方法和装置
CN114064449A (zh) 一种仿真测试报告生成方法、装置、电子设备及存储介质
CN116665667A (zh) 语音交互方法、装置、服务器和计算机可读存储介质
CN114492377A (zh) 一种事件角色的标注方法和计算机设备、计算机可读存储介质
CN116110396B (zh) 语音交互方法、服务器和计算机可读存储介质
CN115238673A (zh) 文案的生成方法、装置、电子设备及存储介质
CN116153313A (zh) 语音交互方法、服务器和计算机可读存储介质
CN117476004A (zh) 语音交互方法、服务器和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant