CN115064166B - 车辆语音交互方法、服务器和存储介质 - Google Patents

车辆语音交互方法、服务器和存储介质 Download PDF

Info

Publication number
CN115064166B
CN115064166B CN202210985475.5A CN202210985475A CN115064166B CN 115064166 B CN115064166 B CN 115064166B CN 202210985475 A CN202210985475 A CN 202210985475A CN 115064166 B CN115064166 B CN 115064166B
Authority
CN
China
Prior art keywords
application program
program interface
slot
vehicle
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210985475.5A
Other languages
English (en)
Other versions
CN115064166A (zh
Inventor
丁鹏傑
赵群
宁洪珂
樊骏锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202210985475.5A priority Critical patent/CN115064166B/zh
Publication of CN115064166A publication Critical patent/CN115064166A/zh
Application granted granted Critical
Publication of CN115064166B publication Critical patent/CN115064166B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0638Interactive procedures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Remote Sensing (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • Mechanical Engineering (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种车辆语音交互方法、服务器和存储介质。该车辆语音交互方法包括:接收车辆转发的用户语音请求,对语音请求进行槽位识别;对语音请求进行应用程序接口预测;根据槽位识别的结果和预测到的应用程序接口,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。本发明的车辆语音交互方法及车辆采用端到端架构可以降低车载系统的延时,提升对于用户指令的响应速度,同时,融入了用户语音请求的槽位识别结果和预测到的应用程序接口的额外特征,可以有效地提升应用程序接口参数填充任务的精度,满足车辆控制需求。

Description

车辆语音交互方法、服务器和存储介质
技术领域
本发明涉及语音交互技术领域,特别涉及一种车辆语音交互方法、服务器和存储介质。
背景技术
目前的对话系统利用自然语言生成模块将用户的语句解析成为机器可理解的语义标签,并通过对话状态跟踪模块维护一个内部的对话状态作为整个对话历史的紧凑表示,根据此状态使用对话策略模块选择合适的对话动作,最后通过自然语言生成模块将对话动作转成自然语言回复。由于车载场景下车辆控制的需求具有很强的时效性,同时,车辆所用硬件自身的算力与开发人员离线训练模型所使用的硬件算力存在差异,导致车载环境下的语音交互对于时延有很高的要求,采用对话系统难以满足车载场景下的车辆控制需求。
发明内容
本发明实施方式提供一种车辆语音交互方法、服务器和存储介质。
本发明实施方式提供一种车辆语音交互方法。所述车辆语音交互方法包括:接收车辆转发的用户语音请求,对所述语音请求进行槽位识别;对所述语音请求进行应用程序接口预测;根据所述槽位识别的结果和预测到的应用程序接口,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
如此,本发明的车辆语音交互方法及车辆采用端到端架构可以降低车载系统的延时,提升对于用户指令的响应速度,同时,融入了用户语音请求的槽位识别结果和预测到的应用程序接口的额外特征,可以有效地提升应用程序接口参数填充任务的精度,满足车辆控制需求。
所述根据所述槽位识别的结果和预测到的应用程序接口,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,包括:根据所述用户语音请求、所述槽位识别的结果、所述预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
如此,本发明可以根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,直接输出执行结果下发至车辆完成语音交互,可以降低车载系统的延时,提升对于用户指令的响应速度。
所述根据所述用户语音请求、所述槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数,包括:将所述用户语音请求和所述槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;将所述槽位识别的结果的槽位类型映射为第一身份标识,并将所述第一身份标识转换为第二特征向量;将所述预测到的应用程序接口类型映射为第二身份标识,并将所述第二身份标识转换为第三特征向量;将所述预测到的应用程序接口的参数映射为第三身份标识,并将所述第三身份标识转换为第四特征向量;利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数。
如此,本发明聚焦于端到端架构的槽位填充模型,提出了一种融入了额外特征的槽位填充方案,相比较目前的只运用槽位和API参数进行判断的方法,本发明融入了用户槽位识别结果的槽位类型、应用程序接口类型和应用程序接口的参数等额外特征,可以显著提升槽位填充任务的准确度,进而提升应用程序接口参数填充任务的精度。
所述利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数,包括:在所述槽位识别的结果包括多个所述槽位取值的情况下,利用所述槽位填充模型依次对每个所述槽位取值对应的所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数。
如此,本发明的车辆语音交互方法可以在槽位识别的结果中的槽位取值为多个的情况下,能够利用槽位填充模型依次对不同的槽位取值对应的第一特征向量与第二特征向量、第三特征向量和第四特征向量进行处理得到目标参数,保证应用程序接口参数填充任务的精度。
所述利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数,包括:在所述预测到的应用程序接口包括多个参数的情况下,利用所述槽位填充模型依次对所述预测到的应用程序接口每个参数对应的第四特征向量、所述第一特征向量、所述第二特征向量和所述第三特征向量进行处理以确定所述目标参数。
如此,本发明的车辆语音交互方法可以在预测到的应用程序接口包括多个参数的情况下,能够利用槽位填充模型根据不同的参数对应的第四特征向量与该参数对应的第一特征向量、第二特征向量和第三特征向量处理得到应用程序接口的目标参数,保证应用程序接口参数填充任务的精度。
所述在所述预测到的应用程序接口包括多个参数的情况下,利用所述槽位填充模型依次对所述预测到的应用程序接口每个参数对应的第四特征向量、所述第一特征向量、所述第二特征向量和所述第三特征向量进行处理以确定所述目标参数,包括:在所述槽位填充模型的处理结果为预设值的情况下,确定当次处理对应的所述预测到的应用程序接口的参数为所述目标参数。
如此,在槽位填充模型的处理结果为预设值的情况下,确定当次处理对应的预测到的应用程序接口的参数为目标参数,保证应用程序接口参数填充任务的精度。
所述将所述槽位识别的结果的槽位类型映射为第一身份标识,并将所述第一身份标识转换为第二特征向量包括:根据编码身份信息将所述槽位类型映射为所述第一身份标识;通过嵌入矩阵将所述第一身份标识转换为所述第二特征向量;所述将所述预测到的应用程序接口类型映射为第二身份标识,并将所述第二身份标识转换为第三特征向量包括:根据所述编码身份信息将所述预测到的应用程序接口类型映射为所述第二身份标识;通过所述嵌入矩阵将所述第二身份标识转换为所述第三特征向量。
如此,本发明的车辆语音交互方法可以根据编码身份信息将槽位类型映射为第一身份标识,将预测到的应用程序接口类型映射为第二身份标识,并分别通过额外嵌入矩阵得到第二特征向量和第三特征向量。
所述根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,包括:执行将所述槽位识别的结果的槽位取值填充到所述预测到的应用程序接口对应的所述目标参数的操作,输出执行结果下发至车辆完成语音交互。
如此,本发明通过执行将槽位识别的结果的槽位取值准确地填充到预测到的应用程序接口对应的目标参数的操作,输出执行结果下发至车辆完成语音交互。
本发明还提供一种服务器。所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现上述实施方式任一项所述的车辆语音交互方法。
如此,本发明的服务器应用上述车辆语音交互方法采用端到端架构可以降低车载系统的延时,提升对于用户指令的响应速度,同时,融入了用户语音请求的槽位识别结果和预测到的应用程序接口的额外特征,可以有效地提升应用程序接口参数填充任务的精度,满足车辆控制需求。
本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当所述计算机程序被一个或多个处理器执行时,实现上述实施方式任一项所述的车辆语音交互方法。
如此,本发明的存储介质应用上述车辆语音交互方法采用端到端架构可以降低车载系统的延时,提升对于用户指令的响应速度,同时,融入了用户语音请求的槽位识别结果和预测到的应用程序接口的额外特征,可以有效地提升应用程序接口参数填充任务的精度,满足车辆控制需求。
本发明实施方式的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点可以从结合下面附图对实施方式的描述中将变得明显和容易理解,其中:
图1是目前的对话系统的结构示意图;
图2是本发明的端到端架构的对话系统的结构示意图;
图3是本发明的车辆语音交互方法的流程示意图之一;
图4是本发明的车辆语音交互方法的流程示意图之二;
图5是本发明的车辆语音交互方法的流程示意图之三;
图6是本发明的车辆语音交互方法的槽位填充模型的结构示意图;
图7是本发明的车辆语音交互方法的流程示意图之四;
图8是本发明的车辆语音交互方法的流程示意图之五。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中,相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明的实施方式,而不能理解为对本发明的实施方式的限制。
请参阅图1,传统的车载语音架构基于传统的模块化策略,在组件之间采用分工实现整个对话流程,例如自然语言理解、状态跟踪、对话策略和自然语言生成等。这些组件要么主要是人工按照规则制作的,要么是在有监督数据集上通过训练模型产生的。每个组件的训练都需要大量的标注数据,然而标注数据往往是很昂贵的,这也限制了系统的拓展性。同时,传统车载语音系统依赖于大量的规则和业务逻辑来保证系统的准确和稳定,也进一步限制了其规模和功能。
从对话的整体处理链路来说,传统的车载语音架构拿到用户输入后,需要先对其进行自然语言理解,即进行领域分类、意图识别和槽位识别,然后在对话管理模块中结合对话的状态和对话策略选择执行满足用户输入要求的应用程序接口(ApplicationProgramming Interface,API),并通过自然语言生成模块返回和用户交互的系统输出。
有鉴于此,请参阅图2,本发明的基于端到端的对话系统包含三个核心的算法模块:命名实体识别(Named Entity Recognition,NER)模块用于识别出用户输入的语音请求中的实体;行动预测(Action Prediction,AP)模块部分用来预测用户输入所对应的实现用户当前目标的应用程序接口;参数填充(Argument Filling,AF)模块部分用来识别用户输入中的实体对应上一步中得到的应用程序接口中的参数。
命名实体识别部分用于获取需要在应用程序接口中调用的实体,行动预测部分决定了后续实现用户语音输入所调用的应用程序接口是否是正确的,参数填充部分则进行选择哪些实体用来作为应用程序接口的参数进行执行。
具体地,请参阅图3,本发明提供了一种车辆语音交互方法。该车辆语音交互方法包括:
01:接收车辆转发的用户语音请求,对用户语音请求进行槽位识别;
02:对用户语音请求进行应用程序接口预测;
03:根据槽位识别的结果和预测到的应用程序接口,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
本发明还提供一种服务器。服务器包括处理器和存储器,存储器上存储有计算机程序。处理器用于接收车辆转发的用户语音请求,对用户语音请求进行槽位识别;对用户语音请求进行应用程序接口预测;根据槽位识别的结果和预测到的应用程序接口,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
首先,接收车辆转发的用户语音请求,对用户语音请求进行槽位识别。以当前用户输入的语音请求为“明天温度多少”为例,服务器端可以接收到车辆转发的用户语音请求为“明天温度多少”。
然后,对该用户语音请求“明天温度多少”进行槽位识别可以得到槽位识别的结果。槽位识别的结果包括用户语音请求中覆盖所有垂域的天气、地点等实体的信息。
以槽位识别的结果为天气实体的信息为例,例如,对用户语音请求“明天温度多少”进行识别可以得到的槽位信息包括[“明天”——日期(Date)],即槽位信息包括槽位取值和槽位类型,其中“明天”为槽位取值,日期(Date)为槽位类型。可以理解地,用户语音请求往往蕴含了大量信息,可以作为应用程序接口类型和槽位信息的补充。而槽位类型对于参数的填充也是至关重要的信息,因为槽位类型和应用程序接口参数常常是固定的映射关系,比如“Date”槽位类型,大概率可以填充到某些应用程序接口的时间或日期参数上,而对于其他类型的参数,如“温度”,槽位填充到这个参数的概率很小。因此槽位类型往往作为一个强特征存在,会大大影响应用程序接口参数填充的任务的精度。也即是,本发明的车辆语音交互方法融入了当前用户输入的用户语音请求、槽位识别的槽位类型的额外特征可以有效地提升应用程序接口参数填充任务的精度。
以槽位识别的结果为地点实体的信息为例,对用户语音请求“导航到中关村”进行识别可以得到的槽位信息为[“中关村”——地名(Place)],其中“中关村”为槽位取值,地名(Place)为槽位类型。
也即是,本发明采用的架构为端到端架构,不区分垂域,不需要垂域内部训练模型,降低了各个垂域需要单独设计而所需投入的大量人力成本和数据成本。
接着,对用户语音请求进行应用程序接口预测。例如,对用户语音请求“明天温度多少”进行应用程序接口预测得到的应用程序接口为温度查询的应用程序接口1。对用户语音请求“导航去中关村”进行应用程序接口预测得到的应用程序接口为导航的应用程序接口2。
最后,根据槽位识别的结果和预测到的应用程序接口,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
本发明的端到端架构可以精简传统对话系统架构的中间模块如自然语言理解模块、对话管理模块、车机指令生成模块、自然语言生成模块等,减少对于不同垂域的多个模型的调用,降低车载系统的延时,提升对于用户指令的响应速度。
如此,本发明的车辆语音交互方法及车辆采用端到端架构可以降低车载系统的延时,提升对于用户指令的响应速度,同时,融入了用户语音请求的槽位识别结果和预测到的应用程序接口的额外特征,可以有效地提升应用程序接口参数填充任务的精度,满足车辆控制需求。
更具体地,请参阅图4,步骤03包括:
031:根据用户语音请求、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;
032:根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
处理器用于根据用户语音请求、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
例如,根据用户语音请求“明天温度多少”,槽位识别的结果为:[“明天”——日期(Date)],应用程序接口1的参数包括“位置”和“时间”2个参数,对应的应用程序接口类型为“温度查询(Temperature Check)”类型,进而判断得到槽位识别的结果中的“明天”需要填充到应用程序接口1中的目标参数为“时间”,将槽位识别的结果中的“明天”填充到温度查询的应用程序接口1后可以相应地执行查询请求得到明天的温度,从而完成语音交互。
又例如,用户语音请求为“导航去中关村”,槽位识别的结果:[“中关村”——地名(Place)],应用程序接口2的参数包括“出发地”和“目的地”2个参数,对应的应用程序接口类型为“导航”类型,进而判断得到槽位识别的结果中的“中关村”需要填充到应用程序接口2中的目标参数为“目的地”,则将槽位识别的结果中的“中关村”填充到导航的应用程序接口2后可以相应地执行导航至中关村的导航任务,从而完成语音交互。
如此,本发明可以根据槽位识别的结果和目标参数,选择预测到的应用程序接口执行应用程序接口参数填充,直接输出执行结果下发至车辆完成语音交互,可以降低车载系统的延时,提升对于用户指令的响应速度。
详细地,请参阅图5,步骤031包括:
0311:将用户语音请求和槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;
0312:将槽位识别的结果的槽位类型映射为第一身份标识,并将第一身份标识转换为第二特征向量;
0313:将预测到的应用程序接口类型映射为第二身份标识,并将第二身份标识转换为第三特征向量;
0314:将预测到的应用程序接口的参数映射为第三身份标识,并将第三身份标识转换为第四特征向量;
0315:利用槽位填充模型对第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。
处理器用于将用户语音请求和槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;将槽位识别的结果的槽位类型映射为第一身份标识,并将第一身份标识转换为第二特征向量;将预测到的应用程序接口类型映射为第二身份标识,并将第二身份标识转换为第三特征向量;将预测到的应用程序接口的参数映射为第三身份标识,并将第三身份标识转换为第四特征向量;利用槽位填充模型对第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。
请结合图6,首先,将用户输入的用户语音请求和槽位识别的结果的槽位取值通过拼接的方式作为文本序列进行编码得到第一特征向量“Query[SEP]slot value”。例如,对用户语音请求“明天温度多少”进行槽位识别可以得到的槽位识别的结果为[“明天”——日期(Date)],即,槽位识别的结果包括槽位取值和槽位类型,其中“明天”为槽位取值,日期(Date)为槽位类型。即,本发明通过词嵌入矩阵对用户语音请求和槽位取值拼接可以得到第一特征向量为“[CLS]明天温度多少[SEP]明天[SEP]”。
然后,构建一个槽位类型映射和一个API类型映射,如图6所示,本发明对槽位类型及API类型进行映射的嵌入矩阵为额外嵌入矩阵。本发明通过额外嵌入矩阵将槽位识别的结果的槽位类型映射为第一身份标识slot-type,并将第一身份标识slot-type转换为第二特征向量;将预测到的应用程序接口类型映射为第二身份标识api-type,并将第二身份标识api-type转换为第三特征向量;将预测到的应用程序接口的参数映射为第三身份标识agrument-type,并将第三身份标识agrument-type转换为第四特征向量。其中,第二特征向量、第三特征向量和第四特征向量作为额外特征向量(Extra Eembeddings)。
最后,利用槽位填充模型对第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。如图6中所示,经过槽位填充模型可以输出得到参数填充逻辑(argument filing logits),即可以根据该参数填充逻辑确定目标参数。
可以理解地,本发明的槽位填充模型是预先构建及训练好的槽位填充模型,可以确定目标应用程序接口中槽位填充的目标参数,从而提升后续槽位填充任务的精度。
具体的槽位填充模型的结构如图6所示,槽位填充模型整体架构基于双向编码器表示(Bidirectional Encoder Representations from Transformers,BERT)模型,槽位填充模型的输入为第一特征向量“Query [SEP] slot value”,并将上述的三个额外特征向量作为额外特征融入槽位填充模型,即,槽位填充模型的建模方式融合了额外特征的语义相似度判别任务,经过槽位填充模型输出参数填充逻辑,从而实现应用程序接口参数填充任务。
如此,本发明聚焦于端到端架构的槽位填充模型,提出了一种融入了额外特征的槽位填充方案,相比较目前的只运用槽位取值和应用程序接口参数进行判断的方法,本发明融入了用户槽位识别结果的槽位类型、应用程序接口类型和应用程序接口的参数等额外特征,可以显著提升槽位填充任务的准确度,进而提升应用程序接口参数填充任务的精度。
其中,步骤0315包括:
0315:在槽位识别的结果包括多个槽位取值的情况下,利用槽位填充模型依次对每个槽位取值对应的第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。
处理器用于在槽位识别的结果包括多个槽位取值的情况下,利用槽位填充模型依次对每个槽位取值对应的第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。
在槽位识别的结果中的槽位取值为多个的情况,包括槽位取值为2个或2个以上的情况。
例如,用户语音请求为“目的地的天气怎么样”,根据命名实体识别技术对该用户语音请求进行槽位识别得到槽位信息中的槽位取值有2个,分别为[“目的地”——地址(Place)]和[“天气”——温度(Temperature)]。
然后,利用槽位填充模型依次对上述两个槽位取值对应的第一特征向量、第二特征向量、第三特征向量和第四特征向量进行处理以确定目标参数。
如此,本发明的车辆语音交互方法可以在槽位识别的结果中的槽位取值为多个的情况下,能够利用槽位填充模型依次对不同的槽位取值对应的第一特征向量与第二特征向量、第三特征向量和第四特征向量进行处理得到目标参数,保证应用程序接口参数填充任务的精度。
另外,步骤0315还包括:
03151:在预测到的应用程序接口包括多个参数的情况下,利用槽位填充模型依次对预测到的应用程序接口每个参数对应的第四特征向量、第一特征向量、第二特征向量和第三特征向量进行处理以确定目标参数。
处理器用于在预测到的应用程序接口包括多个参数的情况下,利用槽位填充模型依次对预测到的应用程序接口每个参数对应的第四特征向量、第一特征向量、第二特征向量和第三特征向量进行处理以确定目标参数。
预测到的应用程序接口包括多个参数的情况,例如,用户语音请求为“播放周杰伦的歌”,则识别得到的槽位信息为[“周杰伦”-歌手(singer)],对该用户语音请求进行预测得到为音乐类型的应用程序接口,且具有2个应用程序接口的参数,2个应用程序接口的参数分别为[歌手名]和[歌曲名]。
此时,可以利用槽位填充模型依次将上述预测到的应用程序接口的2个参数对应的第四特征向量与第一特征向量、第二特征向量和第三特征向量输入槽位填充模型进行处理以确定目标参数。具体地,将[歌手名]对应的第四特征向量与该用户语音请求“播放周杰伦的歌”和槽位取值“周杰伦”拼接后得到的第一特征向量、槽位类型“歌手”对应的第二特征向量和预测得到的应用程序接口类型“音乐类型”对应的第三特征向量输入至槽位填充模型进行处理,然后,将[歌曲名]对应的第四特征向量与该用户语音请求“播放周杰伦的歌”和槽位取值“周杰伦”拼接后得到的第一特征向量、槽位类型“歌手”对应的第二特征向量和预测得到的应用程序接口类型“音乐类型”对应的第三特征向量输入至槽位填充模型进行处理。根据处理结果,可得到目标参数为[歌手名],即在槽位填充时“周杰伦”应当填充到目标应用程序接口中[歌手名]对应的位置。
如此,本发明的车辆语音交互方法可以在预测到的应用程序接口包括多个参数的情况下,能够利用槽位填充模型根据不同的参数对应的第四特征向量与该参数对应的第一特征向量、第二特征向量和第三特征向量处理得到应用程序接口的目标参数,保证应用程序接口参数填充任务的精度。
进一步地,步骤03151包括:
031511:在槽位填充模型的处理结果为预设值的情况下,确定当次处理对应的预测到的应用程序接口的参数为目标参数。
处理器用于在槽位填充模型的处理结果为预设值的情况下,确定当次处理对应的预测到的应用程序接口的参数为目标参数。
可以理解地,槽位填充模型输出为槽位取值对应的槽位是否能够填充至当次处理对应的应用程序接口的参数取决于槽位填充模型的处理结果是否为预设值。
预设值为1,即若槽位填充模型的处理结果为1,则表示能填充,即确定当次处理对应的预测到的应用程序接口的参数为目标参数。若槽位填充模型的处理结果为0,则表示不能填充,则确定当次处理对应的预测到的应用程序接口的参数不是目标参数。
如此,在槽位填充模型的处理结果为预设值的情况下,确定当次处理对应的预测到的应用程序接口的参数为目标参数,保证应用程序接口参数填充任务的精度。
更具体地,请参阅图7,步骤0312包括:
03121:根据编码身份信息将槽位类型映射为第一身份标识;
03122:通过嵌入矩阵将第一身份标识转换为第二特征向量;
请参阅图8,步骤0313包括:
03131:根据编码身份信息将预测到的应用程序接口类型映射为第二身份标识;
03132:通过嵌入矩阵将第二身份标识转换为第三特征向量。
处理器用于根据编码身份信息将槽位类型映射为第一身份标识;通过嵌入矩阵将第一身份标识转换为第二特征向量;根据编码身份信息将预测到的应用程序接口类型映射为第二身份标识;通过嵌入矩阵将第二身份标识转换为第三特征向量。
编码身份信息指的是能够区分槽位类型及API类型的编码信息。
根据编码身份信息将识别的槽位结果中的槽位类型(上述例子中的“Date”)映射为第一身份标识slot-type,且本发明在槽位填充模型的嵌入层增加了1个新的嵌入矩阵将第一身份标识slot-type转换为第二特征向量。
根据编码身份信息将识别的槽位结果中的API类型(上述例子中的“TemperatureCheck”)映射为第二身份标识api-type,且本发明在BERT模型的嵌入层增加了1个新的嵌入矩阵将第二身份标识api-type转换为第三特征向量。
如此,本发明的车辆语音交互方法可以根据编码身份信息将槽位类型映射为第一身份标识,将预测到的应用程序接口类型映射为第二身份标识,并分别通过额外嵌入矩阵得到第二特征向量和第三特征向量。
此外,步骤032包括:
0321:执行将槽位识别的结果的槽位取值填充到预测到的应用程序接口对应的目标参数的操作,输出执行结果下发至车辆完成语音交互。
处理器用于执行将槽位识别的结果的槽位取值填充到预测到的应用程序接口对应的目标参数的操作,输出执行结果下发至车辆完成语音交互。
例如,对于前文所述的用户语音请求“播放周杰伦的歌”,槽位识别的结果的槽位取值为“周杰伦”,预测到的应用程序接口对应的目标参数为[歌手名],则可以将槽位识别的结果的槽位取值为“周杰伦”填充到预测到的应用程序接口对应的目标参数[歌手名]中,输出执行结果为播放周杰伦的单曲,并将该执行结果下发至车辆完成语音交互。
如此,本发明通过执行将槽位识别的结果的槽位取值准确地填充到预测到的应用程序接口对应的目标参数的操作,输出执行结果下发至车辆完成语音交互。
本发明还提供一种包含有计算机程序的非易失性计算机可读存储介质。当计算机程序被一个或多个处理器执行时,实现上述任意实施例所述的车辆语音交互方法。
例如,计算机程序被处理器执行时实现以下车辆语音交互方法的步骤:
01:接收车辆转发的用户语音请求,对所述语音请求进行槽位识别;
02:对所述语音请求进行应用程序接口预测;
03:根据所述槽位识别的结果和预测到的应用程序接口,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
可以理解,计算机程序包括计算机程序代码。计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、以及软件分发介质等。
本发明的计算机可读存储介质应用上述车辆语音交互方法采用端到端架构可以降低车载系统的延时,提升对于用户指令的响应速度,同时,融入了用户语音请求的槽位识别结果和预测到的应用程序接口的额外特征,可以有效地提升应用程序接口参数填充任务的精度,满足车辆控制需求。

Claims (9)

1.一种车辆语音交互方法,其特征在于,包括:
接收车辆转发的用户语音请求,对所述语音请求进行槽位识别;
对所述语音请求进行应用程序接口预测;
根据所述用户语音请求、槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数;
根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互。
2.根据权利要求1所述的车辆语音交互方法,其特征在于,所述根据所述用户语音请求、所述槽位识别的结果、预测到的应用程序接口和预测到的应用程序接口类型确定槽位填充的目标参数,包括:
将所述用户语音请求和所述槽位识别的结果的槽位取值拼接作为文本序列进行编码得到第一特征向量;
将所述槽位识别的结果的槽位类型映射为第一身份标识,并将所述第一身份标识转换为第二特征向量;
将所述预测到的应用程序接口类型映射为第二身份标识,并将所述第二身份标识转换为第三特征向量;
将所述预测到的应用程序接口的参数映射为第三身份标识,并将所述第三身份标识转换为第四特征向量;
利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数。
3.根据权利要求2所述的车辆语音交互方法,其特征在于,所述利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数,包括:
在所述槽位识别的结果包括多个所述槽位取值的情况下,利用所述槽位填充模型依次对每个所述槽位取值对应的所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数。
4.根据权利要求2所述的车辆语音交互方法,其特征在于,所述利用槽位填充模型对所述第一特征向量、所述第二特征向量、所述第三特征向量和所述第四特征向量进行处理以确定所述目标参数,包括:
在所述预测到的应用程序接口包括多个参数的情况下,利用所述槽位填充模型依次对所述预测到的应用程序接口每个参数对应的第四特征向量、所述第一特征向量、所述第二特征向量和所述第三特征向量进行处理以确定所述目标参数。
5.根据权利要求4所述的车辆语音交互方法,其特征在于,所述在所述预测到的应用程序接口包括多个参数的情况下,利用所述槽位填充模型依次对所述预测到的应用程序接口每个参数对应的第四特征向量、所述第一特征向量、所述第二特征向量和所述第三特征向量进行处理以确定所述目标参数,包括:
在所述槽位填充模型的处理结果为预设值的情况下,确定当次处理对应的所述预测到的应用程序接口的参数为所述目标参数。
6.根据权利要求2所述的车辆语音交互方法,其特征在于,所述将所述槽位识别的结果的槽位类型映射为第一身份标识,并将所述第一身份标识转换为第二特征向量包括:
根据编码身份信息将所述槽位类型映射为所述第一身份标识;
通过嵌入矩阵将所述第一身份标识转换为所述第二特征向量;
所述将所述预测到的应用程序接口类型映射为第二身份标识,并将所述第二身份标识转换为第三特征向量包括:
根据所述编码身份信息将所述预测到的应用程序接口类型映射为所述第二身份标识;
通过所述嵌入矩阵将所述第二身份标识转换为所述第三特征向量。
7.根据权利要求1所述的车辆语音交互方法,其特征在于,所述根据所述槽位识别的结果和所述目标参数,选择所述预测到的应用程序接口执行应用程序接口参数填充,输出执行结果下发至车辆完成语音交互,包括:
执行将所述槽位识别的结果的槽位取值填充到所述预测到的应用程序接口对应的所述目标参数的操作,输出执行结果下发至车辆完成语音交互。
8.一种服务器,其特征在于,所述服务器包括处理器和存储器,所述存储器上存储有计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1-7任一项所述的车辆语音交互方法。
9.一种包含有计算机程序的非易失性计算机可读存储介质,其特征在于,当所述计算机程序被一个或多个处理器执行时,实现权利要求1-7任一项所述的车辆语音交互方法。
CN202210985475.5A 2022-08-17 2022-08-17 车辆语音交互方法、服务器和存储介质 Active CN115064166B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210985475.5A CN115064166B (zh) 2022-08-17 2022-08-17 车辆语音交互方法、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210985475.5A CN115064166B (zh) 2022-08-17 2022-08-17 车辆语音交互方法、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN115064166A CN115064166A (zh) 2022-09-16
CN115064166B true CN115064166B (zh) 2022-12-13

Family

ID=83207761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210985475.5A Active CN115064166B (zh) 2022-08-17 2022-08-17 车辆语音交互方法、服务器和存储介质

Country Status (1)

Country Link
CN (1) CN115064166B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116092495B (zh) * 2023-04-07 2023-08-29 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116110396B (zh) * 2023-04-07 2023-08-29 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116153313A (zh) * 2023-04-07 2023-05-23 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116110397B (zh) * 2023-04-07 2023-08-25 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116092494B (zh) * 2023-04-07 2023-08-25 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质
CN116092493B (zh) * 2023-04-07 2023-08-25 广州小鹏汽车科技有限公司 语音交互方法、服务器和计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107450725A (zh) * 2017-07-31 2017-12-08 科大讯飞股份有限公司 人机交互应用平台、方法、以及存储介质
CN111402888A (zh) * 2020-02-19 2020-07-10 北京声智科技有限公司 语音处理方法、装置、设备及存储介质
CA3151910A1 (en) * 2019-08-19 2021-02-25 Voicify, LLC Development of voice and other interaction applications
CN112740323A (zh) * 2020-12-26 2021-04-30 华为技术有限公司 一种语音理解方法及装置
CN114913856A (zh) * 2022-07-11 2022-08-16 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107450725A (zh) * 2017-07-31 2017-12-08 科大讯飞股份有限公司 人机交互应用平台、方法、以及存储介质
CA3151910A1 (en) * 2019-08-19 2021-02-25 Voicify, LLC Development of voice and other interaction applications
CN111402888A (zh) * 2020-02-19 2020-07-10 北京声智科技有限公司 语音处理方法、装置、设备及存储介质
CN112740323A (zh) * 2020-12-26 2021-04-30 华为技术有限公司 一种语音理解方法及装置
CN114913856A (zh) * 2022-07-11 2022-08-16 广州小鹏汽车科技有限公司 语音交互方法、服务器和存储介质

Also Published As

Publication number Publication date
CN115064166A (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN115064166B (zh) 车辆语音交互方法、服务器和存储介质
CN115083413B (zh) 语音交互方法、服务器和存储介质
CN115064167B (zh) 语音交互方法、服务器和存储介质
CN111062217B (zh) 语言信息的处理方法、装置、存储介质及电子设备
US11677861B2 (en) System and method for interoperable communication between entities with different structures
CN109753565A (zh) 知识产权智能服务方法及系统
CN110309277A (zh) 人机对话语义解析方法和系统
CN114889638A (zh) 一种自动驾驶系统中的轨迹预测方法及系统
CN115238045B (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN115455166A (zh) 一种智能对话系统异常检测的方法、装置、介质及设备
CN115064168B (zh) 语音交互方法、服务器和存储介质
CN116074317B (zh) 一种基于大数据的业务资源共享方法及服务器
CN115294964B (zh) 语音识别方法、服务器、语音识别系统和可读存储介质
CN113238947B (zh) 一种人机协同的对话系统评测方法及系统
CN116110397B (zh) 语音交互方法、服务器和计算机可读存储介质
CN114872730A (zh) 一种车辆行驶轨迹预测方法、装置、汽车及存储介质
CN116092494B (zh) 语音交互方法、服务器和计算机可读存储介质
CN116092495B (zh) 语音交互方法、服务器和计算机可读存储介质
CN112612979A (zh) 基于云计算和人工智能的页面服务处理方法及区块链中心
CN116092493B (zh) 语音交互方法、服务器和计算机可读存储介质
CN112328774A (zh) 基于多文档的任务型人机对话任务的实现方法
CN116110396B (zh) 语音交互方法、服务器和计算机可读存储介质
CN116579345B (zh) 命名实体识别模型的训练方法、命名实体识别方法及装置
CN116153313A (zh) 语音交互方法、服务器和计算机可读存储介质
CN117476004A (zh) 语音交互方法、服务器和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant