CN115457961B - 语音交互方法、车辆、服务器、系统及存储介质 - Google Patents

语音交互方法、车辆、服务器、系统及存储介质 Download PDF

Info

Publication number
CN115457961B
CN115457961B CN202211408465.1A CN202211408465A CN115457961B CN 115457961 B CN115457961 B CN 115457961B CN 202211408465 A CN202211408465 A CN 202211408465A CN 115457961 B CN115457961 B CN 115457961B
Authority
CN
China
Prior art keywords
historical
natural language
language understanding
voice
voice request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211408465.1A
Other languages
English (en)
Other versions
CN115457961A (zh
Inventor
张文君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Xiaopeng Motors Technology Co Ltd
Original Assignee
Guangzhou Xiaopeng Motors Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Xiaopeng Motors Technology Co Ltd filed Critical Guangzhou Xiaopeng Motors Technology Co Ltd
Priority to CN202211408465.1A priority Critical patent/CN115457961B/zh
Publication of CN115457961A publication Critical patent/CN115457961A/zh
Application granted granted Critical
Publication of CN115457961B publication Critical patent/CN115457961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R16/00Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for
    • B60R16/02Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements
    • B60R16/037Electric or fluid circuits specially adapted for vehicles and not otherwise provided for; Arrangement of elements of electric or fluid circuits specially adapted for vehicles and not otherwise provided for electric constitutive elements for occupant comfort, e.g. for automatic adjustment of appliances according to personal settings, e.g. seats, mirrors, steering wheel
    • B60R16/0373Voice control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W50/00Details of control systems for road vehicle drive control not related to the control of a particular sub-unit, e.g. process diagnostic or vehicle driver interfaces
    • B60W50/08Interaction between the driver and the control system
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60WCONJOINT CONTROL OF VEHICLE SUB-UNITS OF DIFFERENT TYPE OR DIFFERENT FUNCTION; CONTROL SYSTEMS SPECIALLY ADAPTED FOR HYBRID VEHICLES; ROAD VEHICLE DRIVE CONTROL SYSTEMS FOR PURPOSES NOT RELATED TO THE CONTROL OF A PARTICULAR SUB-UNIT
    • B60W2540/00Input parameters relating to occupants
    • B60W2540/21Voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Transportation (AREA)
  • Navigation (AREA)

Abstract

本申请提供一种语音交互方法、车辆、服务器、系统及存储介质。所述方法包括:获取车辆座舱内用户的历史对话信息;利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果;根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系;接收车辆座舱内用户本次的语音请求;利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果;根据本次的自然语言理解结果完成语音交互。通过自学习处理过程有利于提高自然语言理解的准确率。

Description

语音交互方法、车辆、服务器、系统及存储介质
技术领域
本申请涉及自然语言理解技术领域,尤其涉及一种语音交互方法、车辆、服务器、语音交互系统及计算机可读存储介质。
背景技术
随着车辆座舱智能化的发展,语音技术为用户在行车过程中控制车辆提供了诸多便利。用户可以利用车载系统搭载的语音助手进行人机交互。用户在车辆座舱内,通过语音交互来实现对车辆零部件的控制,例如对于车窗、座椅、空调等的控制,还可以实现车辆控制、导航、影音娱乐等操作。
其中,自然语音理解是语音交互过程中扮演着非常重要的角色。自然语言理解(Natural Language Understanding,NLU)俗称人机对话,是所有支持机器理解文本内容的方法模型或任务的总称。但是,自然语言理解有时面临着由于存储的知识有限而无法理解用户话语的情况,导致自然语言理解结果出错进行执行出错,从而无法完成用户任务,用户无法得到实际想要的语音交互结果。
发明内容
有鉴于此,本申请提供一种语音交互方法、车辆、服务器、语音交互系统及计算机可读存储介质。
具体地,本申请是通过如下技术方案实现的:
根据本申请的第一方面,提供一种语音交互方法,包括:
获取车辆座舱内用户的历史对话信息;
利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系;
接收车辆座舱内用户本次的语音请求;
利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果;
根据本次的自然语言理解结果完成语音交互。
本申请通过包括正向未支持召回和/或负向误支持召回的自学习处理过程,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系,该映射关系体现了用户期望的自然语言理解目标,进而在后续语音交互过程中利用该映射关系进行自然语言理解,有利于提高自然语言理解的准确率。
可选地,所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回的自学习处理,包括:
若所述历史对话信息满足预设的正向未支持召回条件,根据所述第一历史语音请求和所述第二历史语音请求的历史自然语言理解结果构建所述映射关系;
其中,所述正向未支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、第一历史语音请求与第二历史语音请求之间的文本相似度大于第一相似度阈值、所有的第二历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
本申请实现正向未支持召回的自学习处理过程,得到可以支持用户习惯的高频说法的映射关系,进而在后续语音交互过程中利用该映射关系进行自然语言理解,可以快速响应符合用户习惯的高频说法,有利于提高自然语言理解的准确率。
可选地,所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括负向误支持召回的自学习处理,包括:
若所述历史对话信息满足预设的第一负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;
其中,所述第一负向误支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、所有的第二历史语音请求均具有负向含义、所有的第一历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
本申请实现负向误支持删除的自学习处理,舍弃用户不认可的高频说法,进而在后续语音交互过程中利用该映射关系进行自然语言理解,不再响应用户不认可的高频说法,有利于提高自然语言理解的准确率。
可选地,所述历史对话信息包括的第一历史语音请求以及第二历史语音请求来自同一语音周期;
所述语音周期的开始时刻为车辆中的语音助手的唤醒时刻,结束时刻为在经过满足结束条件的预设时间段之后的时刻,所述结束条件包括在该预设时间段内未接收到车辆座舱内用户的语音请求。
可选地,所述历史对话信息包括第一历史语音请求;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括负向误支持召回的自学习处理,包括:
若所述历史对话信息满足预设的第二负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;
所述第二负向误支持召回条件包括:第一历史语音请求在过去预设时长内的使用频率超过阈值、所有的第一历史语音请求的历史自然语言理解结果均相同、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值、以及所有的第一历史语音请求的历史自然语言理解结果表征的车辆内的执行机构的期望执行结果均与实际执行结果相反。
本申请实现负向误支持删除的自学习处理过程,舍弃用户不认可的高频说法,进而在后续语音交互过程中利用该映射关系进行自然语言理解,不再响应用户不认可的高频说法,有利于提高自然语言理解的准确率。
可选地,所述利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果,包括:
若所述映射关系中存在与本次的语音请求相同的目标语音请求,根据所述目标语音请求和自然语言理解结果的映射关系获得本次的自然语言理解结果。
本申请在所述映射关系中存在与本次的语音请求相同的目标语音请求的情况下,直接基于自学习处理过程得到的映射关系进行自然语言理解,有利于提高自然语言理解的准确率和效率。
可选地,还包括:
若所述映射关系中不存在与本次的语音请求相同的目标语音请求,利用车辆中的自然语言理解模型和/或与车辆通信连接的服务器中的自然语言理解模型,对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
本申请实现在所述映射关系中不存在与本次的语音请求相同的目标语音请求的情况下,利用自然语言理解模型进行自然语言理解处理,满足语音交互需求。
根据本申请的第二方面,提供一种车辆,包括处理器及存储在存储器上并可在处理器上运行的可执行指令;
其中,所述处理器执行所述可执行指令时实现如第一方面任意一项所述方法中的步骤。
根据本申请的第三方面,提供一种服务器,包括处理器及存储在存储器上并可在处理器上运行的可执行指令;
其中,所述处理器执行所述可执行指令时实现如第一方面任意一项所述方法中的步骤。
根据本申请的第四方面,提供一种语音交互系统,包括车辆和服务器;
其中,所述车辆和所述服务器中的其中一个用于执行如第一方面任意一项所述方法中的步骤。
根据本申请的第五方面,提供一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现第一方面任意一项所述方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请示出的一种语音交互系统的结构示意图。
图2A是本申请示出的映射关系的获取及应用的示意图。
图2B是本申请示出的一种语音交互方法的流程示意图。
图3是本申请示出的第二种语音交互方法的流程示意图。
图4是本申请示出的第三种语音交互方法的流程示意图。
图5是本申请示出的第四种语音交互方法的流程示意图。
图6A是本申请示出的第五种语音交互方法的流程示意图。
图6B本申请示出的获得本次的自然语言理解结果的流程示意图。
图7是本申请示出的一种车辆的结构示意图。
具体实施方式
这里将详细地对本申请进行说明。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
相关技术中自然语言理解有时面临着由于存储的知识有限而无法理解用户话语的情况,导致自然语言理解结果出错进行执行出错,从而无法完成用户任务,用户无法得到实际想要的语音交互结果。比如在车辆的语音交互过程中,用户说出了“降低车内温度”,实际任务是开启空调,然而车辆中的自然语言理解模型无法理解用户话语,将导致没有完成开启空调的任务。
基于相关技术中的问题,本申请提供了一种语音交互方法。可以根据车辆座舱内用户的历史对话信息和所述历史对话信息的历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系,该映射关系体现了用户期望的自然语言理解目标;进而在后续语音交互过程中可以利用该映射关系进行自然语言理解,有利于提高自然语言理解的准确率。
请参阅图1,本申请还提供了一种语音交互系统,包括车辆100和服务器200,服务器200和车辆100通信连接。
本申请提供的语音交互方法可以由车辆100来执行。车辆100获取车辆座舱内用户的历史对话信息,根据历史对话信息及其历史自然语言理解结果进行自学习处理,获得映射关系。进而在后续应用过程中,车辆100接收车辆座舱内用户本次的语音请求,利用该映射关系对本次的语音请求进行自然语言理解,进而车辆100根据本次的自然语言理解结果完成语音交互。
本申请提供的语音交互方法也可以由服务器200来执行,车辆100可以将车辆座舱内用户的历史对话信息发送给服务器200,以便由服务器200通过自学习处理过程获得映射关系,进而车辆100可以将车辆座舱内用户本次的语音请求发送给服务器200,以便服务器200基于映射关系对本次的语音请求进行自然语言理解处理,得到本次的自然语言理解结果,并将本次的自然语言理解结果下发给车辆100以完成语音交互。
接下来对本申请提供的语音交互方法进行说明:请参阅图2A和图2B,所述方法包括:
在步骤101中,获取车辆座舱内用户的历史对话信息。
在步骤102中,利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果。
在步骤103中,根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系。
在步骤104中,接收车辆座舱内用户本次的语音请求。
在步骤105中,利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
在步骤106中,根据本次的自然语言理解结果完成语音交互。
本申请中,通过自学习处理过程获得映射关系,该映射关系体现了用户期望的自然语言理解目标,进而在后续语音交互过程中利用该映射关系进行自然语言理解,有利于提高自然语言理解的准确率。
这里对步骤101~步骤103的执行时机进行说明:
在一种可能的实施方式中,在任意一个语音周期结束之后,即可获取该语音周期对应的历史对话信息,利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果;进而根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系。
其中,语音周期的开始时刻为车辆中的语音助手的唤醒时刻,结束时刻为在经过满足结束条件的预设时间段之后的时刻,所述结束条件包括在该预设时间段内未接收到车辆座舱内用户的语音请求。
可以理解的是,所述预设时间段的具体时长可依据实际应用场景进行具体设置,本申请对此不做任何限制。在一个例子中,假设所述预设时间段为20秒,在语音助手被唤醒之后,一个语音周期开始,车辆中的麦克风处于持续且不间断的工作状态,以便实时采集用户的语音信号;在这个过程中,麦克风如果在持续的20秒内均未采集到用户的语音信号(即20秒内用户没有说话),则本次的语音周期结束,语音助手进入休眠状态。当语音助手再次被唤醒时,则进入另一个语音周期。
在另一种可能的实现方式中,可以周期性地执行步骤101~步骤103,比如在每个周期内,获取该周期内的历史对话信息和对应的历史自然语言理解结果来进行自学习处理,以获得映射关系。周期的设置可依据实际应用场景进行具体设置,比如以2个小时为1个周期,又比如以1天为1个周期,还比如以10天为一个周期,本申请对此不做限制。
车辆和服务器均包括自然语言理解模型。自然语言理解模型为利用若干样本进行深度学习而得到的模型。
可以利用车辆中的自然语言理解模型对历史对话信息进行自然语言理解处理,获得历史自然语言理解结果。
也可以将车辆座舱内用户的历史对话信息发送给服务器,利用服务器中的自然语言理解模型对历史对话信息进行自然语言理解处理,获得历史自然语言理解结果。
可以利用车辆中的自然语言理解模型对历史对话信息进行自然语言理解处理,以及利用服务器中的自然语言理解模型对历史对话信息进行自然语言理解处理,然后根据两者的处理结果进行仲裁处理,获得历史自然语言理解结果。
可以理解的是,本申请对于自然语言理解结果的表示形式不做任何限制。自然语言理解结果可以表示为“执行机构+意图”,比如打开空调对应的自然语言理解结果是“空调,打开操作”。自然语言理解结果可以表示为“执行机构+接口+参数”,比如打开空调对应的自然语言理解结果是“空调,打开接口函数,参数为空”。自然语言理解结果可以表示为“领域+意图+槽位”,比如打开空调对应的自然语言理解结果是“空调,打开意图,槽位为空”;当然,也可以是其他表示方式,可依据实际应用场景进行具体设置。
考虑到存在这样的一种场景,用户说出的第一句话,电子设备输出的自然语言理解结果是不理解或不支持,接着用户说出的第二句就会换一种更标准的说法;比如用户第一句说了“打开美丽的空调吧”,自然语言理解结果是“不理解”,紧接着用户说出了“打开空调”,自然语言理解结果是“空调,打开操作”。如果这样的情形,持续很多次,说明很大概率表示第一句话的意图与第二句话的意图相同,则针对于该种情况可以加以完善。
因此,针对于该种场景,请参阅图3,本申请提供了第二种语音交互方法的流程示意图,对步骤103进行进一步说明,步骤103包括步骤1031。所述方法包括:
在步骤1011中,获取车辆座舱内用户的历史对话信息;所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求。
在步骤102中,利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果。
在步骤1031中,若所述历史对话信息满足预设的正向未支持召回条件,根据所述第一历史语音请求和所述第二历史语音请求的历史自然语言理解结果构建映射关系;其中,所述正向未支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、第一历史语音请求与第二历史语音请求之间的文本相似度大于第一相似度阈值、所有的第二历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
在步骤104中,接收车辆座舱内用户本次的语音请求。
在步骤105中,利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
在步骤106中,根据本次的自然语言理解结果完成语音交互。
本申请中,对上述场景中的用户习惯进行感知,并进行自学习处理,实现正向未支持召回,得到可以支持用户习惯的高频说法的映射关系,进而在后续语音交互过程中利用该映射关系进行自然语言理解,可以快速响应符合用户习惯的高频说法,有利于提高自然语言理解的准确率。
其中,为了保证自学习处理的准确性,所述历史对话信息包括的第一历史语音请求以及第二历史语音请求来自同一语音周期。所述语音周期的开始时刻为车辆中的语音助手的唤醒时刻,结束时刻为在经过满足结束条件的预设时间段之后的时刻,所述结束条件包括在该预设时间段内未接收到车辆座舱内用户的语音请求。
对于来自同一语音周期中的第一历史语音请求以及第二历史语音请求,所述第一历史语音请求可以是用户在该语音周期内说出来的第一句话,第二历史语音请求可以是用户紧接着所述第一历史语音请求之后说出的话。
考虑到在任一语音周期内用户可能会说出一些感叹词等无效话语,为了提高自学习效率,在确定第一历史语音请求以及第二历史语音请求之前,可以先对用户的历史对话信息进行初步筛选,从中剔除用户说的感叹词等无效话语,得到有效的历史对话信息,进而从有效的历史对话信息获得第一历史语音请求以及第二历史语音请求。在一个例子中,假设使用频率的阈值为3,过去预设时长为过去一周。假设在过去一周内存在以下4条历史对话信息,分别为:
(1)第一历史语音请求为“漂亮的空调打开”,历史自然语言理解结果为“不理解”,第二历史语音请求为“打开空调”,历史自然语言理解结果为“空调,打开操作”。
(2)第一历史语音请求为“打开漂亮的空调吧”,历史自然语言理解结果为“不理解”,第二历史语音请求为“打开空调”,历史自然语言理解结果为“空调,打开操作”。
(3)第一历史语音请求为“打开美丽的空调”,历史自然语言理解结果为“不理解”,第二历史语音请求为“打开空调”,历史自然语言理解结果为“空调,打开操作”。
(4)第一历史语音请求为“美丽的空调打开吧”,历史自然语言理解结果为“不理解”,第二历史语音请求为“打开空调”,历史自然语言理解结果为“空调,打开操作”。
通过比对确定历史对话信息满足预设的正向未支持召回条件:1、第二历史语音请求“打开空调”与第一历史语音请求“美丽的空调打开”之间的文本相似度大于第一相似度阈值; 2、所有的第二历史语音请求的历史自然语言理解结果均相同;3、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值;4、第一历史语音请求和所述第二历史语音请求在过去预设时长(过去一周)内的使用频率超过阈值(3次)。
则可以根据所述第一历史语音请求和所述第二历史语音请求的历史自然语言理解结果构建使用频率超过阈值的语音请求和自然语言理解结果的映射关系,比如在上述例子中,构建语音请求(“漂亮的空调打开”、“打开漂亮的空调吧”、“美丽的空调打开吧”、“打开美丽的空调”)与自然语言理解结果(“空调,打开操作”)的映射关系。本申请中,通过正向未支持召回条件获取映射关系,可以支持用户习惯的高频说法,进而在后续语音交互过程中利用该映射关系进行自然语言理解,可以快速响应符合用户习惯的高频说法,有利于提高自然语言理解的准确率。
考虑到存在这样的一种场景,如果用户说出第一句话后,自然语言理解结果是理解或者支持的,但紧接着用户给出了负向反馈,这种情形也持续了很多次,那么很大概率是自然语音理解错了,也可以针对性优化。
因此,针对于该种场景,请参阅图4,本申请提供了第三种语音交互方法的流程示意图,对步骤103进行进一步说明,步骤103包括步骤1032。所述方法包括:
在步骤1011中,获取车辆座舱内用户的历史对话信息;所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求。
在步骤102中,利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果。
在步骤1032中,若所述历史对话信息满足预设的第一负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;其中,所述第一负向误支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、所有的第二历史语音请求均具有负向含义、所有的第一历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
在步骤104中,接收车辆座舱内用户本次的语音请求。
在步骤105中,利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
在步骤106中,根据本次的自然语言理解结果完成语音交互。
本申请中,对上述场景中的用户习惯进行感知,并进行自学习处理,实现负向误支持删除,舍弃用户不认可的高频说法,进而在后续语音交互过程中利用该映射关系进行自然语言理解,不再响应用户不认可的高频说法,有利于提高自然语言理解的准确率。
其中,为了保证自学习处理的准确性,所述历史对话信息包括的第一历史语音请求以及第二历史语音请求来自同一语音周期。所述语音周期的开始时刻为车辆中的语音助手的唤醒时刻,结束时刻为在经过满足结束条件的预设时间段之后的时刻,所述结束条件包括在该预设时间段内未接收到车辆座舱内用户的语音请求。
对于来自同一语音周期中的第一历史语音请求以及第二历史语音请求,所述第一历史语音请求可以是用户在该语音周期内说出来的第一句话,第二历史语音请求可以是用户紧接着所述第一历史语音请求之后说出的话。
考虑到在任一语音周期内用户可能会说出一些感叹词等无效话语,为了提高自学习效率,在确定第一历史语音请求以及第二历史语音请求之前,可以先对用户的历史对话信息进行初步筛选,从中剔除用户说的感叹词等无效话语,得到有效的历史对话信息,进而从有效的历史对话信息获得第一历史语音请求以及第二历史语音请求。
第二历史语音请求是否具有负向含义可以通过预设训练好的语义识别模型对所述第二历史语音请求的语音识别文本进行处理得到。所述语义识别模型为基于若干携带有负向含义标签的对话样本进行有监督学习得到,本申请对于所述语义识别模型的具体结构不做任何限制,可依据实际应用场景进行具体设置。可以通过判断第二历史语音请求的语音识别文本中是否包含预设的负向关键词来确定第二历史语音请求是否具有负向含义,如果第二历史语音请求中包含预设的负向关键词,则可以确定所述第二历史语音请求具有负向含义。
在一个例子中,假设使用频率的阈值为3,过去预设时长为过去一周。假设在过去一周内存在以下4条历史对话信息,分别为:
(1)第一历史语音请求为“天真蓝”,历史自然语言理解结果为“输出当前天气信息”,车辆按照该历史自然语言理解结果显示或者语音播报天气信息;第二历史语音请求为“不需要”。
(2)第一历史语音请求为“天气真好,挺蓝的”,历史自然语言理解结果为“输出当前天气信息”,车辆按照该历史自然语言理解结果显示或者语音播报天气信息;第二历史语音请求为“真不需要”。
(3)第一历史语音请求为“天真蓝啊”,历史自然语言理解结果为“输出当前天气信息”,车辆按照该历史自然语言理解结果显示或者语音播报天气信息;第二历史语音请求为“咋又乱识别了”。
(4)第一历史语音请求为“这么蓝的天”,历史自然语言理解结果为“输出当前天气信息”,车辆按照该历史自然语言理解结果显示或者语音播报天气信息;第二历史语音请求为“真的不需要啊”。
通过比对确定历史对话信息满足预设的第一负向误支持召回条件:1、所有的第二历史语音请求均具有负向含义; 2、所有的第一历史语音请求的历史自然语言理解结果均相同;3、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值;4、第一历史语音请求和所述第二历史语音请求在过去预设时长(过去一周)内的使用频率超过阈值(3次)。
则可以将第一历史语音请求(“天真蓝”、“天气真好,挺蓝的”、“天真蓝啊”、“这么蓝的天”)的历史自然语言理解结果修改为未知结果;然后根据第一历史语音请求及其修改后的历史自然语言理解结果,构建使用频率超过阈值的语音请求和自然语言理解结果的映射关系。本申请中,通过第一负向误支持召回条件获取映射关系,可以舍弃用户不认可的高频说法,进而在后续语音交互过程中利用该映射关系进行自然语言理解,不再响应用户不认可的高频说法,有利于提高自然语言理解的准确率。
考虑到存在这样的一种场景,如果用户说出第一句话后,车辆按照该话语的自然语言理解结果执行,但是用户不满意执行结果,进而用户手动对执行机构进行了操作,这种情况也持续了很多次,那么很大概率是自然语音理解错了,也可以针对性地进行优化。
因此,针对于该种场景,请参阅图5,本申请提供了第四种语音交互方法的流程示意图,对步骤103进行进一步说明,步骤103包括步骤1033。所述方法包括:
在步骤1012中,获取车辆座舱内用户的历史对话信息;所述历史对话信息包括第一历史语音请求。
在步骤102中,利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果。
在步骤1033中,若所述历史对话信息满足预设的第二负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;所述第二负向误支持召回条件包括:第一历史语音请求在过去预设时长内的使用频率超过阈值、所有的第一历史语音请求的历史自然语言理解结果均相同、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值、以及所有的第一历史语音请求的历史自然语言理解结果表征的车辆内的执行机构的期望执行结果均与实际执行结果相反。
在步骤104中,接收车辆座舱内用户本次的语音请求。
在步骤105中,利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
在步骤106中,根据本次的自然语言理解结果完成语音交互。
本申请中,对上述场景中的用户习惯进行感知,并进行自学习处理,实现负向误支持删除,舍弃用户不认可的高频说法,进而在后续语音交互过程中利用该映射关系进行自然语言理解,不再响应用户不认可的高频说法,有利于提高自然语言理解的准确率。
其中,为了保证自学习过程的准确性,第一历史语音请求的历史自然语言理解结果对应的执行机构的实际执行结果可以是在第一历史语音请求所属语音周期结束后的预设时长内获取的,所述预设时长可依据实际应用场景进行具体设置,比如预设时长为1分钟或者2分钟等。
在一个例子中,假设使用频率的阈值为4,过去预设时长为过去一周。假设在过去一周内存在以下4条历史对话信息,分别为:
(1)第一历史语音请求为“打开空调扇吧”,历史自然语言理解结果为“空调,打开操作”,车辆按照该历史自然语言理解结果打开空调;空调的实际执行结果为“关闭”(比如用户手动关闭了空调);
(2)第一历史语音请求为“空调扇打开”,历史自然语言理解结果为“空调,打开操作”,车辆按照该历史自然语言理解结果打开空调;空调的实际执行结果为“关闭”(比如用户手动关闭了空调);
(3)第一历史语音请求为“启动空调扇”,历史自然语言理解结果为“空调,打开操作”,车辆按照该历史自然语言理解结果打开空调;空调的实际执行结果为“关闭”(比如用户手动关闭了空调)。
(4)第一历史语音请求为“启动空调扇吧”,历史自然语言理解结果为“空调,打开操作”,车辆按照该历史自然语言理解结果打开空调;空调的实际执行结果为“关闭”(比如用户手动关闭了空调)。
通过比对确定历史对话信息满足预设的第二负向误支持召回条件:1、所有的第一历史语音请求的历史自然语言理解结果表征空调的期望执行结果均与实际执行结果相反;2、所有的第一历史语音请求的历史自然语言理解结果均相同;3、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值;4、第一历史语音请求在过去预设时长(过去一周)内的使用频率超过阈值(3次)。
则可以将第一历史语音请求(“打开空调扇吧”、“空调扇打开”、“启动空调扇吧”、“启动空调扇”)的历史自然语言理解结果修改为未知结果;然后根据第一历史语音请求及其修改后的历史自然语言理解结果,构建使用频率超过阈值的语音请求和自然语言理解结果的映射关系。本申请中,通过第二负向误支持召回条件获取映射关系,可以舍弃用户不认可的高频说法,进而在后续语音交互过程中利用该映射关系进行自然语言理解,不再响应用户不认可的高频说法,有利于提高自然语言理解的准确率。
可以理解的是,图3、图4和图5描述的实施方式中的步骤1031(正向未支持召回的自学习处理过后才能)、步骤1032(第一种负向误支持召回的自学习处理过程)和步骤1033(第二种负向误支持召回的自学习处理过程)可以并行进行,也可以择一或择二进行,本申请对此不做任何限制。
请参阅图6A,本申请提供了第五种语音交互方法的流程示意图,对步骤105进行进一步说明,步骤105包括步骤1051。所述方法包括:
在步骤101中,获取车辆座舱内用户的历史对话信息。
在步骤102中,利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果。
在步骤103中,根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系。
在步骤104中,接收车辆座舱内用户本次的语音请求。
在步骤1051中,若所述映射关系中存在与本次的语音请求相同的目标语音请求,根据所述目标语音请求和自然语言理解结果的映射关系获得本次的自然语言理解结果。
在步骤106中,根据本次的自然语言理解结果完成语音交互。
本申请中,在接收到车辆座舱内用户本次的语音请求之后,请参阅图6B,(步骤201)将本次的语音请求与映射关系中的语音请求进行比对,(步骤201)判断所述映射关系中是否存在与本次的语音请求相同的目标语音请求;若所述映射关系中存在与本次的语音请求相同的目标语音请求,则将所述目标语音请求对应的自然语言理解结果作为本次的自然语言理解结果。
若所述目标语音请求的语音识别文本与本次的语音请求的语音识别文本之间的文本相似度高于第三相似度阈值(比如高于90%或者80%),即可认为所述映射关系中存在与本次的语音请求相同的目标语音请求。
请参阅图6B,若所述映射关系中不存在与本次的语音请求相同的目标语音请求,(步骤202)则可以利用车辆中的自然语言理解模型和/或与车辆通信连接的服务器中的自然语言理解模型,对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
在一个例子中,可以利用车辆中的自然语言理解模型对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。在另一个例子中,也可以将车辆座舱内用户本次的语音请求发送给服务器,利用服务器中的自然语言理解模型对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。在又一个例子中,可以利用车辆中的自然语言理解模型对本次的语音请求进行自然语言理解处理,以及利用服务器中的自然语言理解模型对本次的语音请求进行自然语言理解处理,然后根据两者的处理结果进行仲裁处理,获得本次的自然语言理解结果。
其中,不难理解,上述各实施方式中的描述的方案在不存在冲突的情况,可以进行组合,本申请中不一一例举。
相应的,请参阅图7,本申请还提供了一种车辆,包括处理器301及存储在存储器302上并可在处理器301上运行的可执行指令;其中,所述处理器301执行所述可执行指令时,用于:
获取车辆座舱内用户的历史对话信息;
利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系;
接收车辆座舱内用户本次的语音请求;
利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果;
根据本次的自然语言理解结果完成语音交互。
所述处理器301包括但不限于中央处理单元(Central Processing Unit,CPU)、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (ApplicationSpecific Integrated Circuit,ASIC)或者现成可编程门阵列 (Field-ProgrammableGate Array,FPGA)等。
所述存储器302可以包括至少一种类型的存储介质,存储介质包括闪存、硬盘、多媒体卡、卡型存储器 (例如,SD或DX存储器等等)、随机访问存储器 (RAM)、静态随机访问存储器 (SRAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。
所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求。
所述处理器301还用于:若所述历史对话信息满足预设的正向未支持召回条件,根据所述第一历史语音请求和所述第二历史语音请求的历史自然语言理解结果构建所述映射关系;其中,所述正向未支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、第一历史语音请求与第二历史语音请求之间的文本相似度大于第一相似度阈值、所有的第二历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求;
所述处理器301还用于:若所述历史对话信息满足预设的第一负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;其中,所述第一负向误支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、所有的第二历史语音请求均具有负向含义、所有的第一历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
所述历史对话信息包括的第一历史语音请求以及第二历史语音请求来自同一语音周期;所述语音周期的开始时刻为车辆中的语音助手的唤醒时刻,结束时刻为在经过满足结束条件的预设时间段之后的时刻,所述结束条件包括在该预设时间段内未接收到车辆座舱内用户的语音请求。
所述历史对话信息包括第一历史语音请求。
所述处理器301还用于:若所述历史对话信息满足预设的第二负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;所述第二负向误支持召回条件包括:第一历史语音请求在过去预设时长内的使用频率超过阈值、所有的第一历史语音请求的历史自然语言理解结果均相同、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值、以及所有的第一历史语音请求的历史自然语言理解结果表征的车辆内的执行机构的期望执行结果均与实际执行结果相反。
所述处理器301还用于:若所述映射关系中存在与本次的语音请求相同的目标语音请求,根据所述目标语音请求和自然语言理解结果的映射关系获得本次的自然语言理解结果。
所述处理器301还用于:若所述映射关系中不存在与本次的语音请求相同的目标语音请求,利用车载终端车辆中的自然语言理解模型和/或与车载终端车辆通信连接的服务器中的自然语言理解模型,对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
相应的,本申请还提供了一种服务器,包括处理器及存储在存储器上并可在处理器上运行的可执行指令;其中,所述处理器执行所述可执行指令时,用于:
获取车辆座舱内用户的历史对话信息;
利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系;
接收车辆座舱内用户本次的语音请求;
利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果;
根据本次的自然语言理解结果完成语音交互。
所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求。
所述处理器还用于:若所述历史对话信息满足预设的正向未支持召回条件,根据所述第一历史语音请求和所述第二历史语音请求的历史自然语言理解结果构建所述映射关系;其中,所述正向未支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、第一历史语音请求与第二历史语音请求之间的文本相似度大于第一相似度阈值、所有的第二历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求。
所述处理器还用于:若所述历史对话信息满足预设的第一负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;其中,所述第一负向误支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、所有的第二历史语音请求均具有负向含义、所有的第一历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
所述历史对话信息包括的第一历史语音请求以及第二历史语音请求来自同一语音周期;所述语音周期的开始时刻为车辆中的语音助手的唤醒时刻,结束时刻为在经过满足结束条件的预设时间段之后的时刻,所述结束条件包括在该预设时间段内未接收到车辆座舱内用户的语音请求。
所述历史对话信息包括第一历史语音请求。
所述处理器还用于:若所述历史对话信息满足预设的第二负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;所述第二负向误支持召回条件包括:第一历史语音请求在过去预设时长内的使用频率超过阈值、所有的第一历史语音请求的历史自然语言理解结果均相同、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值、以及所有的第一历史语音请求的历史自然语言理解结果表征的车辆内的执行机构的期望执行结果均与实际执行结果相反。
所述处理器还用于:若所述映射关系中存在与本次的语音请求相同的目标语音请求,根据所述目标语音请求和自然语言理解结果的映射关系获得本次的自然语言理解结果。
所述处理器还用于:若所述映射关系中不存在与本次的语音请求相同的目标语音请求,利用车载终端车辆中的自然语言理解模型和/或与车载终端车辆通信连接的服务器中的自然语言理解模型,对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
相应的,本申请还提供了一种语音交互系统,包括车辆和服务器;其中,所述车辆和所述服务器中的其中一个用于上述方法。
相应的,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时用于实现上述方法。
相应的,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由装置的处理器执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当存储介质中的指令由终端的处理器执行时,使得终端能够执行上述方法。
本说明书中描述的主题及功能操作的实施方式可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施方式可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施方式的特征。本说明书内在多个实施方式中描述的某些特征也可以在单个实施方式中被组合实施。另一方面,在单个实施方式中描述的各种特征也可以在多个实施方式中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施方式中的各种系统模块和组件的分离不应被理解为在所有实施方式中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施方式已被描述。其他实施方式在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本申请的较佳实施方式而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种语音交互方法,其特征在于,包括:
获取车辆座舱内用户的历史对话信息;所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求;
利用历史对话信息进行自然语言理解处理,获得历史自然语言理解结果;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回和/或负向误支持召回的自学习处理,获得使用频率超过阈值的语音请求和自然语言理解结果的映射关系;
接收车辆座舱内用户本次的语音请求;
利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果;
根据本次的自然语言理解结果完成语音交互;
其中,根据所述历史对话信息和所述历史自然语言理解结果,进行包括负向误支持召回的自学习处理,包括:
若所述历史对话信息满足预设的第一负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;
其中,所述第一负向误支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、所有的第二历史语音请求均具有负向含义、所有的第一历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
2.根据权利要求1所述的方法,其特征在于,所述历史对话信息包括第一历史语音请求以及在所述第一历史语音请求之后的第二历史语音请求;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括正向未支持召回的自学习处理,包括:
若所述历史对话信息满足预设的正向未支持召回条件,根据所述第一历史语音请求和所述第二历史语音请求的历史自然语言理解结果构建所述映射关系;
其中,所述正向未支持召回条件包括:第一历史语音请求和所述第二历史语音请求在过去预设时长内的使用频率超过阈值、第一历史语音请求与第二历史语音请求之间的文本相似度大于第一相似度阈值、所有的第二历史语音请求的历史自然语言理解结果均相同、以及所有的第一历史语音请求之间的文本相似度大于第二相似度阈值。
3.根据权利要求1或2所述的方法,其特征在于,所述历史对话信息包括的第一历史语音请求以及第二历史语音请求来自同一语音周期;
所述语音周期的开始时刻为车辆中的语音助手的唤醒时刻,结束时刻为在经过满足结束条件的预设时间段之后的时刻,所述结束条件包括在该预设时间段内未接收到车辆座舱内用户的语音请求。
4.根据权利要求1所述的方法,其特征在于,所述历史对话信息包括第一历史语音请求;
根据所述历史对话信息和所述历史自然语言理解结果,进行包括负向误支持召回的自学习处理,还包括:
若所述历史对话信息满足预设的第二负向误支持召回条件,将所述第一历史语音请求的历史自然语言理解结果修改为指示未知结果,并根据第一历史语音请求及其修改后的历史自然语言理解结果构建所述映射关系;
所述第二负向误支持召回条件包括:第一历史语音请求在过去预设时长内的使用频率超过阈值、所有的第一历史语音请求的历史自然语言理解结果均相同、所有的第一历史语音请求之间的文本相似度大于第二相似度阈值、以及所有的第一历史语音请求的历史自然语言理解结果表征的车辆内的执行机构的期望执行结果均与实际执行结果相反。
5.根据权利要求1所述的方法,其特征在于,所述利用所述映射关系对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果,包括:
若所述映射关系中存在与本次的语音请求相同的目标语音请求,根据所述目标语音请求和自然语言理解结果的映射关系获得本次的自然语言理解结果。
6.根据权利要求5所述的方法,其特征在于,还包括:
若所述映射关系中不存在与本次的语音请求相同的目标语音请求,利用车辆中的自然语言理解模型和/或与车辆通信连接的服务器中的自然语言理解模型,对本次的语音请求进行自然语言理解处理,获得本次的自然语言理解结果。
7.一种车辆,其特征在于,包括处理器及存储在存储器上并可在处理器上运行的可执行指令;
其中,所述处理器执行所述可执行指令时实现如权利要求1至6任意一项所述方法中的步骤。
8.一种服务器,其特征在于,包括处理器及存储在存储器上并可在处理器上运行的可执行指令;
其中,所述处理器执行所述可执行指令时实现如权利要求1至6任意一项所述方法中的步骤。
9.一种语音交互系统,其特征在于,包括车辆和服务器;
其中,所述车辆和所述服务器中的其中一个用于执行权利要求1至6任意一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1至6任意一项所述方法的步骤。
CN202211408465.1A 2022-11-10 2022-11-10 语音交互方法、车辆、服务器、系统及存储介质 Active CN115457961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211408465.1A CN115457961B (zh) 2022-11-10 2022-11-10 语音交互方法、车辆、服务器、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211408465.1A CN115457961B (zh) 2022-11-10 2022-11-10 语音交互方法、车辆、服务器、系统及存储介质

Publications (2)

Publication Number Publication Date
CN115457961A CN115457961A (zh) 2022-12-09
CN115457961B true CN115457961B (zh) 2023-04-07

Family

ID=84295849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211408465.1A Active CN115457961B (zh) 2022-11-10 2022-11-10 语音交互方法、车辆、服务器、系统及存储介质

Country Status (1)

Country Link
CN (1) CN115457961B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030811B (zh) * 2023-03-22 2023-06-30 广州小鹏汽车科技有限公司 语音交互方法、车辆及计算机可读存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005084589A (ja) * 2003-09-11 2005-03-31 Nissan Motor Co Ltd 音声認識装置
US9922639B1 (en) * 2013-01-11 2018-03-20 Amazon Technologies, Inc. User feedback for speech interactions
CN107481718B (zh) * 2017-09-20 2019-07-05 Oppo广东移动通信有限公司 语音识别方法、装置、存储介质及电子设备
CN107622054B (zh) * 2017-09-26 2020-12-22 科大讯飞股份有限公司 文本数据的纠错方法及装置
CN108320738B (zh) * 2017-12-18 2021-03-02 上海科大讯飞信息科技有限公司 语音数据处理方法及装置、存储介质、电子设备
CN111540356B (zh) * 2020-04-20 2022-05-17 思必驰科技股份有限公司 用于语音对话的纠正方法及系统
WO2022010471A1 (en) * 2020-07-08 2022-01-13 Google Llc Identification and utilization of misrecognitions in automatic speech recognition
CN113096653A (zh) * 2021-03-08 2021-07-09 谭维敏 一种基于人工智能的个性化口音语音识别方法及系统
CN115273841A (zh) * 2022-07-08 2022-11-01 Oppo广东移动通信有限公司 语音拒识方法、装置、服务设备及存储介质

Also Published As

Publication number Publication date
CN115457961A (zh) 2022-12-09

Similar Documents

Publication Publication Date Title
US20200312329A1 (en) Performing speech recognition using a local language context including a set of words with descriptions in terms of components smaller than the words
US9905228B2 (en) System and method of performing automatic speech recognition using local private data
US20210193176A1 (en) Context-based detection of end-point of utterance
US11817094B2 (en) Automatic speech recognition with filler model processing
CN108520743B (zh) 智能设备的语音控制方法、智能设备及计算机可读介质
US10678504B1 (en) Maintaining context for voice processes
CN113841195B (zh) 联合端点确定和自动语音识别
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
US10629186B1 (en) Domain and intent name feature identification and processing
US9159319B1 (en) Keyword spotting with competitor models
CN111261151B (zh) 一种语音处理方法、装置、电子设备及存储介质
CN117894302A (zh) 基于对在线语音命令的使用来学习离线语音命令
CN110111789B (zh) 语音交互方法、装置、计算设备和计算机可读介质
CN115457961B (zh) 语音交互方法、车辆、服务器、系统及存储介质
US20180053506A1 (en) Speech recognition system, speech recognition device, speech recognition method, and control program
CN113674742B (zh) 人机交互方法、装置、设备以及存储介质
WO2021098318A1 (zh) 应答方法、终端及存储介质
CN111091819A (zh) 语音识别装置和方法、语音交互系统和方法
CN103426429B (zh) 语音控制方法和装置
CN114724564A (zh) 语音处理方法、装置和系统
CN114596842A (zh) 一种语音交互的方法、装置、计算机设备和存储介质
CN114299941A (zh) 语音交互的方法、装置、电子设备及存储介质
WO2023115588A1 (zh) 语音交互的方法、装置和存储介质
CN112712799B (zh) 一种误触发语音信息的获取方法、装置、设备及存储介质
CN116844537A (zh) 语音交互的方法、电子设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant