CN110297617B

CN110297617B - 一种主动对话的发起方法和装置

Info

Publication number: CN110297617B
Application number: CN201910578657.9A
Authority: CN
Inventors: 鞠向宇; 袁志伟; 赵晓朝
Original assignee: Beijing Moran Cognitive Technology Co Ltd
Current assignee: Beijing Moran Cognitive Technology Co Ltd
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-05-14
Anticipated expiration: 2039-06-28
Also published as: CN110297617A

Abstract

本发明公开了一种主动对话的发起方法及装置，所述方法包括：获取当前语音交互模态；基于所述当前语音交互模态，查询历史对话记录，得到当前语音交互模态下的至少一条历史第一语音以及与每一条历史第一语音对应的历史用户意愿等级；基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，基于该条历史第一语音生成第一语音，所述第一语音用于主动发起的对话；播放所述第一语音。通过本发明的方法，基于语音交互模态触发车载设备与用户的主动对话，实现了主动对话的“热启动”，能够挖掘并满足用户的潜在对话需求，提升了用户与车载设备对话的意愿，提高人机对话的智能性，提升了用户体验。

Description

一种主动对话的发起方法和装置

技术领域

本发明实施例涉及语音交互领域，特别涉及一种主动对话的发起方法和装置。

背景技术

随着互联网信息技术、汽车电子、语音控制技术的快速发展，越来越多的汽车厂家开始在车机中搭载智能语音控制系统，如语音助手。用户可通过语音来控制车机执行特定操作，如打开或关闭空调、车窗、天窗，设置导航/修改导航，开启音乐播放等。也有一些语音助手能够基于预设的场景主动向用户发起对话，例如，用户上车后，对话机器人主动问候用户“你好，请您注意驾驶安全，祝你驾驶愉快”。

然而，现有的智能语音控制系统仅能简单地执行用户的指令，或者仅能够提供通用的、有限的主动对话发起方式，对话模式为“冷启动”，非常机械和固定，导致用户交互意愿太低，用户体验不佳。

发明内容

针对现有技术中的问题，本发明提供一种主动对话的发起方法和装置。

本发明提供一种主动对话的发起方法，所述方法包括：

步骤101，获取当前语音交互模态；

步骤102，基于所述当前语音交互模态，查询历史对话记录，得到当前语音交互模态下的至少一条历史第一语音以及与每一条历史第一语音对应的历史用户意愿等级；基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，基于该条历史第一语音生成第一语音，所述第一语音用于主动发起的对话；

步骤103，播放所述第一语音。

本发明提供一种主动对话的发起装置，所述装置包括：

语音交互模态获取单元，用于获取当前语音交互模态；

第一语音生成单元，用于基于所述当前语音交互模态，查询历史对话记录，得到当前语音交互模态下的至少一条历史第一语音以及与每一条历史第一语音对应的历史用户意愿等级；基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，基于该条历史第一语音生成第一语音，所述第一语音用于主动发起的对话；

第一语音播放单元，播放所述第一语音。

本发明提供一种主动对话的发起装置，所述装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如上所述的方法。

本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序，所述计算机程序在被执行时实现如上所述的方法。

本发明提供一种车辆，其特征在于，所述车辆包括如上所述的装置。

通过本发明的主动对话的发起方法和装置，基于语音交互模态触发车载设备与用户的主动对话，实现了主动对话的“热启动”，能够挖掘并满足用户的潜在对话需求，提升了用户与车载设备对话的意愿，提高人机对话的智能性，提升了用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲,在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的主动对话的发起方法。

图2是本发明一个实施例中的主动对话的发起装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。

以下对本发明的主动对话的发起方法进行说明，参见图1，所述方法包括如下步骤：

步骤101，获取当前语音交互模态；

步骤103，播放所述第一语音。

优选的，本发明方法的执行主体可以是车载系统，如车机、车载导航系统、车载娱乐系统等，下文中主要以车载系统为例来说明本发明的方法，但本发明方法的执行主体并不以此为限。

优选的，所述语音交互模态包括用户行为、环境信息、车辆状态和/或用户状态。

所述用户行为可以是用户的动作。例如，用户行为可以是打开音乐播放器、打开窗户、哼歌等。其中，音乐播放器可以位于车载系统或用户的移动终端，所述移动终端与车载系统之间具有通信连接。用户行为还可以是上车并就座。以上仅列举了几个用户行为的举例，其不应当视为对本发明的限制。用户行为还可以用户的其他行为，此处不一一列举。

所述环境信息可以包括天气、交通信息、日期、时间等参数。天气可以包括湿度、温度、光照强度、紫外线强度、风力、雨量等，交通信息可以包括导航目的地、导航经由地、拥堵程度、交通管制信息、限行尾号、交通事故信息等。所述环境信息可以从车辆上安装的设备或元件(如行车记录仪、各个传感器)处获取，也可以通过与云服务器建立通信连接获取。

所述车辆状态可以包括车辆行驶速度、车辆燃油/电量剩余量、胎压、车内温度、车内湿度等。所述车辆状态可以从车辆上安装的设备或元件(如行车记录仪、各个传感器)处获取。

所述用户状态可以包括用户驾驶状态、用户生理状态、用户情绪状态、用户外貌状态，用户驾驶状态可以包括驾驶时长、用户疲劳程度；用户生理状态可以包括体温、血压、心率、脉搏、呼吸急促程度、摄氧量等；用户情绪状态可以为愤怒、焦躁、紧张、低落、高兴、兴奋等，用户外貌状态可以为化妆、气色、脸色等。用户状态可以通过车辆上安装的设备或元件(如摄像头、麦克风)来获取，也可以从用户的移动终端、可穿戴设备处获取，所述移动终端、可穿戴设备与车载系统之间具有通信连接。

优选的，为避免车载设备过多地发起主动对话，在步骤101之前，判断在预设时长内主动发起对话的次数是否小于或等于预设阈值，如果是，执行步骤101。

历史对话记录采用与语音交互模态相对应的方式存储。所述历史对话记录包括用户主动发起的对话记录、用户与车辆中其他乘客的对话记录和/或车载系统主动发起的对话的记录。

优选的，周期性从云服务器获取与本地存储的语音交互模态对应的历史对话记录，由于云服务器中记录了其他用户的与本地存储的语音交互模态对应的历史对话记录，周期性获取上述历史对话记录能够丰富主动发起对话的第一语音的多样性，提升用户体验。

优选的，周期性从云服务器获取新的语音交互模态以及对应的历史对话记录，由于云服务器中记录了其他用户的不同于本地存储的语音交互模态的其他语音交互模态对应的历史对话记录，周期性获取上述历史对话记录能够不断丰富和完善车载系统所能够识别的触发主动会话的语音交互模态，更好地满足用户需求。

优选的，所述历史用户意愿等级表征在历史对话过程中用户继续对话的意愿程度和/或用户对所播放的历史第一语音的满意程度。

优选的，在步骤102中，基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，具体为：选择历史用户意愿等级最高的历史第一语音。

优选的，在步骤102中，基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，具体为：从所述至少一条历史第一语音中历史用户意愿等级大于第一阈值的至少一条历史第一语音中选择一条历史第一语音，所述选择可以为随机选择。如果所有历史第一语音的历史用户意愿等级均不大于第一阈值，则不发起主动对话，方法结束。

优选的，在步骤102中基于该条历史第一语音生成第一语音，具体为，变换所述历史第一语音的话术生成第一语音。

优选的，在步骤102中基于该条历史第一语音生成第一语音，具体为，确定与所述历史第一语音的历史用户意愿等级对应的记忆系数，所述记忆系数表示了所述第一语音和所述历史第一语音的相似程度；基于所述记忆系数和该条历史第一语音生成所述第一语音。

优选的，在步骤102中基于该条历史第一语音生成第一语音，具体为，基于该条历史第一语音中的关键词，查询是否有与所述关键词关联的更新内容，如果是，基于该条历史第一语音和所述更新内容生成第一语音。优选的，所述车载设备可以向云服务器发起所述查询过程。

优选的，第一语音的类型可以为任务类或聊天类，步骤103之后，本发明的主动发起对话的方法还包括如下步骤：

步骤104，判断是否获取到用户针对所述第一语音反馈的第二语音，如果是，则根据第一语音的类型执行步骤105a-109a或步骤105b-107b，其中，如果所述第一语音的类型为任务类，则执行步骤105a-109a，如果所述第一语音的类型为聊天类，则执行步骤105b-107b。

步骤105a-109a具体为：

步骤105a，基于所述第二语音判断是否要执行第一语音对应的任务，如果要执行，则执行步骤106a，如果不执行，则方法结束；

步骤106a，基于所述第一语音和所述第二语音填充与所述第一语音对应的任务相关联的任务槽位；

步骤107a，判断与所述第一语音对应的任务相关联的任务槽位是否均填充完毕，如果填充完毕，则执行步骤108a，如果存在一个或多个任务槽位未填充，则执行步骤109a；

步骤108a，执行所述第一语音对应的任务；

步骤109a，基于所述未填充的任务槽位生成并播放第三语音，并接收用户针对上述第三语音反馈的第四语音，基于所述第四语音填充相应的任务槽位，执行步骤107a。

步骤105b-107b具体为：

步骤105b，对所述第二语音进行分析得到当前用户意愿等级；

步骤106b，判断所述当前用户意愿等级是否大于第二阈值，如果是，基于所述第二语音，查询历史对话记录，得到至少一条历史第三语音以及与每一条历史第三语音对应的历史用户意愿等级；基于所述每一条历史第三语音对应的历史用户意愿等级，从所述至少一条历史第三语音中选择一条历史第三语音，基于该条历史第三语音生成第三语音；

步骤107b，播放所述第三语音。

优选的，所述第一阈值和所述第二阈值可以相同，也可以不同。

优选的，在步骤104中，如果没有获取到用户反馈的第二语音，则更新所述历史对话记录中生成所述第一语音时所基于的历史第一语音对应的历史用户意愿等级，例如将其历史用户意愿等级降低预设值，并结束方法。

优选的，若步骤104中没有获取到用户反馈的第二语音，可以再次执行步骤102。具体的，在步骤102中，基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，具体为：选择所述至少一条历史第一语音中在当前主动对话过程中没有被选择过的至少一条历史第一语音中历史用户意愿等级最高的历史第一语音，或者，在步骤102中，基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，具体为：从所述至少一条历史第一语音中当前主动对话过程中没有被选择过且历史用户意愿等级大于第一阈值的至少一条历史第一语音中选择一条历史第一语音，所述选择可以为随机选择。在步骤104中，如果没有获取到用户反馈的第二语音，则更新所述历史对话记录中生成所述第一语音时所基于的历史第一语音对应的历史用户意愿等级，例如将其历史用户意愿等级降低预设值，重新执行步骤102。优选的，在步骤102中，如果不存在满足条件的历史第一语音，则方法结束。

优选的，步骤105b中，对所述第二语音进行分析得到当前用户意愿等级，具体为，对所述第二语音进行语义分析和语气分析。

优选的，在步骤105b中，还获取用户说出第二语音时的面部表情，对所述第二语音和所述面部表情进行分析，得到当前用户意愿等级。

优选的，步骤105b中，所述当前用户意愿等级表征在当前对话过程中用户继续对话的意愿程度和/或用户对其所听到的语音如第一语音的满意程度。

优选的，在步骤106b中，基于所述每一条历史第三语音对应的历史用户意愿等级，从所述至少一条历史第三语音中选择一条历史第三语音，具体为：选择历史用户意愿等级最高的历史第三语音。

优选的，在步骤106b中，若所述当前用户意愿等级不大于第二阈值，则方法结束。

优选的，在步骤106b中基于该条历史第三语音生成第三语音，具体为，变换所述历史第三语音的话术生成第三语音。

优选的，在步骤106b中基于该条历史第三语音生成第三语音，具体为，确定与所述历史第三语音的历史用户意愿等级对应的记忆系数，所述记忆系数表示了所述第三语音和所述历史第三语音的相似程度；基于所述记忆系数生成所述第三语音。

优选的，在步骤106b中基于该条历史第三语音生成第三语音，具体为，基于该条历史第三语音中的关键词，查询是否有与所述关键词关联的更新内容，如果是，基于该条历史第三语音和所述更新内容生成第三语音。优选的，所述车载设备可以向云服务器发起所述查询过程。

优选的，在步骤107b之后，继续执行步骤104，从而使得与用户的对话得以进行下去。

优选的，在主动对话中，实时地将当前语音交互模态、播放的语音以及用户针对播放的语音反馈的语音、针对所述播放的语音的当前用户意愿等级存储到历史对话记录中。

以下结合具体实施例对本发明的方法进行进一步的描述。

场景一：

步骤101中，获取当前语音交互模态，具体为：从车载导航获取用户的导航目的地为郊区某公园，车载摄像头拍摄到的图像中用户面带微笑，用户情绪状态为高兴，车载麦克风获取到用户正在哼歌。

在步骤102中，基于所述当前语音交互模态，查询历史对话记录，得到当前语音交互模态下的至少一条历史第一语音以及与每一条历史第一语音对应的历史用户意愿等级；假设历史对话记录中与当前语音交互模态对应的历史第一语音有两条，分别为历史第一语音A：“您看起来心情很好，需要为您播放伴奏音乐吗？”和历史第一语音B：“您看起来心情很好，需要为您播放您最喜欢的歌手李某的歌曲吗？”，用户意愿等级取值为0-10，其中，0表示没有意愿，10表示意愿强烈，假设本场景中历史第一语音A和历史第一语音B的历史用户意愿等级分别为8和7，则从上述两个历史第一语音中选择历史用户意愿等级较高的历史第一语音A，在本场景中，基于记忆系数和该条历史第一语音A生成第一语音，具体的，假设历史用户意愿等级与记忆系数的对应关系如表1所示，则生成与历史第一语音A具有80％相似度的语音作为第一语音，例如“您看起来很开心，是否需要为您播放伴奏音乐呢？”。所述相似度可以基于现有技术中的算法来评估，例如，基于向量空间模型的相似度评估算法、基于语音分析的相似度评估算法、基于句子依存关系的相似度评估算法等。可以采用本领域中任意的相似度评估算法，上述列举的算法不应当视为对本发明的限定。

表1历史用户意愿等级与记忆系数的对应关系

历史用户意愿等级	记忆系数
		10	100％
9	90％
		8	80％
7	70％
		…	…

在步骤103中播放所述第一语音后，在步骤104中，判断是否获取到用户反馈的第二语音，在本场景中假设第二语音为“太好了”，则判断结果为“是”，且第一语音的类型为任务类，则执行步骤105a，基于所述第二语音判断是否要执行第一语音对应的任务，在本场景中，由于得到了用户的肯定反馈，因此，判断结果为执行第一语音对应的任务，即播放音乐，并在步骤106a中，基于第一语音和第二语音填充与所述第一语音对应的任务相关联的任务槽位，假设与播放音乐相关联的任务槽位包括音乐类型、乐器类型，则基于第一语音和第二语音，可以将音乐类型填充为“伴奏音乐”，而乐器类型槽位由于没有相关信息，因此，并未填充，则在步骤107a中判断任务槽位并未全部填充完毕，需要执行步骤109a，基于乐器类型槽位生成并播放第三语音“您喜欢那种乐器伴奏的音乐？”，假设获取到用户反馈的第四语音为“小提琴”，则再次执行步骤107a，此时，判断出所有任务槽位均填充完毕，因此，执行步骤108a，即执行播放音乐的任务。

场景二：

在场景二中，步骤101-103的执行过程同场景一，但在本场景中，假设在步骤104中没有获取到用户针对所述历史第一语音A反馈的第二语音，则更新所述历史对话记录中所述历史第一语音A的历史用户意愿等级，例如将其历史用户意愿等级降低预设值，例如，将其从8降低为6，并选择所述至少一条历史第一语音中在当前主动对话过程中没有被选择过的至少一条历史第一语音中历史用户意愿等级最高的历史第一语音，在本场景中，在当前主动对话过程中没有被选择过的历史第一语音仅有历史第一语音B，则在步骤102中，选择历史第一语音B，并基于历史第一语音B生成第一语音，在本场景中，基于历史第一语音B中的关键词“歌手李某”，向云服务器查询是否有与所述关键词关联的更新内容，在本场景中，假设查询到歌手李某近期推出新专辑，则基于历史第一语音B和所述更新内容“新专辑”生成第一语音“您看起来心情很好，需要为您播放您最喜欢的歌手李某的新专辑歌曲吗？”，并在步骤103中播放该第一语音。此后，继续执行步骤104，执行过程与场景一类似，此处不再赘述。

场景三：

步骤101中，获取当前语音交互模态，具体为：获取到用户行为为用户上车就座，环境信息为工作日早上七点，用户状态为化了淡妆、气色很好。

在步骤102中，基于所述当前语音交互模态，查询历史对话记录，得到两条历史第一语音，分别为历史第一语音A：“早上好，您今天气色真好”和历史第一语音B：“早上好，您今天化了淡妆，看起来更美了”，对应的历史用户意愿等级分别为6和9，则从上述两个历史第一语音中选择历史用户意愿等级较高的历史第一语音B，在本场景中，基于记忆系数和该条历史第一语音B生成第一语音“早上好，您今天是化了淡妆吗？看起来更美了”，在步骤103中播放该第一语音。此后，在步骤104中，判断是否获取到用户反馈的第二语音，在本场景中，假设用户反馈的第二语音为“是吗？今天试用了新买的XX牌腮红”，则判断结果为“是”，且第一语音的类型为聊天类，则执行步骤105b，对所述第二语音进行分析得到当前用户意愿等级为10；在步骤106b中，判断所述当前用户意愿等级是否大于第二阈值，假设第二阈值为6，则当前用户意愿等级大于预设阈值，因此，继续执行生成第三语音的过程，具体为：基于第二语音查询历史语音交互记录，得到三条历史第三语音，分别为历史第三语音A“XX牌腮红特别适合您，显得您气色更好了”、历史第三语音B“下次您还可以试试XX牌腮红的青春系列，应该也会很适合您”和历史第三语音C“XX牌腮红的代言人是您最喜欢的歌手李某呢”，与上述三条历史第三语音对应的历史用户意愿等级分别为7、9和8，则选择基于历史第三语音B生成第三语音，并在步骤107b中播放所述第三语音。具体的生成第三语音的过程可以采用前述的任意方法，此处不再赘述。在步骤107b后，继续执行步骤104，获取用户针对第三语音进一步反馈的第二语音，此后，执行过程类似，此处不再赘述。

通过本发明的方法，基于语音交互模态触发车载设备与用户的主动对话，将用户行为、环境信息、车辆状态、用户状态作为主动对话的入口，实现了主动对话的“热启动”，能够挖掘并满足用户的潜在对话需求，提升了用户与车载设备对话的意愿，提高人机对话的智能性，提升了用户体验。此外，通过本发明的方法，根据不同的语音交互模态，能够触发不同的主动对话类型，全方位地满足了用户的任务需求和聊天需求。

本发明还提供一种主动对话的发起装置，所述装置包括：

语音交互模态获取单元，用于获取当前语音交互模态；

第一语音播放单元，用于播放所述第一语音。

所述主动对话的发起装置可以是车载系统(如车机、车载导航系统、车载娱乐系统等)的一部分。

优选的，所述装置还包括：历史对话记录存储单元，用于采用与语音交互模态相对应的方式存储历史会话记录。所述第一语音生成单元查询历史对话记录，具体为查询所述历史对话记录存储单元中存储的历史对话记录。

优选的，所述装置还包括：主动对话判断单元，用于判断在预设时长内主动发起对话的次数是否小于或等于预设阈值，如果是，触发所述语音交互模态获取单元。

所述装置还包括：历史对话记录获取单元，用于周期性从云服务器获取与本地存储的语音交互模态对应的历史对话记录，将所获取的历史会话记录存储在历史对话记录存储单元中，从而能够丰富主动发起对话的第一语音的多样性，提升用户体验。

所述历史对话记录更新单元，还用于周期性从云服务器获取新的语音交互模态以及对应的历史对话记录，并将所获取的历史对话记录采用与语音交互模态相对应的方式存储在历史对话记录存储单元中，从而能够不断丰富和完善车载系统所能够识别的触发主动会话的语音交互模态，更好地满足用户需求。

优选的，所述基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，具体为：选择历史用户意愿等级最高的历史第一语音；或者，从所述至少一条历史第一语音中历史用户意愿等级大于第一阈值的至少一条历史第一语音中选择一条历史第一语音，所述选择可以为随机选择，如果所有历史第一语音的历史用户意愿等级均不大于第一阈值，则所述第一语音生成单元不生成第一语音。

优选的，所述基于该条历史第一语音生成第一语音，具体为：变换所述历史第一语音的话术生成第一语音；或者，确定与该条历史第一语音对应的历史用户意愿等级对应的记忆系数，基于所述记忆系数和该条历史第一语音生成所述第一语音，所述记忆系数表示了所述第一语音和所述历史第一语音的相似程度；或者，基于该条历史第一语音中的关键词，查询是否有与所述关键词关联的更新内容，如果是，基于该条历史第一语音和所述更新内容生成第一语音。

优选的，所述第一语音生成单元向云服务器发起所述查询过程。

优选的，所述第一语音的类型为任务类或聊天类。

优选的，所述装置还包括用户反馈获取单元和任务执行单元。

所述用户反馈获取单元，用于判断是否获取到用户反馈的第二语音，如果是，且第一语音的类型为任务类，则触发任务执行单元。

所述任务执行单元，用于执行前述的步骤105a-109a，即用于：基于所述第二语音判断是否要执行第一语音对应的任务，如果是，基于所述第一语音和所述第二语音填充与所述第一语音对应的任务相关联的任务槽位；判断与所述第一语音对应的任务相关联的任务槽位是否均填充完毕，如果填充完毕，则执行所述第一语音对应的任务，如果存在一个或多个任务槽位未填充，基于所述未填充的任务槽位生成并播放第三语音，并接收用户针对上述第三语音反馈的第四语音，基于所述第四语音填充相应的任务槽位，直至与所述第一语音对应的任务相关联的任务槽位均填充完毕，执行所述第一语音对应的任务。

所述装置还包括第三语音生成单元和第三语音播放单元。

优选的，所述用户反馈获取单元，还用于判断是否获取到用户反馈的第二语音，如果是，且第一语音的类型为聊天类，触发第三语音生成单元。

所述第三语音生成单元，用于响应于用户反馈获取单元的触发，对所述第二语音进行分析得到当前用户意愿等级；判断所述当前用户意愿等级是否大于第二阈值，如果是，基于所述第二语音，查询历史对话记录，得到至少一条历史第三语音以及与每一条历史第三语音对应的历史用户意愿等级；基于所述每一条历史第三语音对应的历史用户意愿等级，从所述至少一条历史第三语音中选择一条历史第三语音，基于该条历史第三语音生成第三语音，触发第三语音播放单元。

所述第三语音播放单元，用于响应于第三语音生成单元的触发，播放所述第三语音。

所述用户反馈获取单元，还用于在没有获取到用户反馈的第二语音时，更新所述历史对话记录存储单元中存储的生成所述第一语音时所基于的历史第一语音对应的历史用户意愿等级，例如将其历史用户意愿等级降低预设值。

所述用户反馈获取单元，还用于在没有获取到用户反馈的第二语音时，触发所述第一语音生成单元。

所述第一语音生成单元所执行的基于所述每一条历史第一语音对应的历史用户意愿等级，从所述至少一条历史第一语音中选择一条历史第一语音，具体为：选择所述至少一条历史第一语音中在当前主动对话过程中没有被选择过的至少一条历史第一语音中历史用户意愿等级最高的历史第一语音，或者，从所述至少一条历史第一语音中当前主动对话过程中没有被选择过且历史用户意愿等级大于第一阈值的至少一条历史第一语音中选择一条历史第一语音，所述选择可以为随机选择。

所述第三语音生成单元执行的对所述第二语音进行分析得到当前用户意愿等级，具体为，对所述第二语音进行语义分析和语气分析。

所述第三语音生成单元，还用于获取用户说出第二语音时的面部表情，对所述第二语音和所述面部表情进行分析，得到当前用户意愿等级。

所述第三语音生成单元执行的基于所述每一条历史第三语音对应的历史用户意愿等级，从所述至少一条历史第三语音中选择一条历史第三语音，具体为：选择历史用户意愿等级最高的历史第三语音。

所述第三语音生成单元执行的基于该条历史第三语音生成第三语音，具体为：变换所述历史第三语音的话术生成第三语音。

所述第三语音生成单元执行的基于该条历史第三语音生成第三语音，具体为：确定与所述历史第三语音的历史用户意愿等级对应的记忆系数，所述记忆系数表示了所述第三语音和所述历史第三语音的相似程度；基于所述记忆系数生成所述第三语音。

所述第三语音生成单元执行的基于该条历史第三语音生成第三语音，具体为：基于该条历史第三语音中的关键词，查询是否有与所述关键词关联的更新内容，如果是，基于该条历史第三语音和所述更新内容生成第三语音。优选的，所述车载设备可以向云服务器发起所述查询过程。

为了使得与用户的对话得以进行下去，在所述第三语音播放单元播放第三语音后，触发所述用户反馈获取单元；所述用户反馈获取单元还用于响应于所述第三语音播放单元的触发，获取用户反馈的第二语音，并触发第三语音生成单元；所述第三语音生成单元响应于用户反馈获取单元的触发而执行其功能，并在生成第三语音后，触发第三语音播放单元播放新生成的第三语音，如此循环，直到没有获取到用户反馈的第二语音或者基于获取到的第二语音分析得到的当前用户意愿等级不大于第二阈值。

所述历史对话记录更新单元，还用于实时地将当前语音交互模态、播放的语音以及用户针对播放的语音反馈的语音、针对所述播放的语音的当前用户意愿等级存储到历史对话记录存储单元中。

本发明还提供一种主动对话的发起装置，所述装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如上所述的方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

本发明还提供一种车辆，所述车辆包括：如上所述的主动对话的发起装置。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

Claims

1.一种主动对话的发起方法，其特征在于，所述方法包括：

步骤102，基于当前语音交互模态，确定所述当前语音交互模态下的属于同一主动对话主题的历史第一语音A和历史第一语音B以及与所述历史第一语音A和历史第一语音B分别对应的历史用户意愿等级A和历史用户意愿等级B；基于所述历史第一语音A和历史第一语音B分别对应的历史用户意愿等级A和历史用户意愿等级B，从所述历史第一语音A和历史第一语音B中选择一条历史第一语音，基于所述选择的历史第一语音生成第一语音；其中，所述历史用户意愿等级A表征在历史对话过程中用户对属于所述同一主动对话主题的历史第一语音A的满意程度；所述历史用户意愿等级B表征在历史对话过程中用户对属于所述同一主动对话主题的历史第一语音B的满意程度；其中，基于所述选择的历史第一语音生成第一语音，具体为：基于所述选择的历史第一语音中的关键词，查询是否有与所述关键词关联的更新内容，如果是，基于所述选择的历史第一语音和所述更新内容生成第一语音；

步骤103，播放所述第一语音；

步骤104，判断是否获取到用户反馈的第二语音，如果是，且当第一语音的类型为聊天类而非任务类时，执行步骤105b-107b；如果未获取到用户反馈的第二语音，更新所述选择的历史第一语音的历史用户意愿等级，并重新选择所述历史第一语音A和历史第一语音B中没有被选择的另一条历史第一语音来生成第一语音，并执行步骤103；

步骤105b，对所述第二语音进行分析得到当前用户意愿等级；所述当前用户意愿等级表征在当前对话过程中用户对其所听到的第一语音的满意程度；

步骤106b，判断所述当前用户意愿等级是否大于第二阈值，如果是，基于所述第二语音，查询历史对话记录，得到对应所述同一主动对话主题的历史第三语音A和历史第三语音B以及与历史第三语音A和历史第三语音B对应的历史用户意愿等级A和历史用户意愿等级B；基于所述历史第三语音A和历史第三语音B对应的历史用户意愿等级A和历史用户意愿等级B，从所述历史第三语音A和历史第三语音B中选择一条历史第三语音，基于该条历史第三语音生成第三语音；

步骤107b，播放所述第三语音。

2.根据权利要求1所述的方法，其特征在于，在步骤102中，基于每一条历史第一语音对应的历史用户意愿等级，从至少一条历史第一语音中选择一条历史第一语音，具体为：

选择历史用户意愿等级最高的历史第一语音；或者，

从所述至少一条历史第一语音中历史用户意愿等级大于第一阈值的至少一条历史第一语音中选择一条历史第一语音。

3.根据权利要求1所述的方法，其特征在于，所述步骤104还包括，判断是否获取到用户反馈的第二语音，如果是，且当第一语音的类型为任务类时，执行步骤105a-109a；

步骤105a，基于所述第二语音判断是否要执行第一语音对应的任务，如果是，则执行步骤106a；

步骤108a，执行所述第一语音对应的任务；

步骤109a，基于所述未填充的任务槽位生成并播放第三语音，并接收用户针对所述第三语音反馈的第四语音，基于所述第四语音填充相应的任务槽位，执行步骤107a。

4.一种主动对话的发起装置，其特征在于，所述装置包括：

第一语音生成单元，用于基于当前语音交互模态，确定所述当前语音交互模态下的属于同一主动对话主题的历史第一语音A和历史第一语音B以及与历史第一语音A和历史第一语音B对应的历史用户意愿等级A和历史用户意愿等级B；基于所述历史第一语音A和历史第一语音B分别对应的历史用户意愿等级A和历史用户意愿等级B，从所述历史第一语音A和历史第一语音B中选择一条历史第一语音，基于所述选择的历史第一语音生成第一语音；其中，所述历史用户意愿等级A表征在历史对话过程中用户对属于所述同一主动对话主题的历史第一语音A的满意程度；所述历史用户意愿等级B表征在历史对话过程中用户对属于所述同一主动对话主题的历史第一语音B的满意程度；其中，基于所述选择的历史第一语音生成第一语音，具体为：基于所述选择的历史第一语音中的关键词，查询是否有与所述关键词关联的更新内容，如果是，基于所述选择的历史第一语音和所述更新内容生成第一语音；

第一语音播放单元，用于播放所述第一语音；

所述装置还包括用户反馈获取单元、第三语音生成单元和第三语音播放单元；

所述用户反馈获取单元，用于判断是否获取到用户反馈的第二语音，如果是，且第一语音的类型为聊天类而非任务类，触发第三语音生成单元；

所述第三语音生成单元，用于对所述第二语音进行分析得到当前用户意愿等级；所述当前用户意愿等级表征在当前对话过程中用户对其所听到的第一语音的满意程度；判断所述当前用户意愿等级是否大于第二阈值，如果是，基于所述第二语音，确定所述当前语音交互模态下的对应所述同一主动对话主题的历史第三语音A和历史第三语音B以及与历史第三语音A和历史第三语音B对应的历史用户意愿等级；基于每一条历史第三语音对应的历史用户意愿等级A和历史用户意愿等级B，从所述历史第三语音A和历史第三语音B中选择一条历史第三语音，基于该条历史第三语音生成第三语音

所述用户反馈获取单元，还用于在没有获取到用户反馈的第二语音时，更新所述选择的历史第一语音的历史用户意愿等级，并重新选择所述历史第一语音A和历史第一语音B中没有被选择的另一条历史第一语音来生成第一语音；

所述第三语音播放单元，用于播放所述第三语音。

5.根据权利要求4所述的装置，其特征在于，所述基于每一条历史第一语音对应的历史用户意愿等级，从至少一条历史第一语音中选择一条历史第一语音，具体为：

选择历史用户意愿等级最高的历史第一语音；或者，

6.根据权利要求4所述的装置，其特征在于，所述装置还包括任务执行单元；

所述用户反馈获取单元，还用于判断是否获取到用户反馈的第二语音，如果是，且第一语音的类型为任务类，则触发任务执行单元；

所述任务执行单元，用于：基于所述第二语音判断是否要执行第一语音对应的任务，如果是，基于所述第一语音和所述第二语音填充与所述第一语音对应的任务相关联的任务槽位；判断与所述第一语音对应的任务相关联的任务槽位是否均填充完毕，如果填充完毕，则执行所述第一语音对应的任务，如果存在一个或多个任务槽位未填充，基于所述未填充的任务槽位生成并播放第三语音，并接收用户针对所述第三语音反馈的第四语音，基于所述第四语音填充相应的任务槽位，直至与所述第一语音对应的任务相关联的任务槽位均填充完毕，执行所述第一语音对应的任务。

7.一种主动对话的发起装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如权利要求1-3任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1-3任一项所述的方法。

9.一种车辆，其特征在于，所述车辆包括：如权利要求4-6任一项所述的主动对话的发起装置。