CN113658580A

CN113658580A - 语音提示方法、装置、计算机设备和存储介质

Info

Publication number: CN113658580A
Application number: CN202110703806.7A
Authority: CN
Inventors: 杜京钢; 张文瑜
Original assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Current assignee: Volkswagen Mobvoi Beijing Information Technology Co Ltd
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2021-11-16
Anticipated expiration: 2041-06-24
Also published as: CN113658580B

Abstract

本申请涉及一种语音提示方法、装置、计算机设备和存储介质。该方法包括：在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，关系人语音库中包括预先采集的与用户存在指定关系的至少一个关系人的语音数据；根据目标关系人的语音数据合成目标关系人的声音；生成提示内容，利用合成的目标关系人的声音并根据提示内容进行语音提示。采用本方法能够在用户处于冲动驾驶状态时，提高语音提示的针对性和准确性，从而实现有效调节用户驾驶情绪的目的。

Description

语音提示方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音技术领域，特别是涉及一种语音提示方法、装置、计算机设备和存储介质。

背景技术

随着语音技术的发展，语音技术被越来越多地应用于车载设备上。用户在驾车途中，车载设备可以为用户提供语音服务，以实现提示或警示用户的目的。

例如，当用户在驾驶途中情绪异常、出现冲动驾驶时，车载设备可以提供语音提示服务，调节用户的情绪，降低用户冲动开车的概率。然而，传统的语音提示服务，提示语音的形式单一且没有针对性，用户在冲动驾驶状态下，并不能有针对地为用户提供准确的语音提示服务，因此，很难实现警示用户、调节用户驾驶情绪的目的。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高语音提示针对性和准确性的语音提示方法、装置、计算机设备和存储介质。

一种语音提示方法，上述方法包括：

在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，关系人语音库中包括预先采集的与用户存在指定关系的至少一个关系人的语音数据；

根据目标关系人的语音数据合成目标关系人的声音；

生成提示内容，利用合成的目标关系人的声音并根据提示内容进行语音提示。

在一个实施例中，关系人是与用户之间存在亲密关系的人，关系人的确定方法包括：获取一定时间段内用户与交互方进行语音交互的交互数据，若交互数据符合亲密关系判别条件，则将交互方确定为关系人；亲密关系判别条件包括：语音交互频率大于预设阈值、交互过程中亲密话语词汇使用频率大于预设阈值、交互过程中用户的语气温和度大于预设阈值中的至少一个。

在一个实施例中，上述方法还包括：采集用户的语音数据，对用户的语音数据进行解析；在解析到用户的语音数据中包含预设的目标关键词时，采集与用户的语音数据对应的应答语音数据；将应答语音数据存入关系人语音库中。

在一个实施例中，采集与用户的语音数据对应的应答语音数据，包括：采集待检测语音数据，待检测语音数据为在用户的语音数据之后采集的语音数据；若待检测语音数据的声纹信息与用户的语音数据的声纹信息不同，则将待检测语音数据确定为应答语音数据。

在一个实施例中，生成提示内容，包括：从目标关系人的语音数据中筛选目标语料，目标语料为反映目标关系人与用户之间需求或被需求关联关系的语料；基于目标语料，并结合与用户的当前驾驶行为相适应的安全驾驶提示用语生成所述提示内容。

在一个实施例中，生成提示内容，包括：从偏好词库集中选取偏好关键词，偏好词库集为预先根据反映用户的个人喜好倾向的信息构建的词库集，偏好关键词为表征用户个人喜好倾向的关键词；根据偏好关键词生成提示内容。

在一个实施例中，上述方法还包括：采集用户的语音数据，从用户的语音数据中识别表征个人喜好倾向的偏好信息；从偏好信息中提取关键词，基于提取的关键词构建偏好词库集；对偏好词库集中的关键词进行词频统计，将出现频次达到预设次数的关键词确定为偏好关键词。

在一个实施例中，生成提示内容，包括：获取应用场景信息，结合所述应用场景信息生成提示内容；其中，所述应用场景信息为用户位置信息、预设时间段内的天气信息、预设时间段内的节假日信息、预设时间段内的时节信息、预设时间段内的行程信息、预设时间段内的备忘信息、当前驾驶行为信息中的至少一种。

在一个实施例中，上述方法还包括：获取用户的驾驶行为信息，在驾驶行为信息符合预设条件时，判定用户处于冲动驾驶状态。

在一个实施例中，预设条件为驾驶模式为非运动模式、油门踩踏力度大于力度阈值、油门踩踏时长大于时长阈值和道路偏移次数大于次数阈值中的至少两个。

一种语音提示装置，上述装置包括：

语音数据选取模块，用于在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，关系人语音库中包括预先采集的与用户存在指定关系的至少一个关系人的语音数据；

目标声音合成模块，用于根据目标关系人的语音数据合成目标关系人的声音；

提示内容生成模块，用于生成提示内容，利用合成的目标关系人的声音并根据提示内容进行语音提示。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的语音提示方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的语音提示方法的步骤。

上述语音提示方法、装置、计算机设备和存储介质，通过预先构建的关系人语音库，在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据并合成目标关系人的声音，通过目标关系人的声音播放生成的提示内容。在对用户进行驾驶情绪疏导时，由于语音提示的声音是与该用户具有指定关系的关系人的声音，因此，对于该用户来说更具针对性，能够更准确地安抚其内心，也即是提高了语音提示的针对性和准确性，从而能够实现有效调节用户驾驶情绪的目的。

附图说明

图1为一个实施例中语音提示方法的应用环境图；

图2为一个实施例中语音提示方法的流程示意图；

图3为一个应用实例中根据驾驶行为信息判断用户是否处于冲动驾驶状态的流程示意图；

图4为一个应用实例中通过采集语音数据构建关系人语音库的流程示意图；

图5为一个应用实例中根据语音数据提取关键词来构建用户的偏好词库集的流程示意图；

图6为一个应用实例中根据不同策略生成提示内容的流程示意图；

图7为一个实施例中语音提示装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

可以理解，本申请所使用的术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或者”的关系。

本申请提供的语音提示方法，可以应用于如图1所示的应用环境中。其中，终端设备102与检测设备104进行通信。在通过检测设备104检测出用户处于冲动驾驶状态时，终端设备102从关系人语音库中获取目标关系人的语音数据，关系人语音库中包括预先采集的与用户存在指定关系的至少一个关系人的语音数据，终端设备102根据目标关系人的语音数据合成目标关系人的声音，终端设备102生成提示内容，利用合成的目标关系人的声音，并根据生成的提示内容进行语音提示。终端设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑或车载终端设备等终端设备。

在一个实施例中，如图2所示，提供了一种语音提示方法，以该方法应用于图1中的终端设备为例进行说明，包括以下步骤：

步骤S202：在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，关系人语音库中包括预先采集的与用户存在指定关系的至少一个关系人的语音数据。

其中，用户是指该终端设备所关联车辆的用户，可以包括驾驶者、车主或车辆使用者等。关系人语音库中包括与该用户具有指定关系的至少一个关系人的语音数据，关系人与用户之间存在的指定关系可以是亲密关系，关系人可以是用户较为亲近或较为关心的人，即与用户的亲密度达到一定程度的人。例如，关系人可以是用户的父亲、母亲、妻子或儿女等亲人。关系人的确定方式不限，可以是预先设定的，也可以是根据其与用户之间的语音交互频率、语音交互内容、语音交互语气等进行筛选和判别。目标关系人是从关系人语音库中包含的关系人中选出的任意一个。

具体地，可以利用检测设备等检测用户的驾驶行为信息，终端设备根据驾驶行为信息可以分析出用户当前是否处于冲动驾驶状态。在判断出用户处于冲动驾驶状态时，可以从关系人语音库中选取一个关系人作为目标关系人，并调取目标关系人的语音数据。目标关系人的选取方式不限，可以是基于预设的优先级进行选取，也可以是随机选取，还可以基于车辆当前的状态或用户当前的驾驶行为等进行选取。步骤S204：根据目标关系人的语音数据合成目标关系人的声音。

具体地，在从关系人语音库中获取到目标关系人的语音数据后，可以采用语音合成技术，例如，TTS(Text-To-Speech，从文本到语音)语音合成技术等，将目标关系人的语音数据作为语料，对目标关系人的音色、音调等进行合成和模拟。

步骤S206：生成提示内容，利用合成的目标关系人的声音并根据提示内容进行语音提示。

具体地，生成提示内容的方式可以包括：随机生成、根据用户的语音交互数据生成、根据目标关系人的语音数据生成、根据应用场景信息生成、根据用户的偏好信息生成、根据用户指定/录入的数据生成或上述几种的结合等。例如，提示内容可以根据该用户在使用该车载终端时产生的历史语音数据、天气、位置、时节、兴趣偏好等信息随机生成。在生成提示内容后，终端设备可以采用步骤S204合成的目标关系人的声音，模拟该目标关系人的声音对生成的提示内容进行语音播放，从而实现提示用户的目的。

上述语音提示方法，通过预先构建的关系人语音库，在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据并合成目标关系人的声音，通过目标关系人的声音播放生成的语音提示内容。在对用户进行驾驶情绪疏导时，由于语音提示的声音是与该用户具有指定关系的关系人的声音，因此，对于该用户来说更具针对性，能够更准确地安抚其内心，也即是提高了语音提示的针对性和准确性，从而能够实现有效调节用户驾驶情绪的目的。在一个实施例中，关系人是与用户之间存在亲密关系的人，关系人的确定方法可以包括：获取一定时间段内用户与交互方进行语音交互的交互数据，若交互数据符合亲密关系判别条件，则将交互方确定为关系人。

其中，亲密关系判别条件包括：语音交互频率大于预设阈值、交互过程中亲密话语词汇使用频率大于预设阈值、交互过程中用户的语气温和度大于预设阈值中的至少一个。

在本实施例中，可以从与用户交互的交互人中筛选与用户具有亲密关系、达到一定亲密程度的人作为关系人。具体地，筛选出的关系人可以是最近时间段内(一个月或者半年等)与用户语音交互时，亲密话语词汇使用频率最高或者比较高的人，也可以是与用户语音交互时，用户对其的语气最温柔或者比较温柔的人，还可以是亲密话语词汇使用频率较高而且用户对其语气较温柔的人。

本实施例，通过设置亲密关系判别条件，可以筛选出与用户之间存在亲密关系的关系人。由于筛选出的关系人与用户之间具有较高亲密度，因此，关系人的声音、话语才能更直接地到达用户的心底，更深刻地影响用户，从而能够提高调节用户情绪的效率。

在一个实施例中，上述方法还包括：采集用户的语音数据，对用户的语音数据进行解析；在解析到用户的语音数据中包含预设的目标关键词时，采集用户的语音数据对应的应答语音数据；将应答语音数据存入关系人语音库中。

其中，应答语音数据是指该用户与其他人进行语音交互的过程中，与用户交互的相对方的语音数据。目标关键词是指预设的用于表征指定关系人与用户之间关联关系的关键词，例如，表征亲属关系的关键词：爸爸、妈妈、宝贝、老婆、儿子、女儿等关键词。

具体地，可以通过声纹识别技术实时地识别并采集用户与他人交互过程中产生的语音数据，通过NLP(Natural Language Processing，自然语言处理)技术等对采集的用户的语音数据进行解析，当解析出用户的语音数据中包含预设的目标关键词时，采集此时与用户进行交互的相对方的语音数据，将其作为目标关键词所表征的关系人的语音数据，并将其存入关系人语音库中。

例如，在关系人语音库中，可以根据亲密关系称呼(目标关键词)划分为爸爸、妈妈、孩子、老婆等分组，在语音交互过程中，将有爸爸、妈妈、宝贝、老婆、儿子、女儿等有亲密关系称呼(目标关键词)的语料(语音数据)，根据各自的亲密关系称呼分别存入关系人语音库中的对应分组中。

在本实施例中，通过采集用户的语音数据，并对采集的语音数据进行识别、解析和分类存储，可以构建出适用于该用户的关系人语音库。关系人语音库的构建是目标关系人语音合成的前提和基础，关系人语音库中的语音数据可以作为语音合成的输入数据，因此，不需要关系人提前录制语音提示，即可实现模拟关系人的声音进行语音提示的目的。

在一个实施例中，采集用户的语音数据对应的应答语音数据，包括：采集待检测语音数据，待检测语音数据为在用户的语音数据之后采集的语音数据；若待检测语音数据的声纹信息与用户的语音数据的声纹信息不同，则将待检测语音数据确定为应答语音数据。

本实施例，通过对在后采集的语音数据进行声纹检测，可以判断出两者是否出自同一发音人。若在后采集的语音数据具有与用户的语音数据相同的声纹信息，则很有可能是用户本人的连续发声，因此，不能将其直接认定为应答语音数据。本实施例，通过声纹识别技术可以更准确地确定出需要采集、需要作为语料存入关系人语音库中的语音数据，从而提高了关系人语音库构建的准确性。

在一个实施例中，生成提示内容，包括：从目标关系人的语音数据中筛选目标语料，目标语料为反映目标关系人与用户之间需求或被需求关联关系的语料；基于目标语料，并结合安全驾驶提示用语生成提示内容。

例如，当选定的目标关系人是女朋友时，筛选的目标语料可以为“亲爱的，别忘记我们的周末约会啊，到时会有小惊喜呢”，基于目标语料并结合安全驾驶提示用语生成的提示内容可以为：亲爱的，别忘记我们的周末约会啊，到时会有小惊喜呢，开车注意安全哦！

当选定的目标关系人是儿子时，筛选的目标语料可以为“老爸，你就是我心中的超人，记得要教我学习骑自行车啊”基于目标语料并结合安全驾驶提示用语生成的提示内容可以为：老爸，你就是我心中的超人，记得要教我学习骑自行车啊，开车慢一点，不要着急啊！

当选定的目标关系人是母亲时，筛选的目标语料可以为“最近抽空回趟家啊，给你做你最爱吃的红烧肉”，基于目标语料并结合安全驾驶提示用语生成的提示内容可以为：最近抽空回趟家啊，给你做你最爱吃的红烧肉，开车安全第一！

在上述举例中，“别忘记我们的周末约会”、“教我学习骑自行车”、“抽空回趟家”等语料包含了用户被关系人所依赖、需要的语义，能够反映用户和目标关系人之间的需要和被需要的关联关系。通过从目标关系人的语音数据中筛选反映用户和目标关系人之间的需要和被需要的关联关系的语料作为提示内容的素材，能够使用户感受到自己被需要、被依赖，从而能够降低该用户的激动或者焦虑的情绪。在一个实施例中，生成提示内容，包括：从偏好词库集中选取偏好关键词，根据偏好关键词生成提示内容。

其中，偏好词库集为预先根据用户的个人喜好倾向构建的词库集，偏好关键词为表征用户个人喜好倾向的关键词。

具体地，从偏好词库集中选取偏好关键词的方式不限，可以是随机选取，也可以是根据偏好关键词出现频次的高低，按照由高至低的顺序优选选择出现频次高的偏好关键词。

本实施例，通过选取表征用户个人喜好倾向的偏好关键词，并基于偏好关键词生成提示内容，在对用户进行情绪疏导时，语音提示的内容是投其所好的，对于不同的用户，因其偏好不同生成的语音提示内容也是有差异的，因此，可以更准确、精准地直达用户的内心，提高调节用户驾驶情绪的效率，实现精准提示的目的。

其中，偏好信息为能够反映用户衣食住行等多个方面偏好的信息，例如，可以包括喜好音乐信息、常去餐厅信息、常吃菜系信息、常去景点信息、常去休闲娱乐会所信息中的至少一种。对语音数据进行识别的方式不限，例如，可以采用ASR(Automatic SpeechRecognition，自动语音识别)技术、NLP自然语义理解技术等。

本实施例，通过采集语音数据并分析语音数据，可以对日常生活中用户产生的语音数据进行关键词提取、整理以及归类，从而构建偏好词库集过词频统计的方式，根据关键词出现频次的高低确定有待采用的偏好关键词，从而更准确地实现定位用户偏好的目的。

在一个实施例中，生成提示内容，包括：获取应用场景信息，结合应用场景信息生成提示内容。

其中，应用场景信息为用户位置信息、预设时间段内的天气信息、预设时间段内的节假日信息、预设时间段内的时节信息、预设时间段内的行程信息、预设时间段内的备忘信息、当前驾驶行为信息中的至少一种。

在本实施例中，还可以进一步结合应用场景信息生成多样化的语音提示内容。通过不同信息的自由组合可以产生多种提示方案，根据不同的提示方案会生成多样化的提示内容，多样化的提示内容能够让用户觉得新鲜、有趣，用户无法提前预测到提示内容，因此会对用户的情绪产生更大的安抚作用，从而引导用户更好的安排体验美好生活、提高驾驶安全性。

例如，在一些应用实例中，可以结合节假日信息和美好话术生成提示内容，以使用户感觉生活的美好，从而谨慎驾驶。或者，可以调用未来一定时间段内的天气信息，随机选择一天的天气信息结合用户的偏好地点，生成提示内容，比如，统计到用户常去的旅游景点是灵山，可以结合某个风和日丽的周末的天气信息生成提示内容如下：亲爱的，这个周末天气非常好，晴朗无云15～25度，咱们一起去灵山看风景吧(选用恋人的语音数据模拟恋人声音进行提醒)。

在另一些应用实例中，在选取安全驾驶提示用语时，可以结合用户的当前驾驶行为信息，选取与当前驾驶行为相适应的安全驾驶提示用语。

例如，若用户频繁变道，说明当前车流量较大，用户又比较着急，生成的提示内容可以为：当前车流量多，请不要着急，爸爸，晚上在家等你吃饭哦(目标关系人为孩子)。

若用户持续性地踩油门，虽然是车辆较少，但当前车速过大，生成的提示内容可以为：当前车流量虽不多，也不要着急，注意速度哦，老公，记得周末我们要一起去xx玩呀(目标关系人为老婆)。进一步地，其中的游玩信息还可以进一步结合日历中记载的行程信息而生成。

在一个实施例中，上述方法还包括：获取用户的驾驶行为信息；在驾驶行为信息符合预设条件时，判定用户处于冲动驾驶状态。

本实施例中，驾驶行为信息可以是驾驶模式信息、油门踩踏力度信息、油门踩踏时长，和/或道路偏移次数信息等。通过检测用户的驾驶行为，得到相应的驾驶行为信息，根据驾驶行为信息和预设条件进行判断，可以相对准确地实现用户当前驾驶情绪的推定。

在一个实施例中，预设的条件为驾驶模式为非运动模式、油门踩踏力度大于力度阈值、油门踩踏时长大于时长阈值和道路偏移次数大于次数阈值中的至少两个。

其中，驾驶模式可以分为运动模式和非运动模式，也称为激烈模式和非激烈模式。时长阈值是表征用户踩踏油门时间长短的阈值，可以根据经验进行设置，也可以根据机器学习等得到的车辆记忆的油门踩踏时长进行设置，优选地，可以设置为0.8秒～1.2秒之间，更为优选地，可以设置为1秒。力度阈值是表征用户踩踏油门的力度大小的阈值，可以根据经验或车辆的记忆力度进行设置。次数阈值是表征车辆道路偏移次数的阈值，即车辆进行车道切换的切换次数的阈值。

本实施例，通过判断用户的驾驶行为是否符合预设条件，当用户的驾驶行为至少符合两个上述的预设条件时，可以较为准确地判定出用户当前处于冲动驾驶状态，需要进行语音提示以安抚其情绪。

下面，结合一个应用实例，对本发明所涉及的语音提示方法进行更详细地说明。具体可以包括以下步骤：

步骤1：对驾驶模式进行检测，判断当前驾驶模式是运动模式还是非运动模式。

其中，驾驶模式包括运动模式(激烈模式)和非运动模式(非激烈模式)。如果是在运动模式下，则判定用户已经有要做激烈行驶或者超车的准备，是在理智清醒的条件下的一种人为选择，而不是理智不清情况下的“意气用事的赌气车”行为。所以检测驾驶模式是判断用户此时是否理智清醒的第一步。在非运动模式或者激烈模式下的超车过激行车行为，大概率是情绪驱动的冲动驾驶行为，是一种危险行为，这个时候需要语音助手给予相应的语音提示以安抚用户情绪。

步骤2：检测油门踩踏力度。利用检测出的油门踩踏力度和车辆记忆的油门踩踏力度进行对比，若大于记忆力度，则记为一次猛给油。

步骤3：检测油门踩踏时长，利用检测出的油门踩踏时长和预设的油门踩踏时长的阈值进行对比。

其中，油门踩踏时长的阈值可以设置为1秒、1.2秒、0.8秒或其他任意一个经验值，经验值的设定因人而异，也可以是车辆的油门踩踏记忆时长。

步骤4：检测道路偏移情况。

其中，用户被其他车辆阻碍，俗称别车，是一种常见的开赌气车的诱因，在这种情况下，用户往往会选择超过对方车辆，情节严重者双方以相互超车拼车技的方式进行“还击”，所以在满足了以上三个步骤后，还可以在检测到用户频繁变换车道(变换次数大于1)时，判定该用户处于情绪激烈下的赌气超车行为，而非赶时间，这种情况下，需要语音助手进行额外干预稳定用户情绪。

例如，用户在非运动模式下，猛给油，且踩踏油门时长大于1秒，并且检测到车辆偏移次数大于一次。让同时具备以上4个条件，可以判定用户当前是在非理智状态下驾驶，处于冲动驾驶状态。根据驾驶行为信息判断用户是否处于冲动驾驶状态的具体流程参见图3所示。

步骤5：在语音交互过程中，对于与用户进行交互的语音进行声纹识别，将有爸爸、妈妈、宝贝、老婆、儿子、女儿等有亲密关系称呼的语料，根据称呼划为爸爸、妈妈、孩子、老婆等分组，一起划分到关系人语音库中。

例如，利用声纹识别技术检测到用户说了一句“爸爸，想去哪儿吃饭”，这句话中包含亲密关系称呼词“爸爸”，则与之对应的答复(该答复不是用户的声纹)，比如答复了一句“就近吃点清淡的吧”，将这句话采集并存储到一个叫做“爸爸”的分组中。留作安抚情绪需要调用的TTS声音合成爸爸语音的语音数据。如果带有亲密称呼的语句的下一句依然是用户声纹，则很有可能是用户更多的询问，并不是爸爸的语音，所以不能简单将带有亲密关系称呼的下一句应答判定为该亲密关系人的语音，需要再做一次声纹检测，检测到不同声音时，再将其存入对应的关系人语音库中。采集语音数据构建关系人语音库的具体流程参见图4所示。

步骤6：利用语义理解NLP技术，对用户喜好的音乐、常去的餐厅、常吃的菜系、常去的景点、常去的休闲娱乐会所等进行理解和归类，并提取关键词进行词频统计。根据语音数据提取关键词构建用户的偏好词库集的具体流程参见图5所示。

例如，采集用户说的“播放周杰伦的《夜的第七章》”的语音，通过NLP技术判断这句话是属于音乐领域，这句话包含一定的偏好信息，对偏好词库集的构建是有贡献的。其中，slot的词汇分别为，歌手：周杰伦；歌曲：夜的第七章。因此，通过词频统计可以对“周杰伦”计数1次，对歌曲“夜的第七章”也计数1次。餐厅领域、景点等的slot词汇也做同样的计数，计数次数最多的，则是用户喜欢的歌手，歌曲，景点，餐厅。比如，通过词频统计，“周杰伦”共被计数120次，“王菲”共被计数80次，则可判断相比王菲，用户更喜欢周杰伦。通过该方法可以了解到用户的个人喜好，构建用户的偏好词库集。

步骤7：若检测到用户此时是处于开赌气车或者驾驶情绪比较激烈的情形下，根据用户的喜好，在以上步骤的基础上，利用TTS技术合成亲密关系人的声音，例如孩子的声音，采用孩子的声音进行相应的语音提示。在提示内容上，可以结合车辆地点、当时天气和当时日期(应用场景信息)的不同，根据不同策略给出相应的语音提示。根据不同的策略生成语音提示内容的具体流程参考图6所示。

本申请涉及的语音提示方法，在检测到用户正在开赌气车时，进入情绪安抚模式，下面从三个方面进行说明：

1、在提示声音的选择上，首先选定TTS发音人的声音，优先顺序可以为父母>孩子>恋人。如果关系人语音库中没有检测到孩子的语音集，则优先顺序为父母>恋人。可选取的关系人的声音随机进行选择合成，比如第一次提醒选用的是父亲的声音模拟，则第二次提醒是选用恋人，依次循环，交错进行提醒。这样的优势在于提醒的音色具有随机性，不容易被预测，且指定关系人的声音相比常用的TTS声音，对用户来说更有针对性，更有家人陪伴的感觉，安抚效果更佳。

2、在提示内容的选择上，首先判断最近三十天是否有无性别差异的法定节假日(父亲节、母亲节、3.8妇女节等有性别差异，可以除外)，若有，则优先进行美好话术加节假日提醒的安抚方案，让用户感觉生活的美好，谨慎驾驶。若无，则调用最近一周的天气，随机选择其中一天的天气进行预报，同时结合用户的爱好进行推送，比如，统计到用户最为常去的旅游景点是灵山，结合某个风和日丽的周末，可以进行如下提示：亲爱的，这个周末天气非常好，晴朗无云15～25度，咱们一起去灵山看风景吧(选用恋人的语音数据模拟恋人的声音进行提醒)。

3、提示方式的选择上，例如，选用周末的天气进行提示时，若某一景点已经被使用进行过一次情绪安抚，则下次选用词频排在第二的景点进行提醒。比如常去的景点词频排序为灵山100次，大觉寺85次，八大处50次，则在推送时，推送优先次序为灵山>大觉寺>八大处。根据词频出现的高低进行提示内容的生成的好处在于，优先推送用户的最爱，投其所好，会激发用户的关注度。每次推送地点不同，不会让用户产生单调感，会让用户觉得有趣好玩。音乐、景点、餐厅搭配不同的天气，让每次情绪安抚多样且符合用户口味，天气信息结合用户不同的偏好的放松方式，以给出提示，从而可以引导用户更好的安排体验美好生活。

本申请所述涉及的语音提示方法至少具有下述特点：

1、利用声纹识别技术对用户交互过程中的语音数据进行分类存储，构建关系人语音库，关系人语音库的构建是TTS语音合成的前提和基础。其优点是为TTS合成技术提供了数据输入。使得用于语音提示的语音不是单调的某一个人的声音，而是属于与用户具有指定关系的关系人的声音，且不用提前录制，让用户感觉到意外或者惊喜。

2、利用NLP技术对用户的衣食住行类的喜好做归类，并进行词频统计，构建用户的偏好词库集。比如，通过用户的语音数据“带我到粤菜馆吃饭”，可以根据NLP技术进行语义解析，解析到这是一个正向的需求，涉及偏好信息，则提取“粤菜”并进行一次词频统计。音乐和休闲放松等其他领域的语音数据也是类似的处理方式，统计的出现频次达到预设次数的词，便是反映用户偏好的关键词。其优点在于对用户进行情绪疏导的时候，是投其所好的，是了解用户的，能够实现有差异性地进行安抚，在紧张情绪下让用户感受到生活中即将发生的美好，从而回归理性，珍惜生命，安全驾驶。

3、在检测出用户处于冲动驾驶状态时，还可以结合当下应用场景，比如，当下的位置、天气和/或时节等，依据不同策略进行情绪疏导是创新点。例如，检测到用户此时正在开赌气车，当下是4月份的某一天，且用户偏好是周末去门头沟放松，则可以随机合成孩子的声音进行情绪安抚，内容可以是“爸爸，五一假期快要到了，想爸爸带宝宝去有山有水的地方拍漂亮的照片”。其中，生成提示内容的策略可以根据需要进行调整，因此安抚方式是定制化和多样化的。

应该理解的是，虽然图2至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至图6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种语音提示装置，包括：语音数据选取模块710、目标声音合成模块720和提示内容生成模块730，其中：

语音数据选取模块710，用于在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，所述关系人语音库中包括预先采集的与所述用户存在指定关系的至少一个关系人的语音数据。

目标声音合成模块720，用于根据所述目标关系人的语音数据合成所述目标关系人的声音。

提示内容生成模块730，用于生成提示内容，利用合成的所述目标关系人的声音并根据所述提示内容进行语音提示。在一个实施例中，语音数据选取模块710还用于确定关系人，获取一定时间段内用户与交互方进行语音交互的交互数据，若交互数据符合亲密关系判别条件，则将交互方确定为关系人；亲密关系判别条件包括：语音交互频率大于预设阈值、交互过程中亲密话语词汇使用频率大于预设阈值、交互过程中用户的语气温和度大于预设阈值中的至少一个。

在一个实施例中，上述语音提示装置还包括语音数据采集模块740，语音数据采集模块740用于采集用户的语音数据，对用户的语音数据进行解析，在解析到用户的语音数据中包含预设的目标关键词时，采集与用户的语音数据对应的应答语音数据，将应答语音数据存入关系人语音库中。

在一个实施例中，语音数据采集模块740采集待检测语音数据，待检测语音数据为在用户的语音数据之后采集的语音数据，若待检测语音数据的声纹信息与用户的语音数据的声纹信息不同，则将待检测语音数据确定为应答语音数据。

在一个实施例中，提示内容生成模块730从目标关系人的语音数据中筛选目标语料，目标语料为反映目标关系人与用户之间需求或被需求关联关系的语料；基于目标语料，并结合与用户的当前驾驶行为相适应的安全驾驶提示用语生成所述提示内容。

在一个实施例中，提示内容生成模块730从偏好词库集中选取偏好关键词，偏好词库集为预先根据反映用户的个人喜好倾向的信息构建的词库集，偏好关键词为表征用户个人喜好倾向的关键词；根据偏好关键词生成提示内容。

在一个实施例中，语音数据采集模块740，还用于采集用户的语音数据，从用户的语音数据中识别表征个人喜好倾向的偏好信息，从偏好信息中提取关键词，基于提取的关键词构建偏好词库集，对偏好词库集中的关键词进行词频统计，将出现频次达到预设次数的关键词确定为偏好关键词。

在一个实施例中，提示内容生成模块730获取应用场景信息，结合所述应用场景信息生成提示内容；其中，所述应用场景信息为用户位置信息、预设时间段内的天气信息、预设时间段内的节假日信息、预设时间段内的时节信息、预设时间段内的行程信息、预设时间段内的备忘信息、当前驾驶行为信息中的至少一种。

在一个实施例中，上述语音提示装置还包括驾驶状态检测模块750，驾驶状态检测模块750获取用户的驾驶行为信息，在驾驶行为信息符合预设条件时，判定用户处于冲动驾驶状态。

在一个实施例中，驾驶状态检测模块750判断驾驶行为信息是否符合预设条件，预设条件为驾驶模式为非运动模式、油门踩踏力度大于力度阈值、油门踩踏时长大于时长阈值和道路偏移次数大于次数阈值中的至少两个。

关于语音提示装置的具体限定可以参见上文中对于语音提示方法的限定，在此不再赘述。上述语音提示装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端设备，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端设备通过网络连接通信。该计算机程序被处理器执行时以实现一种语音提示方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，关系人语音库中包括预先采集的与用户存在指定关系的至少一个关系人的语音数据；根据目标关系人的语音数据合成目标关系人的声音；生成提示内容，利用合成的目标关系人的声音并根据提示内容进行语音提示。

在一个实施例中，处理器执行计算机程序实现确定关系人时，具体实现以下步骤：获取一定时间段内用户与交互方进行语音交互的交互数据，若交互数据符合亲密关系判别条件，则将交互方确定为关系人；亲密关系判别条件包括：语音交互频率大于预设阈值、交互过程中亲密话语词汇使用频率大于预设阈值、交互过程中用户的语气温和度大于预设阈值中的至少一个。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：采集用户的语音数据，对用户的语音数据进行解析；在解析到用户的语音数据中包含预设的目标关键词时，采集与用户的语音数据对应的应答语音数据；将应答语音数据存入关系人语音库中。

在一个实施例中，处理器执行计算机程序实现采集与用户的语音数据对应的应答语音数据时实现以下步骤：采集待检测语音数据，待检测语音数据为在用户的语音数据之后采集的语音数据；若待检测语音数据的声纹信息与用户的语音数据的声纹信息不同，则将待检测语音数据确定为应答语音数据。

在一个实施例中，处理器执行计算机程序实现生成提示内容时实现以下步骤：从目标关系人的语音数据中筛选目标语料，目标语料为反映目标关系人与用户之间需求或被需求关联关系的语料；基于目标语料，并结合与用户的当前驾驶行为相适应的安全驾驶提示用语生成所述提示内容。

在一个实施例中，处理器执行计算机程序实现生成提示内容时实现以下步骤：从偏好词库集中选取偏好关键词，偏好词库集为预先根据反映用户的个人喜好倾向的信息构建的词库集，偏好关键词为表征用户个人喜好倾向的关键词；根据偏好关键词生成提示内容。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：采集用户的语音数据，从用户的语音数据中识别表征个人喜好倾向的偏好信息；从偏好信息中提取关键词，基于提取的关键词构建偏好词库集；对偏好词库集中的关键词进行词频统计，将出现频次达到预设次数的关键词确定为偏好关键词。

在一个实施例中，处理器执行计算机程序实现生成提示内容时实现以下步骤：获取应用场景信息，结合所述应用场景信息生成提示内容；其中，所述应用场景信息为用户位置信息、预设时间段内的天气信息、预设时间段内的节假日信息、预设时间段内的时节信息、预设时间段内的行程信息、预设时间段内的备忘信息、当前驾驶行为信息中的至少一种。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取用户的驾驶行为信息，在驾驶行为信息符合预设条件时，判定用户处于冲动驾驶状态。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，关系人语音库中包括预先采集的与用户存在指定关系的至少一个关系人的语音数据；根据目标关系人的语音数据合成目标关系人的声音；生成提示内容，利用合成的目标关系人的声音并根据提示内容进行语音提示。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：采集用户的语音数据，对用户的语音数据进行解析；在解析到用户的语音数据中包含预设的目标关键词时，采集与用户的语音数据对应的应答语音数据；将应答语音数据存入关系人语音库中。

在一个实施例中，计算机程序被处理器执行实现采集与用户的语音数据对应的应答语音数据时实现以下步骤：采集待检测语音数据，待检测语音数据为在用户的语音数据之后采集的语音数据；若待检测语音数据的声纹信息与用户的语音数据的声纹信息不同，则将待检测语音数据确定为应答语音数据。

在一个实施例中，计算机程序被处理器执行实现生成提示内容时实现以下步骤：从目标关系人的语音数据中筛选目标语料，目标语料为反映目标关系人与用户之间需求或被需求关联关系的语料；基于目标语料，并结合与用户的当前驾驶行为相适应的安全驾驶提示用语生成所述提示内容。

在一个实施例中，计算机程序被处理器执行实现生成提示内容时实现以下步骤：从偏好词库集中选取偏好关键词，偏好词库集为预先根据反映用户的个人喜好倾向的信息构建的词库集，偏好关键词为表征用户个人喜好倾向的关键词；根据偏好关键词生成提示内容。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：采集用户的语音数据，从用户的语音数据中识别表征个人喜好倾向的偏好信息；从偏好信息中提取关键词，基于提取的关键词构建偏好词库集；对偏好词库集中的关键词进行词频统计，将出现频次达到预设次数的关键词确定为偏好关键词。

在一个实施例中，计算机程序被处理器执行实现确定关系人时，具体实现以下步骤：获取一定时间段内用户与交互方进行语音交互的交互数据，若交互数据符合亲密关系判别条件，则将交互方确定为关系人；亲密关系判别条件包括：语音交互频率大于预设阈值、交互过程中亲密话语词汇使用频率大于预设阈值、交互过程中用户的语气温和度大于预设阈值中的至少一个。

在一个实施例中，计算机程序被处理器执行实现根据偏好关键词生成提示内容时实现以下步骤：获取应用场景信息，结合应用场景信息和偏好关键词生成提示内容，应用场景信息为用户位置信息、预设时间段内的天气信息、预设时间段内的节假日信息、预设时间段内的时节信息中的至少一种。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取用户的驾驶行为信息，在驾驶行为信息符合预设条件时，判定用户处于冲动驾驶状态。

本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音提示方法，所述方法包括：

在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，所述关系人语音库中包括预先采集的与所述用户存在指定关系的至少一个关系人的语音数据；

根据所述目标关系人的语音数据合成所述目标关系人的声音；

生成提示内容，利用合成的所述目标关系人的声音并根据所述提示内容进行语音提示。

2.根据权利要求1所述的方法，其特征在于，所述关系人是与所述用户之间存在亲密关系的人，所述关系人的确定方法包括：

获取一定时间段内所述用户与交互方进行语音交互的交互数据，若所述交互数据符合亲密关系判别条件，则将所述交互方确定为所述关系人；

所述亲密关系判别条件包括：语音交互频率大于预设阈值、交互过程中亲密话语词汇使用频率大于预设阈值、交互过程中所述用户的语气温和度大于预设阈值中的至少一个。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

采集所述用户的语音数据，对所述用户的语音数据进行解析；

在解析到所述用户的语音数据中包含预设的目标关键词时，采集与所述用户的语音数据对应的应答语音数据；

将所述应答语音数据存入所述关系人语音库中。

4.根据权利要求3所述的方法，其特征在于，所述采集与所述用户的语音数据对应的应答语音数据，包括：

采集待检测语音数据，所述待检测语音数据为在所述用户的语音数据之后采集的语音数据；

若所述待检测语音数据的声纹信息与所述用户的语音数据的声纹信息不同，则将所述待检测语音数据确定为所述应答语音数据。

5.根据权利要求1所述的方法，其特征在于，所述生成提示内容，包括：

从所述目标关系人的语音数据中筛选目标语料，所述目标语料为反映所述目标关系人与所述用户之间需求或被需求关联关系的语料；

基于所述目标语料，并结合安全驾驶提示用语生成所述提示内容。

6.根据权利要求1所述的方法，其特征在于，所述生成提示内容，包括：

从偏好词库集中选取偏好关键词，根据所述偏好关键词生成提示内容，所述偏好词库集为预先根据反映所述用户的个人喜好倾向的信息构建的词库集，所述偏好关键词为表征所述用户个人喜好倾向的关键词。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

采集所述用户的语音数据，从所述用户的语音数据中识别表征个人喜好倾向的偏好信息；

从所述偏好信息中提取关键词，基于提取的关键词构建所述偏好词库集；

对所述偏好词库集中的关键词进行词频统计，将出现频次达到预设次数的关键词确定为所述偏好关键词。

8.根据权利要求1所述的方法，其特征在于，所述生成提示内容，包括：

获取应用场景信息，结合所述应用场景信息生成提示内容；其中，所述应用场景信息为用户位置信息、预设时间段内的天气信息、预设时间段内的节假日信息、预设时间段内的时节信息、预设时间段内的行程信息、预设时间段内的备忘信息、当前驾驶行为信息中的至少一种。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

获取所述用户的驾驶行为信息，当所述驾驶行为信息符合预设条件时，判定所述用户处于冲动驾驶状态；

所述预设条件为驾驶模式为非运动模式、油门踩踏力度大于力度阈值、油门踩踏时长大于时长阈值和道路偏移次数大于次数阈值中的至少两个。

10.一种语音提示装置，其特征在于，所述装置包括：

语音数据选取模块，用于在检测出用户处于冲动驾驶状态时，从关系人语音库中获取目标关系人的语音数据，所述关系人语音库中包括预先采集的与所述用户存在指定关系的至少一个关系人的语音数据；

目标声音合成模块，用于根据所述目标关系人的语音数据合成所述目标关系人的声音；

提示内容生成模块，用于生成提示内容，利用合成的所述目标关系人的声音并根据所述提示内容进行语音提示。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。