CN115858850A

CN115858850A - 内容推荐方法、装置、车辆及计算机可读存储介质

Info

Publication number: CN115858850A
Application number: CN202211569595.3A
Authority: CN
Inventors: 叶峰; 涂昊伟; 陈鸿博; 崔骁; 刘东旭; 叶嘉恒; 吴继栋
Original assignee: Geely Automobile Research Institute Ningbo Co Ltd
Current assignee: Geely Automobile Research Institute Ningbo Co Ltd
Priority date: 2022-12-06
Filing date: 2022-12-06
Publication date: 2023-03-28

Abstract

本发明公开了一种内容推荐方法、装置、车辆及计算机可读存储介质，本发明内容推荐方法包括：拾取车舱内的语音信号，识别语音信号对应的音色特征属性；根据预设的音色映射画像数据库，确定音色特征属性对应的用户画像数据，并根据用户画像数据确定多媒体信息的推荐内容；输出推荐内容。本发明能提升车机语音形象为用户进行多媒体信息的内容推荐的精准度。

Description

内容推荐方法、装置、车辆及计算机可读存储介质

技术领域

本发明涉及人机交互技术领域，尤其涉及一种内容推荐方法、装置、车辆及计算机可读存储介质。

背景技术

目前车机语音形象的交互体验越来越完善，它不仅能完成更多的指令，而且能和我们进行情感交互。用户可以通过语音发出指令信号，车机语音形象识别用户语音指令，并做出相应的动作来满足用户的需求。比如车机语音形象识别可根据用户的指令需求，进行音乐、影视、电台频道、博客或电子书应用等阅读物、有声读物等内容的推荐，用户可以根据需要选择播放其中的一些资源内容，提高车乘服务体验。

然而，在多人乘车场景中，会出现不同人对语音形象的服务需求，例如，副驾的妻子唤醒语音形象，后排的孩子唤醒语音形象等，由于每个人的兴趣爱好不同，而目前车载终端的语音形象大部分是随机推荐内容，未考虑到车内不同人员的当前实际情况，缺乏针对性，在多人乘车场景中，语音形象推荐的内容与用户的匹配度不高，内容推荐精准度较差，无法为用户提供针对性、个性化的多媒体信息服务，用户的体验较差。

发明内容

本发明的主要目的在于提供一种内容推荐方法、装置、车辆及计算机可读存储介质，旨在解决车机语音形象为用户进行多媒体信息的内容推荐的精准度差技术问题。

为实现上述目的，本发明提供一种内容推荐方法，包括：

拾取车舱内的语音信号，识别所述语音信号对应的音色特征属性；

根据预设的音色映射画像数据库，确定所述音色特征属性对应的用户画像数据，并根据所述用户画像数据确定多媒体信息的推荐内容；

输出所述推荐内容。

可选地，所述识别所述语音信号对应的音色特征属性的步骤之后还包括：

识别所述语音信号对应的用户发声位置；

根据所述用户发声位置确定用户乘坐位置；

所述输出所述推荐内容的步骤包括：

通过距离所述用户乘坐位置最近的座位所设置的多媒体设备，输出所述推荐内容，其中，至少两个座位设置有多媒体设备。

可选地，所述方法还包括：

唤醒所述音色特征属性关联的语音形象，其中，不同的音色特征属性关联不同的语音形象；

通过距离所述用户乘坐位置最近的座位所设置的多媒体设备，对关联的所述语音形象进行显示；

通过显示的所述语音形象，与所述音色特征属性对应的用户进行人机交互。

可选地，所述方法还包括：

若接收到输入的用户画像新建指令，则获取录入的测试语音信号，识别所述测试语音信号对应的首次音色特征属性；

输出对专属的语音形象进行选择的交互界面；

获取基于所述交互界面而进行的人机交互信息，根据所述人机交互信息确定用户选择的语音形象，将选择的所述语音形象与所述首次音色特征属性建立关联关系。

可选地，所述根据预设的音色映射画像数据库，确定所述音色特征属性对应的用户画像数据的步骤包括：

检测预设的音色映射画像数据库中是否能查询得到所述音色特征属性映射的用户画像数据；

若否，则输出是否新建用户画像的提示信息；若接收到响应于所述提示信息而输入的用户画像新建指令，则执行：所述获取录入的测试语音信号的步骤；

若是，则将查询得到的所述用户画像数据，作为所述音色特征属性对应的用户画像数据。

可选地，所述将选择的所述语音形象与所述首次音色特征属性建立关联关系的步骤之后还包括：

新建所述首次音色特征属性映射的画像数据模型；

获取所述首次音色特征对应的用户在预设媒体平台的交互行为数据，根据所述交互行为数据，对所述画像数据模型进行训练，得到收敛的画像数据模型；

根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据；

将所述首次音色特征属性与所述首次用户画像数据建立映射关系，并将所述映射关系存储至预设的音色映射画像数据库。

可选地，所述多媒体信息包括音乐信息，所述预设媒体平台包括音乐媒体平台，所述根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据的步骤包括：

根据收敛的画像数据模型，确定用户的音乐偏好数据，其中，所述音乐偏好数据包括音乐风格偏好、乐队偏好、歌手偏好、音乐主题偏好和器乐类型偏好中的至少一种；

依据所述音乐偏好数据，确定所述首次音色特征属性对应的首次用户画像数据。

可选地，所述多媒体信息包括有声读物信息，所述预设媒体平台包括有声读物媒体平台，所述根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据的步骤包括：

根据收敛的画像数据模型，确定用户的有声读物偏好数据，其中，所述有声读物偏好数据包括读物题材偏好、作家偏好、读物内容类型偏好和读物翻读人偏好中的至少一种；

依据所述有声读物偏好数据，确定所述首次音色特征属性对应的首次用户画像数据。

此外，本申请还提供一种内容推荐装置，包括：

语音识别模块，用于拾取车舱内的语音信号，识别所述语音信号对应的音色特征属性；

内容确定模块，用于根据预设的音色映射画像数据库，确定所述音色特征属性对应的用户画像数据，并根据所述用户画像数据确定多媒体信息的推荐内容；

内容输出模块，用于输出所述推荐内容。

此外，本申请还提供一种车辆，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容推荐程序，所述内容推荐程序被所述处理器执行时实现如上述的内容推荐方法的步骤。

此外，本申请还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有内容推荐程序，所述内容推荐程序被处理器执行时实现如上述内容推荐方法的步骤

本申请通过拾取车舱内的语音信号，识别该语音信号对应的音色特征属性，并根据预设的音色映射画像数据库，确定该音色特征属性对应的用户画像数据，然后根据该用户画像数据确定多媒体信息的推荐内容，再输出该推荐内容，从而为用户提供针对性、个性化的多媒体信息服务，相比于目前车载终端的语音形象大部分是随机推荐内容，本申请能够考虑到车内不同人员的当前实际情况，根据用户的音色特征属性所匹配的用户画像数据进行针对性、个性化的内容推荐，从而提高了语音形象推荐的内容与用户的匹配度，进而提升了车机语音形象为用户进行多媒体信息的内容推荐的精准度，使语音形象不仅仅只是车的语音助手，更像是智能管家和朋友一样，将语音形象赋予智能化、情感化让它成为更了解你的助手，给用户带来由智能车机到智能助理的全新体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明内容推荐方法第一实施例的流程示意图；

图2为本发明内容推荐方法第二实施例的流程示意图；

图3为本发明实施例的语音形象智能推荐的流程示意图；

图4为本发明实施例的内容推荐装置的装置模块示意图；

图5为本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，若本发明实施例中有涉及“第一”、“第二”等的描述，则该“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

目前，在多人乘车场景中，会出现不同人对语音形象的服务需求，例如，副驾的妻子唤醒语音形象，后排的孩子唤醒语音形象等，由于每个人的兴趣爱好不同，而目前车载终端的语音形象大部分是随机推荐内容，未考虑到车内不同人员的当前实际情况，缺乏针对性，在多人乘车场景中，语音形象推荐的内容与用户的匹配度不高，内容推荐精准度较差，无法为用户提供针对性、个性化的多媒体信息服务，用户的体验较差。

基于此，本发明提供一种内容推荐方法，请参照图1，在内容推荐方法的第一实施例中，所述内容推荐方法包括以下步骤：

步骤S10，拾取车舱内的语音信号，识别所述语音信号对应的音色特征属性；

在本实施例中，车舱内可设置有录音设备，例如麦克风，通过麦克风来拾取车舱内的语音信号。

可以理解的是，该音色特征属性用于表征用户的音色。不同用户的音色往往不同。可知的是，音色是指不同的声音的频率表现在波形方面总是有与众不同的特性，不同的物体振动都有不同的特点。因此，本实施例可通过对语音信号的频率波形进行分析，识别出语音信号对应的音色特征属性，进而区分出不同的用户。

步骤S20，根据预设的音色映射画像数据库，确定所述音色特征属性对应的用户画像数据，并根据所述用户画像数据确定多媒体信息的推荐内容；

需要说明的是，该用户画像数据用于表征用户对多媒体信息的个人偏好数据，因此，本领域技术人员可以理解的是，可根据用户画像数据所表征的该个人偏好数据，来选择多媒体信息的推荐内容。示例性地，该多媒体信息可包括音乐信息、影视信息、有声读物信息、电子书信息、美食内容信息、旅游内容信息和短视频内容信息中的至少一种。对应地，该个人偏好数据可包括音乐偏好数据、影视偏好数据、有声读物偏好数据、电子书偏好数据、美食偏好数据、旅游地点偏好数据和短视频偏好数据中的至少一种。

作为一种示例，该音色特征属性对应的用户画像数据的构建，可通过在将音色特征属性收集后，通过日常用车使用以及多轮对话，进行该音色特征属性对应的画像数据模型的训练，从而构建得到该音色特征属性对应用户的用户画像数据。作为另一种示例，可通过在将音色特征属性收集后，通过获取该音色特征属性对应用户在预设媒体平台的交互行为数据，从而构建得到该音色特征属性对应用户的用户画像数据。其中，示例性地，该预设媒体平台可包括音乐媒体平台(例如酷狗音乐应用app)、影视媒体平台(例如爱奇艺应用app)、有声读物媒体平台(例如喜马拉雅应用app)、电子书媒体平台(例如天猫小说应用app)、美食和旅游相关咨询的媒体平台(例如小红书应用app)，以及短视频媒体平台(例如抖音应用app)中的至少一种。

为了助于理解，列举一实例，例如，若从用户A的用户画像数据中确定个人偏好数据为偏好动作影片和篮球新闻，则为用户A推荐更多的与该动作影片或篮球新闻相关的多媒体内容。又例如，若从用户B的用户画像数据中确定个人偏好数据为偏好美容资讯和情感剧集，则为用户B推荐更多的与该美容资讯或情感剧集相关的多媒体内容容。还例如，若从用户C的用户画像数据中确定个人偏好数据为曲艺、革命电影和经典歌曲，则为用户C推荐更多的与该曲艺、革命电影或经典歌曲相关的多媒体内容。再例如，若从用户D的用户画像数据中确定个人偏好数据为动画片和儿童歌曲，则为用户D推荐更多的与该动画片或儿童歌曲相关的多媒体内容。

在本实施例中，该音色映射画像数据库中存储有多个音色特征属性，以及各音色特征属性一一映射的用户画像数据。其中，该音色映射数据库可存储于云服务器侧或者车辆侧。

在一实施例中，音色映射数据库存储于云服务器，此时由车辆向云服务器发送用户画像查询请求，该用户画像查询请求中包括所识别的音色特征属性，然后云服务器接收到用户画像查询请求后，从音色映射数据库中查询得到所识别的音色特征属性映射的用户画像数据，并将该映射的用户画像数据发送至车辆，车辆接收云服务器发送的用户画像数据后，根据接收的该用户画像数据确定多媒体信息的推荐内容。

在另一实施例中，音色映射数据库存储于车辆，此时由车辆直接从本地的音色映射数据库中查询得到所识别的音色特征属性映射的用户画像数据，并根据映射的用户画像数据确定多媒体信息的推荐内容。

步骤S30，输出所述推荐内容。

在本实施例中，可通过设于车舱内的车载多媒体设备来输出该推荐内容，其中，车载多媒体设备可包括例如平板电脑、智能音箱等用于播放多媒体信息的设备。该车载多媒体设备为能够展示图片、文字、视频和声音中的至少一种的设备。

本实施例通过拾取车舱内的语音信号，识别该语音信号对应的音色特征属性，并根据预设的音色映射画像数据库，确定该音色特征属性对应的用户画像数据，然后根据该用户画像数据确定多媒体信息的推荐内容，再输出该推荐内容，从而为用户提供针对性、个性化的多媒体信息服务，相比于目前车载终端的语音形象大部分是随机推荐内容，本实施例能够考虑到车内不同人员的当前实际情况，根据用户的音色特征属性所匹配的用户画像数据进行针对性、个性化的内容推荐，从而提高了语音形象推荐的内容与用户的匹配度，进而提升了车机语音形象为用户进行多媒体信息的内容推荐的精准度，使语音形象不仅仅只是车的语音助手，更像是智能管家和朋友一样，将语音形象赋予智能化、情感化让它成为更了解你的助手，给用户带来由智能车机到智能助理的全新体验。

在一种可能的实施方式中，所述识别所述语音信号对应的音色特征属性的步骤之后还包括：

步骤S40，识别所述语音信号对应的用户发声位置；

在本实施例中，该用户发声位置是指用户在车舱内进行发声的空间位置。

本领域技术人员可以理解的是，可通过对语音信号进行声源定位，从而获得用户发声位置。其中，该声源定位技术，本领域技术人员已有一定深入的研究，在此不再赘述。

步骤S50，根据所述用户发声位置确定用户乘坐位置；

在本实施例中，该用户乘坐位置是指用户在车舱内所乘坐座位的位置。

所述输出所述推荐内容的步骤包括：

步骤S31，通过距离所述用户乘坐位置最近的座位所设置的多媒体设备，输出所述推荐内容，其中，至少两个座位设置有多媒体设备。

在本实施例中，该多媒体设备是指可包括例如平板电脑、智能音箱等用于播放多媒体信息的设备。该多媒体设备为能够展示图片、文字、视频和声音中的至少一种的设备。

在本实施例中，车辆可以包括前排座椅和后排座椅，前排座椅可以包括主驾驶位、副驾驶位，后排座椅可以包括多个乘客位，例如包括乘客位a、乘客位b(中间乘客位)和乘客位c。为了助于理解，列举一具体场景进行说明，在该具体场景中，前排座位的副驾驶位设有第一多媒体设备，后排的乘客位b设有第二多媒体设备，当用户A在副驾驶位与车机语音形象进行语音交互时，通过识别用户A的语音信号对应的用户发声位置，并根据该用户发声位置确定用户乘坐位置为副驾驶位，此时通过距离该用户乘坐位置最近的座位所设置的多媒体设备：第一多媒体设备，输出基于用户A的用户画像数据而确定的推荐内容。

在另一场景中，前排座位的副驾驶位设有第一多媒体设备，后排的乘客位b设有第二多媒体设备，当用户B在乘客位c与车机语音形象进行语音交互时，通过识别用户B的语音信号对应的用户发声位置，并根据该用户发声位置确定用户乘坐位置为乘客位c，此时通过距离该用户乘坐位置最近的座位所设置的多媒体设备：第二多媒体设备，输出基于用户B的用户画像数据而确定的推荐内容。

在又一场景中，前排座位的副驾驶位设有第一多媒体设备，主驾驶位设有第二多媒体设备，后排的乘客位a设有第三多媒体设备，后排的乘客位b设有第四多媒体设备，后排的乘客位c设有第五多媒体设备，当用户C在乘客位c与车机语音形象进行语音交互时，通过识别用户C的语音信号对应的用户发声位置，并根据该用户发声位置确定用户乘坐位置为乘客位c，此时通过距离该用户乘坐位置最近的座位所设置的多媒体设备：第五多媒体设备，输出基于用户C的用户画像数据而确定的推荐内容。

在还一场景中，前排座位的副驾驶位设有第一多媒体设备，主驾驶位设有第二多媒体设备，后排的乘客位a设有第三多媒体设备，后排的乘客位b设有第四多媒体设备，后排的乘客位c设有第五多媒体设备，当用户E、用户F和用户G同时与车机语音形象进行语音交互时，通过识别用户E、用户F和用户G的语音信号对应的用户发声位置，并根据该用户发声位置确定用户E的用户乘坐位置为副驾驶位、用户F的用户乘坐位置为乘客位a，以及用户G的用户乘坐位置为乘客位c，此时则在第一多媒体设备输出基于用户E的用户画像数据而确定的推荐内容、在第三多媒体设备输出基于用户F的用户画像数据而确定的推荐内容，以及在第五多媒体设备输出基于用户G的用户画像数据而确定的推荐内容。

本实施例通过识别语音信号对应的用户发声位置，根据该用户发声位置确定用户乘坐位置，通过距离用户乘坐位置最近的座位所设置的多媒体设备，输出推荐内容，其中，至少两个座位设置有多媒体设备，从而使得当车内存在多个用户时，为了实现车内不同用户的个性化需求，通过定位正在进行交互的目标用户对其进行个性化服务。例如，车内在各座位处均对应配置一个多媒体设备，通过声源定位识别出正在交互的目标用户的乘坐位置后，直接通过目标用户乘坐的座位处所配置的多媒体设备，输出基于该目标用户的用户画像数据而确定的推荐内容，从而能够避免干扰他人，同时保护用户的隐私，即使在多个用户同时说话的情况下也能定位至需要交互的各用户所在位置，有利于实现一对一交互，提高用户体验，为用户提供私人化、针对性的多媒体内容推荐。

在一种可能的实施方式中，所述方法还包括：

步骤A10，唤醒所述音色特征属性关联的语音形象，其中，不同的音色特征属性关联不同的语音形象；

在本实施例中，不同的音色特征属性，关联的语音形象不同，例如音色特征属性A关联的语音形象为阳光男生，其语音包对应的音色为磁性男声，而音色特征属性B关联的语音形象为知性御姐，其语音包对应的音色为温柔女声。其中，本领域技术人员可以理解的是，车机语音形象一般以虚拟形象的形式显示于车载显示设备上，用户可通过语音方式与显示于该车载显示设备上的车机语音形象进行人机交互。

步骤A20，通过距离所述用户乘坐位置最近的座位所设置的多媒体设备，对关联的所述语音形象进行显示；

步骤A30，通过显示的所述语音形象，与所述音色特征属性对应的用户进行人机交互。

为了助于理解，列举一具体场景进行说明，在一具体场景中，前排座位的副驾驶位设有第一多媒体设备，主驾驶位设有第二多媒体设备，后排的乘客位a设有第三多媒体设备，后排的乘客位b设有第四多媒体设备，后排的乘客位c设有第五多媒体设备，用户H的音色特征属性关联的语音形象为小萝莉，用户I的音色特征属性关联的语音形象为小猪佩奇，用户F的音色特征属性关联的语音形象为阳光男生。当用户H、用户I和用户F同时与车机语音形象进行语音交互时，通过识别用户H、用户I和用户F的语音信号对应的用户发声位置，并根据该用户发声位置确定用户H的用户乘坐位置为副驾驶位、用户I的用户乘坐位置为乘客位a，以及用户F的用户乘坐位置为乘客位c，此时则在第一多媒体设备显示小萝莉，并通过显示的小萝莉(虚拟形象)与用户H进行人机交互，并在第三多媒体设备显示小猪佩奇，并通过显示的小猪佩奇(虚拟形象)与用户I进行人机交互，以及在第五多媒体设备显示阳光男生，并通过显示的阳光男生(虚拟形象)与用户F进行人机交互。

在现有的车机语音形象中，没有在车上同时出现多个语音形象的案例。而本申请通过唤醒所述音色特征属性关联的语音形象，其中，不同的音色特征属性关联不同的语音形象，并通过距离用户乘坐位置最近的座位所设置的多媒体设备，对关联的所述语音形象进行显示，再通过显示的所述语音形象，与所述音色特征属性对应的用户进行人机交互，从而使得当车内存在多个用户时，为了实现车内不同用户的个性化需求，通过定位正在进行交互的目标用户，并通过该目标用户专属的语音形象对其一对一交互服务，能够实现在与不同的用户进行语音交互时，能匹配至各用户专属的车机语音形象，从而提高用户的交互体验，达到为用户提供私人化、针对性的专属服务的效果，

在一种可能的实施例中，所述方法还包括：

步骤B10，若接收到输入的用户画像新建指令，则获取录入的测试语音信号，识别所述测试语音信号对应的首次音色特征属性；

在本实施例中，该用户画像新建指令是指新建一个用户画像数据的指令。容易理解的是，当新用户需要新建用户画像数据时，首先需要录入该新用户的语音信号，基于录入的该语音信号测试该新用户的音色特征属性。该测试语音信号是指新用户进行新建用户画像数据时首次录入的语音信号，该首次音色特征属性是指对测试语音信号进行频率波形分析，识别得到的该测试语音信号对应的音色特征属性。

步骤B20，输出对专属的语音形象进行选择的交互界面；

在本实施例中，新用户可预先在车载多媒体设备的交互界面上选择专属的语音形象，其中，该语音形象具有多种选择，例如小萝莉、阳光男生、知性御姐和小猪佩奇等。

步骤B30，获取基于所述交互界面而进行的人机交互信息，根据所述人机交互信息确定用户选择的语音形象，将选择的所述语音形象与所述首次音色特征属性建立关联关系。

本实施例通过若接收到输入的用户画像新建指令，则获取录入的测试语音信号，识别测试语音信号对应的首次音色特征属性；输出对专属的语音形象进行选择的交互界面；获取基于交互界面而进行的人机交互信息，根据该人机交互信息确定用户选择的语音形象，将选择的所述语音形象与首次音色特征属性建立关联关系，从而便于后续通过目标用户专属的语音形象对其一对一交互服务，能够实现在与不同的用户进行语音交互时，能匹配至各用户专属的车机语音形象，从而提高用户的交互体验，达到为用户提供私人化、针对性的专属服务的效果。

在一种可能的实施例中，所述根据预设的音色映射画像数据库，确定所述音色特征属性对应的用户画像数据的步骤包括：

步骤C10，检测预设的音色映射画像数据库中是否能查询得到所述音色特征属性映射的用户画像数据；

步骤C20，若否，则输出是否新建用户画像的提示信息；若接收到响应于所述提示信息而输入的用户画像新建指令，则执行：所述获取录入的测试语音信号的步骤；

在本实施例中，输出是否新建用户画像的提示信息的输出形式可为图文形式或者语音形式，本实施例对此不作具体的限定。

步骤C30，若是，则将查询得到的所述用户画像数据，作为所述音色特征属性对应的用户画像数据。

由于在用户与车机语音形象的交互过程中，可能存在该用户并没有录入测试语音信号进行首次音色特征属性的检测，即未进行用户画像数据的新建流程，从而使得该用户不存在关联的用户画像数据以及语音形象，从而无法为用户提供私人化、针对性的专属服务。

因此本实施例通过检测预设的音色映射画像数据库中是否能查询得到所述音色特征属性映射的用户画像数据；若否，则输出是否新建用户画像的提示信息；若接收到响应于所述提示信息而输入的用户画像新建指令，则执行：所述获取录入的测试语音信号的步骤，从而使得在用户未新建用户画像数据的情况下，输出相关提示信息引导用户进行用户画像数据的创建，进而便于后续为用户提供私人化、针对性的专属服务，例如根据用户画像数据进行多媒体信息的内容推荐，以及根据用户所选择的语音形象与用户进行人机交互。

进一步地，所述将选择的所述语音形象与所述首次音色特征属性建立关联关系的步骤之后还包括：

步骤D10，新建所述首次音色特征属性映射的画像数据模型；

步骤D20，获取所述首次音色特征对应的用户在预设媒体平台的交互行为数据，根据所述交互行为数据，对所述画像数据模型进行训练，得到收敛的画像数据模型；

在本实施例中，该用户画像数据用于表征用户对多媒体信息的个人偏好数据，因此本领域技术人员可以理解的是，可根据用户画像数据所表征的该个人偏好数据，来选择多媒体信息的推荐内容。示例性地，该多媒体信息可包括音乐信息、影视信息、有声读物信息、电子书信息、美食内容信息、旅游内容信息和短视频内容信息中的至少一种。对应地，该个人偏好数据可包括音乐偏好数据、影视偏好数据、有声读物偏好数据、电子书偏好数据、美食偏好数据、旅游地点偏好数据和短视频偏好数据中的至少一种。

对应地，该预设媒体平台可包括音乐媒体平台(例如酷狗音乐应用app)、影视媒体平台(例如爱奇艺应用app)、有声读物媒体平台(例如喜马拉雅应用app)、电子书媒体平台(例如天猫小说应用app)、美食和旅游相关咨询的媒体平台(例如小红书应用app)，以及短视频媒体平台(例如抖音应用app)中的至少一种。

为助于理解，作为一种示例，可通过获取用户在酷狗音乐应用app(Application)中用户的歌曲播放记录、购买记录、收藏记录等交互行为数据，来对画像数据模型进行训练，得到收敛的画像数据模型，此时收敛的该画像数据模型可用于表征该用户的个人音乐偏好。

步骤D30，根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据；

步骤D40，将所述首次音色特征属性与所述首次用户画像数据建立映射关系，并将所述映射关系存储至预设的音色映射画像数据库。

作为一种示例，所述多媒体信息包括音乐信息，所述预设媒体平台包括音乐媒体平台，所述根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据的步骤包括：

步骤E10，根据收敛的画像数据模型，确定用户的音乐偏好数据，其中，所述音乐偏好数据包括音乐风格偏好、乐队偏好、歌手偏好、音乐主题偏好和器乐类型偏好中的至少一种；

在本实施例中，该音乐风格可包括摇滚乐、流行、民谣、嘻哈、说唱、古典、民族风和美声等。该音乐主题可包括情歌主题、红色主题、父爱主题、兄弟情主题和人物歌颂主题等。该器乐类型可包括吉他、钢琴、小提琴、芦笙等、琵琶、筝、扬琴、鼓、碰铃、二胡和板胡等。

容易理解的是，音乐偏好数据还可包括音乐国别偏好(例如是英语歌还是中文歌)、音乐年代偏好和音乐唱片公司偏好等，本实施例对此不作具体的限定。

步骤E20，依据所述音乐偏好数据，确定所述首次音色特征属性对应的首次用户画像数据。

本实施例通过根据收敛的画像数据模型，确定用户的音乐偏好数据，其中，该音乐偏好数据包括音乐风格偏好、乐队偏好、歌手偏好、音乐主题偏好和器乐类型偏好中的至少一种，并依据该音乐偏好数据，确定首次音色特征属性对应的首次用户画像数据，从而便于后续为用户做出智能化、有针对性的音乐推荐。

作为另一种示例，所述多媒体信息包括有声读物信息，所述预设媒体平台包括有声读物媒体平台，所述根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据的步骤包括：

步骤F10，根据收敛的画像数据模型，确定用户的有声读物偏好数据，其中，所述有声读物偏好数据包括读物题材偏好、作家偏好、读物内容类型偏好和读物翻读人偏好中的至少一种；

为助于理解，作为一种示例，可通过获取用户在喜马拉雅应用app(Application)中用户的书籍播放记录、购买记录、点赞记录和关注记录等交互行为数据，来对画像数据模型进行训练，得到收敛的画像数据模型，此时该画像数据模型可用于表征个人听书偏好的用户画像数据。

步骤F20，依据所述有声读物偏好数据，确定所述首次音色特征属性对应的首次用户画像数据。

本实施例可通过建立首次音色特征属性映射的画像数据模型，获取该首次音色特征对应的用户在预设媒体平台的交互行为数据，根据该交互行为数据，对所述画像数据模型进行训练，得到收敛的画像数据模型，并根据收敛的画像数据模型，确定用户的有声读物偏好数据，其中，该有声读物偏好数据包括读物题材偏好、作家偏好、读物内容类型偏好和读物翻读人偏好中的至少一种，并依据该有声读物偏好数据，确定首次音色特征属性对应的首次用户画像数据，从而通过建立用户的音色特征属性与用户偏好数据之间的关联关系，在后续通过语音识别出该用户的音色特征属性时，基于该关联关系可快速获得该用户的喜好，以便向其推荐符合其偏好的多媒体信息(在本实施例中为有声读物)，进一步提高用户的驾车/乘车体验。

为了助于本申请实施例的技术构思，列举一具体实施例，如图3所示，图3为本实施例的语音形象智能推荐的流程示意图，包括：

用户发起创建角色模型(角色模型也可称为画像数据模型)-系统收集音色建立角色模型——然后通过多轮交互训练模型建立用户画像(即首次用户画像数据)，完善角色模型——判断音色及声音来源判断场景(即通过音色识别正在进行语音交互的目标用户，并通过声音来源确定目标用户的发声位置，进而确定目标用户在车舱内的乘坐位置，从而基于目标用户对应的用户画像，为目标用户提供针对性、个性化的多媒体信息服务)——云端服务器基于用户画像进行分析，输出个性内容(即根据用户画像数据确定多媒体信息的推荐内容)——车机语音形象展示进行播放。

基于角色模型中的用户画像进行分析，输出个性内容的步骤具体可为：车机识别用户音色判断是否已存在角色模型(即判断是否能查询得到音色特征属性映射的用户画像数据)，若是，则根据用户历史行为数据(该历史行为数据是从角色模型的用户画像数据中获得)预测用户偏好，并进行用户偏好内容推荐，若否，则进入访客模式，执行常规的语音交互响应(该常规的语音交互响应不进行用户偏好内容推荐，仅执行常规语音交互指令)。

需要说明的是，上述具体实施例仅用于帮助理解本申请实施例的技术构思，并不构成对本申请的限定，基于该技术构思进行更多形式的简单变换，均应在本申请的保护范围内。

此外，本申请实施例还提出一种内容推荐装置，参照图4，图4为本申请一种内容推荐装置一实施例的功能模块示意图。

本实施例中，内容推荐装置包括：

语音识别模块10，用于拾取车舱内的语音信号，识别所述语音信号对应的音色特征属性；

内容确定模块20，用于根据预设的音色映射画像数据库，确定所述音色特征属性对应的用户画像数据，并根据所述用户画像数据确定多媒体信息的推荐内容；

内容输出模块30，用于输出所述推荐内容。

在一些实施例中，语音识别模块10还用于：

识别所述语音信号对应的用户发声位置；

根据所述用户发声位置确定用户乘坐位置；

内容输出模块30还用于：

在一些实施例中，内容输出模块30还用于：

在一些实施例中，内容确定模块20，还用于：

输出对专属的语音形象进行选择的交互界面；

在一些实施例中，内容确定模块20，还用于：

新建所述首次音色特征属性映射的画像数据模型；

在一些实施例中，所述多媒体信息包括音乐信息，所述预设媒体平台包括音乐媒体平台，内容确定模块20，还用于：

在一些实施例中，所述多媒体信息包括有声读物信息，所述预设媒体平台包括有声读物媒体平台，内容确定模块20，还用于：

本实施例提供的内容推荐装置与上述实施例提供的内容推荐方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述内容推荐方法的实施例，并且本实施例具备与内容推荐方法各实施例相同的有益效果，此处不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

如图5所示，图5是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端为车辆。

如图5所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端设备移动到耳边时，关闭显示屏和/或背光。当然，终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图5中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图5所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及内容推荐程序。

在图5所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的内容推荐程序，并执行以下操作：

输出所述推荐内容。

此外，本发明还提供一种车辆，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容推荐程序，所述内容推荐程序被所述处理器执行时实现如上述的内容推荐方法的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有内容推荐程序，所述内容推荐程序被处理器执行时实现如上所述内容推荐方法的步骤。

本发明计算机可读存储介质具体实施方式与上述内容推荐方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种内容推荐方法，其特征在于，包括：

输出所述推荐内容。

2.如权利要求1所述的内容推荐方法，其特征在于，所述识别所述语音信号对应的音色特征属性的步骤之后还包括：

识别所述语音信号对应的用户发声位置；

根据所述用户发声位置确定用户乘坐位置；

所述输出所述推荐内容的步骤包括：

3.如权利要求2所述的内容推荐方法，其特征在于，所述方法还包括：

4.如权利要求3所述的内容推荐方法，其特征在于，所述方法还包括：

输出对专属的语音形象进行选择的交互界面；

5.如权利要求4所述的内容推荐方法，其特征在于，所述根据预设的音色映射画像数据库，确定所述音色特征属性对应的用户画像数据的步骤包括：

6.如权利要求4所述的内容推荐方法，其特征在于，所述将选择的所述语音形象与所述首次音色特征属性建立关联关系的步骤之后还包括：

新建所述首次音色特征属性映射的画像数据模型；

7.如权利要求6所述的内容推荐方法，其特征在于，所述多媒体信息包括音乐信息，所述预设媒体平台包括音乐媒体平台，所述根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据的步骤包括：

8.如权利要求6所述的内容推荐方法，其特征在于，所述多媒体信息包括有声读物信息，所述预设媒体平台包括有声读物媒体平台，所述根据收敛的画像数据模型，确定所述首次音色特征属性对应的首次用户画像数据的步骤包括：

9.一种内容推荐装置，其特征在于，包括：

内容输出模块，用于输出所述推荐内容。

10.一种车辆，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的内容推荐程序，所述内容推荐程序被所述处理器执行时实现如权利要求1至8中任一项所述的内容推荐方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有内容推荐程序，所述内容推荐程序被处理器执行时实现如权利要求1至8中任一项所述内容推荐方法的步骤。