CN112820270A

CN112820270A - 语音播报方法、装置和智能设备

Info

Publication number: CN112820270A
Application number: CN202011504098.6A
Authority: CN
Inventors: 李健; 焦金珂; 武卫东; 陈明
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-05-18

Abstract

本发明公开了一种语音播报方法、装置和智能设备。其中，该方法包括：基于目标对象的人脸特征，确定目标对象的身份信息或者属性信息；确定目标对象的身份信息或者属性信息相匹配的目标音色；对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音。本发明解决了相关技术的语音交互系统合成播报音色单一的技术问题。

Description

语音播报方法、装置和智能设备

技术领域

本发明涉及语音交互领域，具体而言，涉及一种语音播报方法、装置和智能设备。

背景技术

当前语音交互技术广泛应用在智能机器人、智能音箱、智能车载、智能家居等领域，人们通过语音对话即可操纵设备或系统执行命令或者完成问答对话。但是，设备在进行语音交互时，通常使用一种系统预设的音色进行合成播报，较为单调。

为了增加交互的趣味性和个性化，个别设备会设置多个音色库，用户需手动在系统设置中进行切换配置，但也无法满足在实时语音交互时自动切换音色且为不同人群推荐不同音色库的问题。

另外，当前的语音交互智能化推荐一般集中在内容推荐上，即为不同人群推荐个性化的内容(例如，音乐、故事、问答等)，很少有对机器的语音合成音色进行智能推荐。现有的技术方案也仅是根据年龄这一特征进行调节音色，较为单一，无法满足不同人群推荐不同音色的需求。

因此，在目前的语音交互系统中，用户与设备进行对话可得到系统预设的固定音色播报，即面对不同的用户，机器都会以同一种音色进行合成播报，不能针对不同的用户智能推荐不同的播报音色，无法提供更加个性化的服务。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种语音播报方法、装置和智能设备，以至少解决相关技术的语音交互系统合成播报音色单一的技术问题。

根据本发明实施例的一个方面，提供了一种语音播报方法，包括：基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息；确定所述目标对象的身份信息和/或属性信息相匹配的目标音色；对待播报的文本内容进行合成得到合成语音，并以所述目标音色播报所述合成语音。

可选地，在基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息之前，还包括：获取目标对象的人脸信息；提取所述目标对象的人脸信息中的人脸特征。

可选地，基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息包括：利用人脸识别的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的身份信息；和/或，利用人脸属性检测的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的属性信息。

可选地，利用人脸识别的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的身份信息包括：将所述目标对象的人脸特征与第一人脸特征库进行比对，得到第一比对结果；依据所述第一比对结果，确定所述目标对象的身份信息，其中，所述目标对象的身份信息至少包括：目标人以及所述目标人的身份标识。

可选地，利用人脸属性检测的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的属性信息包括：将所述目标对象的人脸特征与第二人脸特征库进行比对，得到第二比对结果；依据所述第二比对结果，确定所述目标对象的属性信息，其中，所述目标对象的属性信息至少包括：身份属性。

可选地，所述目标音色包括个性化音色和特定类型音色，确定所述目标对象的身份信息和/或属性信息相匹配的目标音色包括：确定所述目标对象的身份信息对应的个性化音色；和/或，确定所述目标对象的属性信息对应的特定类型音色。

根据本发明实施例的另一方面，还提供了一种语音播报装置，包括：第一确定模块，用于基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息；第二确定模块，用于确定所述目标对象的身份信息和/或属性信息相匹配的目标音色；播报模块，用于对待播报的文本内容进行合成得到合成语音，并以所述目标音色播报所述合成语音。

根据本发明实施例的另一方面，还提供了一种智能设备，所述智能设备包括上述中所述的语音播报装置。

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行上述中任意一项所述的语音播报方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的语音播报方法。

在本发明实施例中，采用基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息；确定所述目标对象的身份信息和/或属性信息相匹配的目标音色；对待播报的文本内容进行合成得到合成语音，并以所述目标音色播报所述合成语音，通过对待播报的文本内容进行合成得到合成语音，并以目标对象的身份信息和/或属性信息相匹配的目标音色播报该合成语音，达到了智能推荐并切换播报音色的目的，从而实现了播报音色的多样性，提升用户在使用智能设备时的趣味性和个性化体验的技术效果，进而解决了相关技术的语音交互系统合成播报音色单一的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音播报方法的流程图；

图2是根据本发明可选实施例的语音播报方法的流程图；

图3是根据本发明可选实施例的语音播报装置的示意图；

图4是根据本发明实施例的语音播报装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，下面对本发明中出现的部分名词或术语进行详细说明。

人脸识别：是基于人的脸部特征信息进行身份识别的一种生物识别技术。用摄像机或摄像头采集含有人脸的图像或视频流，并自动在图像中检测，进而对检测到的人脸进行脸部识别的一系列相关技术。人脸识别具体包括人脸属性检测、人脸比对、人脸检索、活体检测功能等。

人脸属性检测：识别人脸图片中的一个或多个人脸，并对个体的年龄、性别、情绪等属性做出判断。

播报音色：语音交互中，用户与机器进行对话，机器进行回答，一般是利用语音合成技术使用预设的发音人的音色进行播报。可以设置不同的音色(例如，男童音、女童音、低沉男声、甜美女声等)进行合成播报。

实施例1

根据本发明实施例，提供了一种语音播报方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的语音播报方法的流程图，如图1所示，该语音播报方法包括如下步骤：

步骤S102，基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息；

作为一种可选的实施例，上述目标对象至少为一个。在具体实施过程中，既可以基于一个目标对象的人脸特征，得到该目标对象的身份信息和/或属性信息，也可以基于多个目标对象的人脸特征，分别得到每一个目标对象的身份信息和/或属性信息。

步骤S104，确定目标对象的身份信息和/或属性信息相匹配的目标音色；

作为一种可选的实施例，可以根据目标对象的身份信息和/或属性信息相匹配的目标音色，并将初始音色切换为该目标音色。需要说明的是，上述初始音色为默认音色，可以在确定目标对象的身份信息和/或属性信息相匹配的目标音色进行预设。

步骤S106，对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音。

上述目标音色包括但不限于个性化音色、特定类型音色等。

通过上述步骤，可以首先基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息，再确定目标对象的身份信息和/或属性信息相匹配的目标音色，进而对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音，通过对待播报的文本内容进行合成得到合成语音，并以目标对象的身份信息和/或属性信息相匹配的目标音色播报该合成语音，达到了智能推荐并切换播报音色的目的，从而实现了播报音色的多样性，提升用户在使用智能设备时的趣味性和个性化体验的技术效果，进而解决了相关技术的语音交互系统合成播报音色单一的技术问题。

可选地，在基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息之前，还包括：获取目标对象的人脸信息；提取目标对象的人脸信息中的人脸特征。

作为一种可选的实施例，上述人脸信息包括但不限于人脸视频、人脸图像等。在具体实施过程中，可以采用图像采集设备实时获取目标对象的人脸视频、人脸图像等人脸信息，上述图像采集设备包括但不限于摄像头、监控设备、录像机等。进一步地，可以从目标对象的人脸信息中提取人脸特征。

作为一种可选的实施例，在提取目标对象的人脸信息中的人脸特征之前，上述方法还包括：对目标对象的人脸信息进行预处理，其中，该预处理可以消除图像中无关的人脸信息，过滤干扰和噪声，恢复有用的真实人脸信息，增强有关人脸信息的可检测性和最大限度地简化数据，从改进后续提取人脸特征的可靠性。

可选地，基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息包括：利用人脸识别的方式对目标对象的人脸特征进行识别，确定目标对象的身份信息；和/或，利用人脸属性检测的方式对目标对象的人脸特征进行识别，确定目标对象的属性信息。

作为一种可选的实施例，不仅可以利用人脸识别的方式对目标对象的人脸特征进行识别，确定该目标对象的身份信息，还可以利用人脸属性检测的方式对目标对象的人脸特征进行识别，确定目标对象的属性信息。此外，可以设置识别优先级，依据识别优先级对目标对象的人脸特征进行识别，例如，人脸识别的优先级高于人脸属性检测，在利用人脸识别的方式对目标对象的人脸特征进行识别，无法确定该目标对象的身份信息的情况下，再利用人脸属性检测的方式对目标对象的人脸特征进行识别，确定目标对象的属性信息。

需要说明的是，上述人脸属性检测可以对情绪、年龄段、性别等进行识别。

可选地，利用人脸识别的方式对目标对象的人脸特征进行识别，确定目标对象的身份信息包括：将目标对象的人脸特征与第一人脸特征库进行比对，得到第一比对结果；依据第一比对结果，确定目标对象的身份信息，其中，目标对象的身份信息至少包括：目标人以及目标人的身份标识。

作为一种可选的实施例，上述第一人脸特征库至少包括已注册的人脸特征。具体地，可以将目标对象的人脸特征与第一人脸特征库中已注册的人脸特征进行一一对比，得到第一比对结果。需要说明的是，第一比对结果包括但不限于人脸相似度、人脸特征相似度、匹配得分等。

作为一种可选的实施例，依据第一比对结果，确定目标对象的身份信息包括：判断第一比对结果是否达到第一预设阈值；在第一比对结果大于或者等于第一预设阈值的情况下，则判定目标对象对应的目标人以及该目标人的身份标识。

作为一种可选的实施例，在目标对象对应的目标人为多个的情况下，确定第一比对结果最高的为目标对象对应的目标人以及得到该目标人的身份标识。

作为一种可选的实施例，依据第一比对结果，确定目标对象的身份信息还包括：判断第一比对结果是否达到第一预设阈值；在第一比对结果小于预设阈值的情况下，则判定目标对象不存在对应的目标人。需要说明的是，可以利用空或者特殊标识等对该目标对象进行标注。

可选地，利用人脸属性检测的方式对目标对象的人脸特征进行识别，确定目标对象的属性信息包括：将目标对象的人脸特征与第二人脸特征库进行比对，得到第二比对结果；依据第二比对结果，确定目标对象的属性信息，其中，目标对象的属性信息至少包括：身份属性。

作为一种可选的实施例，上述第二人脸特征库至少包括人脸特征以及该人脸特征分别对应的身份属性的相似度，其中，上述身份属性包括但不限于性别、年龄段、情绪等。具体地，可以将将目标对象的人脸特征与第二人脸特征库的人脸特征进行比对，得到第二比对结果，该第二比对结果包括身份属性的相似度。

作为一种可选的实施例，依据第二比对结果，确定目标对象的属性信息包括：判断第二比对结果是否达到第二预设阈值；在第二比对结果大于或者等于第二预设阈值的情况下，则判定目标对象对应的身份属性。

可选地，上述目标音色包括个性化音色和特定类型音色，确定目标对象的身份信息和/或属性信息相匹配的目标音色包括：确定目标对象的身份信息对应的个性化音色；和/或，确定目标对象的属性信息对应的特定类型音色。

作为一种可选的实施例，确定目标对象的身份信息对应的个性化音色包括：将音色切换为预先配置的与目标对象相匹配的音色库；从该音色库中得到目标对象的身份信息对应的个性化音色。

作为一种可选的实施例，确定目标对象的属性信息对应的特定类型音色包括：将音色切换为预先配置的与目标对象相匹配的音色库；从该音色库中得到目标对象的属性信息对应的特定类型音色。

需要说明的是，在无法确定目标对象的身份信息，也就是目标对象采用空或者特殊标识等进行标注时，自动将音色切换为预先配置的默认音色库。

下面对本发明一种可选的实施方式进行详细说明。

根据本发明可选实施例的一方面，提供了一种语音播报方法，图2是根据本发明可选实施例的语音播报方法的流程图，如图2所示，可以基于人脸识别和人脸属性检测智能推荐并且动态切换合成音色，具体地，通过获取目标对象的人脸信息，提取目标对象的人脸特征，分别进行人脸识别和/或人脸属性检测，识别出目标对象的个人身份或属性后，在后续的语音交互中智能推荐使用不同的音色进行播报。

根据本发明可选实施例的另一方面，还提供了一种语音播报装置，图3是根据本发明可选实施例的语音播报装置的示意图，如图3所示，该语音播报装置包括：人脸图像获取模块31、人脸识别模块33、人脸属性检测模块35、音色切换模块37和语音合成模块39，具体详情如下：

人脸图像获取模31用于通过摄像头等设备实时获取目标对象的人脸视频或图像，并将视频或图像数据传输给人脸识别模块和人脸属性检测模块。

人脸识别模块33用于对摄像头传输过来的人脸数据提取人脸特征，并将提取的人脸特征和人脸特征库已注册的特征进行比对，达到某一设定的阈值后，即判断该人脸数据的目标对象为目标人，输出该目标对象的身份标识。可选地，如果匹配到多个目标人，则取得分较高的目标人身份标识为输出结果，如果没有任何目标人的人脸比对达到设定阈值(比如该目标对象之前未注册人脸特征库)，则输出结果为空或特殊标识。

人脸属性检测模块35用于对摄像头传输过来的人脸图像或视频数据提取人脸特征，并将提取的人脸特征和人脸特征库进行比对，以相似度最高判断来输出该目标对象的身份属性，其中，身份属性包括但不限于性别、年龄段、情绪等。

音色切换模块37用于根据人脸识别模块输出的目标对象身份信息，自动将音色切换为预先配置好的与目标对象相匹配的音色库，例如，识别出男主人用男主人预设的音色进行播报。可选地，如果人脸识别模块无法识别该目标对象的身份，则收到上述人脸识别模块输出的空标识或特殊标识后，自动将音色切换为预先配置好的默认音色库。

音色切换模块37还用于根据人脸属性检测模块输出的目标对象身份属性，自动将音色切换为预先配置好的与该属性相匹配的音色库，例如，识别出儿童时使用童音播报，情绪悲伤时使用舒缓音色播报。

语音合成模块39用于使用切换后的音色库，将设备在语音交互中待播报的文本内容进行语音合成，以指定音色输出并播放。

需要说明的是，上述可选的技术方案可以应用于以下场景中：一种是使用人脸识别进行个性化音色推荐；另一种是使用人脸属性检测推荐不同类型的音色。

作为一种可选的实施例，第一种场景适用于家居，车载等，即用户能方便在自己的智能设备上进行人脸注册，设备也能够很方便的识别出目标对象是哪一位成员。通过事先配置个性化音色，例如，男主人设置为A音色播报，女主人设置为B音色播报，小男孩设置为C音色播报，默认为D音色播报，这样设备摄像头在采集到图像后，能够通过人脸识别进行身份辨识，然后自动切换至预先设置好的音色并合成播报，特别的，如果家庭外的陌生人进行语音交互(即事先未进行人脸注册，且没有配置个性化音色)，则设备无法辨识用户身份，此时可以使用默认音色来进行播报。

作为一种可选的实施例，第二种场景适用于大厅等公共场合，即用户事先未进行人脸注册，设备无法准确识别用户身份信息。通过预先在后台配置属性与音色的对应关系(比如中年男+高兴设置为A音色播报，女童+悲伤设置为B音色播报等)，这样设备在采集到图像后，使用人脸属性检测技术，通过人脸特征识别出用户身份属性(比如男，中年人，高兴等)，然后自动切换至预先设置好的音色并合成播报。此处的属性包含但不仅限于以下几类：年龄段(儿童、青年、中年、老年)，性别(男、女)，情绪(高兴、悲伤、愤怒、惊讶、平静等)，属性的类别和各属性值依赖当前人脸属性检测技术的发展(即通过人脸特征信息能够识别哪些用户属性)。

此外，上述技术方案可以单独使用，即一套系统中只包含人脸识别模块或人脸属性检测模块，也可以同时包含两个模块，比如优先使用人脸识别模块，如果能识别出用户身份，则使用个性化音色播报，如果无法识别，则继续通过人脸属性检测模块来识别用户属性，继而为用户推荐预先配置好的音色进行播报。

可选地，可以基于人脸识别的语音合成音色个性化推荐，特定用户个性化推荐特定音色，例如，识别出来是男主人，则用男主人预设的音色进行播报。

可选地，可以基于人脸情绪检测的语音合成音色自动推荐，不同情绪推荐不同类型音色，例如，识别出来悲伤，则用舒缓的音色。

可选地，可以基于人脸年龄检测的语音合成音色自动推荐，不同年龄段推荐不同类型音色，例如，识别出来儿童，则用童音。

可选地，可以基于人脸性别检测的语音合成音色自动推荐，不同性别推荐不同类型音色，例如，识别出来男性，则用女声。

可选地，可以基于人脸识别到目标对象变化时，能够动态实时自动切换合成播报音色。

在上述实施方式中，可以基于人脸识别和人脸属性检测智能推荐并且动态切换合成音色，例如，使用人脸属性检测技术，能够更精准的为不同类型的人群推荐不同类型的音色；使用人脸识别技术，能够识别目标对象身份并推荐个性化音色。另外，通过上述技术方案能够实现设备在与不同的用户进行语音交互时，智能推荐并切换播报音色，显著提升用户在使用智能设备时的趣味性和个性化体验。

实施例2

根据本发明实施例的另一方面，还提供了一种语音播报装置，图4是根据本发明实施例的语音播报装置的示意图，如图4所示，该语音播报装置包括：第一确定模块42、第二确定模块44和播报模块46。下面对该语音播报装置进行详细说明。

第一确定模块42，用于基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息；第二确定模块44，连接至上述第一确定模块42，用于确定目标对象的身份信息和/或属性信息相匹配的目标音色；播报模块46，连接至上述第二确定模块44，用于对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音。

在上述实施例中，上述语音播报装置首先利用第一确定模块42基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息，再利用第二确定模块44确定目标对象的身份信息和/或属性信息相匹配的目标音色，进而利用播报模块46对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音，即上述语音播报装置可以通过对待播报的文本内容进行合成得到合成语音，并以目标对象的身份信息和/或属性信息相匹配的目标音色播报该合成语音，达到了智能推荐并切换播报音色的目的，从而实现了播报音色的多样性，提升用户在使用智能设备时的趣味性和个性化体验的技术效果，进而解决了相关技术的语音交互系统合成播报音色单一的技术问题。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，例如，对于后者，可以通过以下方式实现：上述各个模块可以位于同一处理器中；和/或，上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是，上述第一确定模块42、第二确定模块44和播报模块46对应于实施例1中的步骤S102至S106，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

可选地，上述装置还包括：获取模块和提取模块，其中，上述获取模块用于在基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息之前，获取目标对象的人脸信息；上述提取模块用于提取目标对象的人脸信息中的人脸特征。

可选地，上述第一确定模块42包括：第一确定单元，用于利用人脸识别的方式对目标对象的人脸特征进行识别，确定目标对象的身份信息；和/或，第二确定单元，用于利用人脸属性检测的方式对目标对象的人脸特征进行识别，确定目标对象的属性信息。

可选地，上述第一确定单元包括：第一比对子单元，用于将目标对象的人脸特征与第一人脸特征库进行比对，得到第一比对结果；第一确定子单元，用于依据第一比对结果，确定目标对象的身份信息，其中，目标对象的身份信息至少包括：目标人以及目标人的身份标识。

可选地，上述第二确定单元包括：第二比对子单元，用于将目标对象的人脸特征与第二人脸特征库进行比对，得到第二比对结果；第二确定子单元，用于依据第二比对结果，确定目标对象的属性信息，其中，目标对象的属性信息至少包括：身份属性。

可选地，上述目标音色包括个性化音色和特定类型音色，上述第二确定模块44包括：第三确定单元，用于确定目标对象的身份信息对应的个性化音色；和/或，第四确定单元，用于确定目标对象的属性信息对应的特定类型音色。

实施例3

根据本发明实施例的另一方面，还提供了一种智能设备，该智能设备包括上述中的语音播报装置。

实施例4

根据本发明实施例的另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行上述中任意一项的语音播报方法。

可选地，在本实施例中，上述计算机可读存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，和/或位于移动终端群中的任意一个移动终端中，上述计算机可读存储介质包括存储的程序。

可选地，在程序运行时控制计算机可读存储介质所在设备执行以下功能：基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息；确定目标对象的身份信息和/或属性信息相匹配的目标音色；对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音。

实施例5

根据本发明实施例的另一方面，还提供了一种处理器，该处理器用于运行程序，其中，程序运行时执行上述中任意一项的语音播报方法。

本发明实施例提供了一种设备，该设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息；确定目标对象的身份信息和/或属性信息相匹配的目标音色；对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音。

本发明还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：基于目标对象的人脸特征，确定目标对象的身份信息和/或属性信息；确定目标对象的身份信息和/或属性信息相匹配的目标音色；对待播报的文本内容进行合成得到合成语音，并以目标音色播报合成语音。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种语音播报方法，其特征在于，包括：

基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息；

确定所述目标对象的身份信息和/或属性信息相匹配的目标音色；

对待播报的文本内容进行合成得到合成语音，并以所述目标音色播报所述合成语音。

2.根据权利要求1所述的方法，其特征在于，在基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息之前，还包括：

获取目标对象的人脸信息；

提取所述目标对象的人脸信息中的人脸特征。

3.根据权利要求1所述的方法，其特征在于，基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息包括：

利用人脸识别的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的身份信息；

和/或，

利用人脸属性检测的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的属性信息。

4.根据权利要求3所述的方法，其特征在于，利用人脸识别的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的身份信息包括：

将所述目标对象的人脸特征与第一人脸特征库进行比对，得到第一比对结果；

依据所述第一比对结果，确定所述目标对象的身份信息，其中，所述目标对象的身份信息至少包括：目标人以及所述目标人的身份标识。

5.根据权利要求3所述的方法，其特征在于，利用人脸属性检测的方式对所述目标对象的人脸特征进行识别，确定所述目标对象的属性信息包括：

将所述目标对象的人脸特征与第二人脸特征库进行比对，得到第二比对结果；

依据所述第二比对结果，确定所述目标对象的属性信息，其中，所述目标对象的属性信息至少包括：身份属性。

6.根据权利要求1至5中任意一项所述的方法，其特征在于，所述目标音色包括个性化音色和特定类型音色，确定所述目标对象的身份信息和/或属性信息相匹配的目标音色包括：

确定所述目标对象的身份信息对应的个性化音色；

和/或，

确定所述目标对象的属性信息对应的特定类型音色。

7.一种语音播报装置，其特征在于，包括：

第一确定模块，用于基于目标对象的人脸特征，确定所述目标对象的身份信息和/或属性信息；

第二确定模块，用于确定所述目标对象的身份信息和/或属性信息相匹配的目标音色；

播报模块，用于对待播报的文本内容进行合成得到合成语音，并以所述目标音色播报所述合成语音。

8.一种智能设备，其特征在于，所述智能设备包括权利要求7中所述的语音播报装置。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至6中任意一项所述的语音播报方法。

10.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的语音播报方法。