CN113012679A

CN113012679A - 通过语音播报消息的方法、设备和介质

Info

Publication number: CN113012679A
Application number: CN202110193730.8A
Authority: CN
Inventors: 刘俊启
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-02-20
Filing date: 2021-02-20
Publication date: 2021-06-22

Abstract

本公开提供了一种通过语音播报消息的方法、设备和介质，涉及人工智能领域，尤其涉及语音技术和消息处理技术领域。实现方案为：先确定仿真语音库中是否包括指定用户的目标语音，然后响应于确定所述仿真语音库中包括所述目标语音，基于目标语音生成待播报消息相应的仿真语音数据，待播报消息为由所述指定用户发送的消息，最后，播报仿真语音数据。

Description

通过语音播报消息的方法、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及语音技术领域，具体涉及一种通过语音播报消息的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

背景技术

随着智能终端即时通讯服务的发展，越来越多的领域都实现了语音交互，而从文本到语音(Text To Speech，简称TTS)的方式被广泛用于一些不适合通过视觉获取信息的场景，例如，车载场景中。当前，消息的类型越来越丰富，文本消息、语音消息和图像消息已经成为了现阶段消息的必然呈现的方式。

现有技术方案中，内容方案比较直接，用户输入的消息都以实际的消息形式进行展示，例如，输入语音消息即通过语音播报消息，输入文本消息即以文本形式展示消息，输入图片消息即以图片形式展示消息。

在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明，否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地，除非另有指明，否则此部分中提及的问题不应认为在任何现有技术中已被公认。

发明内容

本公开提供了一种基于真人对话的语音及文本的连续自动播报的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

根据本公开的一方面，提供了一种通过语音播报消息的方法，包括：确定仿真语音库中是否包括指定用户的目标语音；响应于确定所述仿真语音库中包括所述目标语音，基于所述目标语音生成待播报消息相应的仿真语音数据，所述待播报消息为由所述指定用户发送的消息；以及播报所述仿真语音数据。

根据本公开的另一方面，提供了一种通过语音播报消息的装置，包括：确定模块，被配置用于确定仿真语音库中是否包括指定用户的目标语音；第一生成模块，被配置用于响应于确定所述仿真语音库中包括所述目标语音，基于所述目标语音生成待播报消息相应的仿真语音数据，所述待播报消息为由所述指定用户发送的消息；以及播报模块，被配置用于播报所述仿真语音数据。

根据本公开的另一方面，还提供一种电子设备，包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述的语音播报消息的方法。

根据本公开的另一方面，还提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据上述的语音播报消息的方法。

根据本公开的另一方面，还提供一种计算机程序产品包括计算机程序，其中，所述计算机程序被处理器执行时实现上述的方法的步骤。

根据本公开的一个或多个实施例，可以基于指定用户的目标语音生成待播报消息相应的仿真语音数据，然后语音播报仿真语音数据，从而能够增加消息表达的生动性及趣味性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的要素。

图1和图2示出了根据本公开的实施例的通过语音播报消息的方法的流程图；

图3示出了根据本公开的实施例的建立仿真语音库的方法的流程图；

图4a示出了根据本公开的实施例的即时通信工具的对话框的示意图；

图4b示出了根据本公开的实施例的即时通信工具的对话框中不同待播报消息通过语音播报的分类示意图；

图5示出了根据本公开的实施例的通过语音播报消息的装置的组成框图；

图6示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。

相关技术中，内容的表现比较直接，用户用语音输入即播报语音，用户输入文本或图片即展示文本或图片，导致消息呈现形式单一。

基于此，本公开可以建立仿真语音库，当需要通过语音播报待播报消息时，可以从仿真语音库中查找是否包括指定用户的目标语音。可以响应于确定所述仿真语音库中包括指定用户的目标语音，基于所述目标语音生成待播报消息相应的仿真语音数据，该待播报消息为由该指定用户发送的消息，从而能够基于用户的语音生成待播报消息的仿真语音数据并播报，提升用户体验，增加消息呈现的生动性及趣味性。

以下将结合附图对本公开的通过语音播报消息的方法进行进一步描述。

图1是示出根据本公开示例性实施例的通过语音播报消息的方法的流程图。如图1所示，该方法可以包括：步骤S101、确定仿真语音库中是否包括指定用户的目标语音；步骤S102、响应于确定所述仿真语音库中包括所述目标语音，基于所述目标语音生成待播报消息相应的仿真语音数据，所述待播报消息为由所述指定用户发送的消息；以及步骤S103、播报所述仿真语音数据。由此，通过基于指定用户的目标语音生成待播报消息相应的仿真语音数据，并且该待播报消息为由该指定用户发送的消息，从而能够实现根据个性化地仿真语音播报，能够增加消息呈现方式的多样性和趣味性，丰富了对话的流程，提升用户体验。

所述待播报消息可以为非语音消息，例如可以为纯文本消息或图片消息，所述待播报消息也可以包括文本内容和图片，利用本公开的技术方案能够实现非语音消息的仿真语音播报，提升用户体验。

目标语音例如可以为该指定用户的历史语音消息。需要说明的是，历史语音消息可以是指用户已经输入并且存储在仿真语音库中的语音消息，并不限定必须是在待播报语音的输入时间之前输入的语音消息，也可以是在待播报语音的输入时间之后输入的语音消息。例如，在即时通信工具的对话框中，如果在待播报消息之后具有同一用户输入的语音消息，可以将该语音消息存储至仿真语音库，则可以基于该语音消息生成该待播报消息相应的仿真语音数据。

可以理解的，目标语音也可以是通过采集设备所采集的该指定用户的语音。

根据一些实施例，步骤S102可以包括：获取所述目标语音的目标声纹特征；基于所述目标声纹特征生成所述待播报消息相应的仿真语音数据。由此，能够基于用户的声纹特征生成待播报消息的仿真语音数据。

具体地，所述对用户的声纹特征信息提取可以通过神经网络算法实现，或者通过高斯混合模型实现，本发明对声纹特征提取技术不做限制。

根据一些实施例，所述待播报消息可以包括图片，在这种情况下，所述仿真语音数据可以包括能够提示所述待播报消息包括图片的提示语音数据，从而能够提示用户待播报消息包括图片。例如，可以在仿真语音数据的开始部分增加“发了张图片，图片里有”等提示语音数据。

根据一些实施例，当待播报消息包括图片时，步骤S102可以包括：对所述图片进行识别；基于所述目标语音和图片的识别结果，生成所述待播报消息中所述图片相应的仿真语音数据，所述仿真语音数据包括所述图片的识别结果相应的语音数据，从而能够通过仿真语音播报图片所包括的内容。在实际应用过程中，对于内容简单的图片消息，可以通过图像识别算法识别图片中的信息，增加语音播报的简练性。对于内容复杂的图片消息，可以直接提醒用户查看图片消息，提升了图片消息播报的效率。

示例性的，可以对图片进行识别，得到图片所包括的对象及其类别。可以采用图像识别算法对图片进行识别，进而识别出图片中的信息。对图片进行识别的图像识别算法可以是数字图像处理算法，也可以用基于深度学习的神经网络模型来实现，本公开的实施例不限定具体采用何种图像识别算法。任何图像识别算法均可以适用于本公开的技术。

可以将从图片中所识别的信息转换为语音数据，以生成图片消息相应的仿真语音数据。例如可以通过从文本到语音(Text To Speech，简称TTS)技术将所识别的信息转换为相应的仿真语音数据。

发明人意识到，当新用户发送待播报消息时，在已建立的仿真语音库中可能会不包括该用户的仿真语音数据。基于此，可以建立虚拟语音库。

根据一些实施例，如图2所示，所述方法还可以包括：步骤S201、响应于确定所述仿真语音库中不包括所述目标语音，基于所述待播报消息的相关信息从虚拟语音库中获取虚拟语音；步骤S202、至少基于所述虚拟语音生成所述待播报消息相应的虚拟语音数据；步骤S203、播报所述虚拟语音数据。由此，能够针对待播报消息的输入用户(即指定用户)在仿真语音库中不包括相应的历史语音消息的情况，采用虚拟语音对待播报消息进行语音播报，更加具有灵活性。

示例性的，待播报消息可以为文本消息，但该用户之前没有发送过语音消息，仿真语音库中没有该用户的历史语音消息，此时可以对该待播报消息进行虚拟的语音设定，以实现语音播报。具体地，当待播报消息的输入用户在仿真语音库中不包括历史语音消息时，可以确定所述待播报消息的用户性别为男性或者女性，以确定用男性语音或者女性语音对所述待播报消息进行虚拟语音播报。

根据一些实施例，当所述待播报消息包括图片时，所述虚拟语音数据可以包括能够提示所述待播报消息包括图片的提示语音数据，从而能够提示用户待播报消息包括图片。例如，可以在仿真语音数据的开始部分增加“发了张图片，图片里有”等提示语音数据。

根据一些实施例，当所述待播报消息包括图片，步骤S201可以包括：对所述图片进行识别；基于所述虚拟语音和图片的识别结果，生成所述待播报消息中图片相应的虚拟语音数据，所述虚拟语音数据还包括所述图片的识别结果相应的语音数据，从而能够通过虚拟语音播报图片所包括的内容。实际应用过程中，对于内容简单的图片消息，可以通过图像识别算法识别图片中主的信息，增加语音播报的简练性。于内容复杂的图片消息，可以直接提醒用户查看图片消息，提升了图片消息播报的效率。

可以将从图片中所识别的信息转换为语音数据，以生成图片消息相应的虚拟语音数据。例如可以通过TTS技术将所识别的信息转换为相应的虚拟语音数据。

其中，所述图片例如可以但不限于包括条形码。

根据一些实施例，步骤S202、至少基于所述虚拟语音生成所述待播报消息相应的虚拟语音数据可以包括：获取所述指定用户的账号；基于所述虚拟语音和所述指定用户的账号，生成所述虚拟语音数据，以使得所述虚拟语音数据能够提示所述待播报消息为由所述指定用户发送。由此，对待播报语音消息进行播报时，可以提示该待播报消息为由指定用户发送。通过提示待播报消息相关的指定用户的账号，利用虚拟语音播报也能够帮助用户更好的获取待播报消息的相关信息。

作为一个优选的实施例，当所述待播报消息包括图片时，所述虚拟语音数据可以包括能够提示所述待播报消息包括图片的提示语音数据，并且还能够提示发送所述待播报消息的用户账号，从而能够提示用户发送待播报消息的用户是谁，以及提示待播报消息包括图片。例如，可以在仿真语音数据的开始部分增加“用户X发了张图片，图片里有”等提示语音数据。

根据一些实施例，如图3所示，所述方法还可以包括：步骤S301、接收用户输入的语音消息；步骤S302、基于用户所输入的语音消息，建立并更新仿真语音库，所述仿真语音库包括语音消息和输入所述语音消息的用户账号之间的对应关系。由此，通过建立并更新仿真语音库，能够快速查找到指定用户的目标语音，提升效率。

示例性的，可以在仿真语音库中预先关联用户账号和相关的历史语音消息，以便于根据输入待播报消息的指定用户的账号查找指定用户的历史语音消息，并基于历史语音消息合成待播报消息的语音数据。可以定期将消息日志中的历史语音消息添加到仿真语音库中，进行更新，也可以将实时接收的用户所输入的语音消息添加到仿真语音库，进行更新，在此不做具体限定，可以根据实际需求来选择。

需要说明的是，上述只是举例说明如何基于仿真语音库对待播报消息进行语音播报。

根据一些实施例，可以根据指令选择对一个或多个待播报消息来进行语音播报，下面将结合具体的实施例来进行描述。

根据一些实施例，所述方法还可以包括：基于所输入的选择指令，按照第一预设规则从设定的多条消息中确定一个或多个待播报消息，从而能够实现多个待播报消息的连续语音播报。

示例性的，所述设定的多条消息例如可以为同一会话框中的多条消息。在这种情况下，具体地，用户可以选择会话框中的某一条消息，可以弹出语音浮窗，将会话框中从该消息开始向下的多条消息作为待播报消息，执行语音连续播报。用于也可以选择对话框中的一组消息，可以弹出语音浮窗，将选中的一组消息作为待播报消息，执行语音连续播报。

根据一些实施例，所述方法还可以包括：对于设定的多条消息，按照第二预设规则从多条消息中确定一个或多个待播报消息。

示例性的，所述设定的多条消息例如可以为同一会话框中的多条消息。在这种情况下，具体地，用户若没有选择待播报消息，用户可以通过设定的菜单项选择播报规则，播报规则例如可以为播报未浏览过的内容，例如可以将当前会话框中未浏览过的所有消息作为待播报消息，执行语音连续播报。播报规则也可以为从当前对话框的当前可视区的最上面一条消息开始播报，例如，可以将将当前会话框的当前可视区的所有消息作为待播报消息，执行语音连续播报。

在所述设定的多条消息为同一会话框中的多条消息的情况下，可以提供“连续语音播报”能力入口，在接收到来自同一群组内其他用户账号或者好友用户账号所发送的消息时，用户可选择“连续语音播报”功能同时对一个或多个待播报消息进行语音播报。

示例性的，可以基于相关的指定用户的目标语音，通过语音合成技术依次合成与一个或多个待播报消息对应的仿真语音数据，可以采用语音数据流的方式将已经合成的一个或多个仿真语音消息，依次进行播报。

示例性的，可以基于相关的指定用户的目标语音，通过语音合成技术依次合成与一个或多个待播报消息对应的虚拟语音数据，可以采用语音数据流的方式将已经合成的一个或多个虚拟语音消息，依次进行播报。

下面将结合示例性场景对本公开实施例中通过语音播报消息的方法进行具体描述。

在一些具体实施例中，如图4a所示，获取历史聊天组1和历史聊天组2中的历史语音消息，例如，用户A语音消息、用户B语音消息、用户C语音消息、用户D语音消息、用户F语音消息、用户Q语音消息，并基于历史语音消息建立仿真语音库。获取当前会话框中的语音消息，例如，用户E语音消息，并基于语音消息更新仿真语音库。用户可以选择当前会话框中的某一条消息，可以从该消息开始向下连续语音播报。也可以选择一组消息，连续播报被选择的这组消息。用户若没有进行选择消息，可以从设定的菜单项选择播报规则，例如可以播报没有浏览过的内容或从当前可视区最顶一条消息开始播报。

如图4b所示，可以响应于确定仿真语音库中包括指定用户的目标语音，待播报消息为由该指定用户发送的消息，则可以获取目标语音的声纹特征，基于所获取的声纹特征以及所述待播报消息进行TTS播报。具体地，用户Q文本消息、用户A文本消息和用户B文本消息，可以在仿真语音库中查找到相关的指定用户的目标语音，并获取目标语音的声纹特征，基于所获取的声纹特征以及所述待播报文本消息进行TTS仿真播报。与待播放消息相关的指定用户可以是指该待播报消息为由该指定用户发送的消息。

可以响应于确定仿真语音库中不包括指定用户的目标语音，从虚拟语音库中获取虚拟语音，基于虚拟语音的声纹特征以及待播报消息进行TTS播报。具体地，用户X，其当前输入的是文本消息，由于仿真语音库中没有用户X的历史语音消息，可以对其进行虚拟的语音设定，具体可以基于用户X的性别设定虚拟语音。播报虚拟语音数据时，可以预先设置在播报时，先提示用户的账号，再对其文本消息内容进行播报。语音播报的内容例如可以为：“用户X说：……”

对于用户E语音消息和用户F语音消息，可以直接进行播报。

用户C在当前对话框中还发了一张图片消息，根据步骤S102，可以对图片进行识别，识别出图片的信息。将所识别的信息转换为语音数据进行播报的。具体地，可以预先设置语音播报时，先提示待播报消息为图片消息，再对图片进行识别所得到的的文本信息进行播报。语音播报的内容例如可以为：“发了张图，图里有……”。若该图片消息的内容复杂，可以直接提示用户查看图片。也可以预先设置在播报时，先提示输入待播报消息的用户账号，以及提示待播报消息为图片消息，再对其图片的文本信息内容进行播报。语音播报的内容例如可以为：“用户C发了张图，图里有……”。

用户E发送的文本消息，由于当前会话框中具有用户E语音消息并且已经添加到仿真语音库中，指定用户E和相应的目标语音(用户E语音消息)。可以基于用户E语音消息的声纹特征以及用户E文本消息进行TTS播报。

本公开的技术方案不限于适用于即时通信工具，也可以适用于其它消息系统，例如，互动类产品、评论类消息等等。相应地，用户所选择的待播报消息可以是文字、图片等形式。例如待播报消息可以是一条或多条新闻、一段文字或一张图片，本公开的实施例对此不做限制。可以将用户所选择的一条或者多条消息作为待播报消息。

根据本公开的另一方面，还提供一种通过语音播报消息的装置。如图5所示，该装置500可以包括：确定模块501，被配置用于确定仿真语音库中是否包括指定用户的目标语音；第一生成模块502，被配置用于响应于确定所述仿真语音库中包括所述目标语音，基于所述目标语音生成待播报消息相应的仿真语音数据，所述待播报消息为由所述指定用户发送的消息；以及播报模块503，被配置用于播报所述仿真语音数据。

这里，通过语音播报消息的装置500的上述各单元501-503的操作分别与前面描述的步骤S101-S103的操作类似，在此不再赘述。

根据一些实施例，该装置还可以包括：获取模块504，被配置用于响应于确定所述仿真语音库中不包括所述目标语音，基于所述待播报消息的相关信息从虚拟语音库中获取虚拟语音；第二生成模块505，被配置用于至少基于所述虚拟语音生成所述待播报消息相应的虚拟语音数据，其中，所述播报模块还被配置用于播报所述虚拟语音数据。

根据本公开的另一方面，还提供一种电子设备，可以包括：处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述的语音播报消息的方法。

根据本公开的另一方面，还提供一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述电子设备执行根据上述的语音播报消息的方法。根据本公开的另一方面，还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现上述的方法的步骤。

参见图6所示，现将描述可以作为本公开的服务器或客户端的电子设备600的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606、输出单元607、存储单元608以及通信单元609。输入单元606可以是能向设备600输入信息的任何类型的设备，输入单元606可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入，并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元607可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元608可以包括但不限于磁盘、光盘。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如步骤S101～步骤S103。例如，在一些实施例中，通过语音播报消息方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的通过语音播报消息方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行语音播报消息方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

虽然已经参照附图描述了本公开的实施例或示例，但应理解，上述的方法、系统和设备仅仅是示例性的实施例或示例，本发明的范围并不由这些实施例或示例限制，而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外，可以通过不同于本公开中描述的次序来执行各步骤。进一步地，可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进，在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims

1.一种通过语音播报消息的方法，包括：

确定仿真语音库中是否包括指定用户的目标语音；

响应于确定所述仿真语音库中包括所述目标语音，基于所述目标语音生成待播报消息相应的仿真语音数据，所述待播报消息为由所述指定用户发送的消息；以及

播报所述仿真语音数据。

2.根据权利要求1所述的方法，还包括：

响应于确定所述仿真语音库中不包括所述目标语音，基于所述待播报消息的相关信息从虚拟语音库中获取虚拟语音；

至少基于所述虚拟语音生成所述待播报消息相应的虚拟语音数据；以及

播报所述虚拟语音数据。

3.根据权利要求2所述的方法，其中，至少基于所述虚拟语音生成所述待播报消息相应的虚拟语音数据包括：

获取所述指定用户的账号；

基于所述虚拟语音和所述指定用户的账号，生成所述虚拟语音数据，以使得所述虚拟语音数据能够提示所述待播报消息为由所述指定用户发送。

4.根据权利要求2所述的方法，其中，所述待播报消息包括图片，所述虚拟语音数据包括能够提示所述待播报消息包括图片的提示语音数据。

5.根据权利要求4所述的方法，其中，至少基于所述虚拟语音生成所述待播报消息相应的虚拟语音数据包括：

对所述图片进行识别；

基于所述虚拟语音和图片的识别结果，生成所述待播报消息中所述图片相应的虚拟语音数据，所述虚拟语音数据还包括所述图片的识别结果相应的语音数据。

6.根据权利要求1所述的方法，其中，所述待播报消息包括图片，所述仿真语音数据包括能够提示所述待播报消息包括图片的提示语音数据。

7.根据权利要求6所述的方法，其中，基于所述目标语音生成所述待播报消息相应的仿真语音数据包括：

对所述图片进行识别；

基于所述目标语音和所述图片的识别结果，生成所述待播报消息中所述图片相应的仿真语音数据，所述仿真语音数据包括所述图片的识别结果相应的语音数据。

8.根据权利要求1所述的方法，其中，所述待播报消息为纯文本消息。

9.根据权利要求1所述的方法，其中，所述待播报消息包括文本内容和图片。

10.根据权利要求1-9中任一项所述的方法，其中，基于所述目标语音生成所述待播报消息相应的仿真语音数据包括：

获取所述目标语音的目标声纹特征；

基于所述目标声纹特征生成所述待播报消息相应的仿真语音数据。

11.根据权利要求1-9中任一项所述的方法，还包括：

接收用户输入的语音消息；

基于用户所输入的语音消息，建立并更新仿真语音库，所述仿真语音库包括语音消息和输入所述语音消息的用户账号之间的对应关系。

12.根据权利要求1所述的方法，还包括：

基于所输入的选择指令，按照第一预设规则从设定的多条消息中确定一个或多个待播报消息。

13.根据权利要求1所述的方法，还包括：

对于设定的多条消息，按照第二预设规则从多条消息中确定一个或多个待播报消息。

14.根据权利要求12或13所述的方法，其中，所述设定的多条消息为同一会话框中的多条消息。

15.一种通过语音播报消息的装置，包括：：

确定模块，被配置用于确定仿真语音库中是否包括指定用户的目标语音；

第一生成模块，被配置用于响应于确定所述仿真语音库中包括所述目标语音，基于所述目标语音生成所述待播报消息相应的仿真语音数据，所述待播报消息为由所述指定用户发送的消息；以及

播报模块，被配置用于播报所述仿真语音数据。

16.根据权利要求15所述的装置，还包括：

获取模块，被配置用于响应于确定所述仿真语音库中不包括所述目标语音，基于所述待播报消息的相关信息从虚拟语音库中获取虚拟语音；

第二生成模块，被配置用于至少基于所述虚拟语音生成所述待播报消息相应的虚拟语音数据，

其中，所述播报模块还被配置用于播报所述虚拟语音数据。

17.一种电子设备，包括：

处理器；以及

与所述至少一个处理器通信连接的存储器；其中

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-14中任一项所述的方法。

18.一种存储有计算机指令的计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，其中，所述计算机程序被处理器执行时实现权利要求1-14中任一项所述的方法的步骤。