CN112131438A

CN112131438A - 一种信息生成的方法、信息展示的方法及装置

Info

Publication number: CN112131438A
Application number: CN201910554821.2A
Authority: CN
Inventors: 张明远
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-25
Filing date: 2019-06-25
Publication date: 2020-12-25

Abstract

本申请公开了一种信息生成的方法、信息展示的方法及装置，用于实现语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。本申请方法包括：获取待合成图像集合，其中，所述待合成图像集合包括至少一个待合成图像；根据所述待合成图像集合接收语音输入指令；响应于所述语音输入指令，获取待合成语音信息；根据所述待合成图像集合以及所述待合成语音生成目标图像信息。

Description

一种信息生成的方法、信息展示的方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种信息生成的方法、信息展示的方法及装置。

背景技术

随着互联网的快速发展，出现了各式各样的社交应用，包括即时通讯应用等。在使用这些社交应用的过程中，为了更形象且更生动的表达想说的话，用户经常会发送一些动态图像或者静态图像来增加对话的灵活性和趣味性。

目前，常用的方式为，用户通过社交应用直接在终端设备的图库中选择已有的静态图片或者动态图片，然后直接发送给社交应用中的好友。

然而，用户仅通过发送图片进行交流往往会缺乏交互性，比如用户A向用户B发送一张图片，再向用户B说明这张图片表达的意思，这样的沟通模式会导致沟通效率较低，且缺乏灵活性。

发明内容

本申请实施例提供了一种信息生成的方法、信息展示的方法及装置，用于实现语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

有鉴于此，本申请第一方面提供一种信息生成的方法，包括：

获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

根据待合成图像集合接收语音输入指令；

响应于语音输入指令，获取待合成语音信息；

根据待合成图像集合以及待合成语音生成目标图像信息。

本申请第二方面提供一种信息生成的方法，包括：

接收语音输入指令；

响应于语音输入指令，获取待合成语音信息；

根据待合成语音信息接收图像输入指令；

响应于图像输入指令，获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

根据待合成语音信息以及待合成图像集合生成目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合；

发送目标语音信息。

本申请第三方面提供一种信息展示的方法，包括：

接收发送方客户端发送的目标图像信息，待合成图像集合包括至少一个待合成图像；

接收信息展示指令；

响应于信息展示指令，在展示待合成图像集合时，播放待合成语音信息。

本申请第四方面提供一种信息展示的方法，包括：

接收发送方客户端发送的目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合，待合成图像集合包括至少一个待合成图像；

接收信息展示指令；

响应于信息展示指令，在播放待合成语音信息时，展示待合成图像集合。

本申请第五方面提供一种信息生成装置，包括：

获取单元，用于获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

接收单元，用于根据获取单元获取的待合成图像集合接收语音输入指令；

获取单元，还用于响应接收单元接收的语音输入指令，获取待合成语音信息；

生成单元，用于根据获取单元获取的待合成图像集合以及待合成语音生成目标图像信息。

在一种可能的设计中，在本申请实施例的第五方面的第一种实现方式中，

获取单元具体用于：

接收图像选取指令，其中，图像输入指令携带待合成图像集合所对应的图像标识；

响应于图像输入指令，从媒体数据集合中获取待合成图像集合。

在一种可能的设计中，在本申请实施例的第五方面的第二种实现方式中，

获取单元具体用于：

接收图像拍摄指令；

响应于图像拍摄指令，启动摄像模块；

通过摄像模块获取待合成图像集合。

在一种可能的设计中，在本申请实施例的第五方面的第三种实现方式中，

接收单元具体用于：接收悬浮控制手势，其中，悬浮控制手势与终端设备的屏幕之间的距离大于预设距离，悬浮控制手势与待合成图像集合具有对应关系；

获取单元具体用于：

响应接收单元接收的悬浮控制手势，判断悬浮控制手势与预设悬浮控制手势是否匹配；

若悬浮控制手势与预设悬浮控制手势匹配成功，则通过语音输入模块获取待合成语音信息。

在一种可能的设计中，在本申请实施例的第五方面的第四种实现方式中，

接收单元具体用于：接收操作控制手势，其中，操作控制手势与待合成图像集合具有对应关系，操作控制手势作用于终端设备的屏幕，操作控制手势包括长按手势、单击手势、双击手势以及轨迹手势中的至少一种；

获取单元具体用于：

响应接收单元接收的操作控制手势，判断操作控制手势与预设操作控制手势是否匹配；

若操作控制手势与预设操作控制手势匹配成功，则通过语音输入模块获取待合成语音信息。

在一种可能的设计中，在本申请实施例的第五方面的第五种实现方式中，接收单元具体用于：

通过待合成图像集合接收第一操作指令；

响应于第一操作指令，展示语音添加模块；

通过语音添加模块接收第二操作指令；

获取单元具体用于：响应接收单元接收的第二操作指令，通过语音输入模块获取待合成语音信息。

在一种可能的设计中，在本申请实施例的第五方面的第六种实现方式中，

获取单元具体用于：

通过语音输入模块接收音频数据；

采用语音边界检测VAD从音频数据中检测出有效语音起始点以及有效语音结束点，其中，有效语音起始点对应第一时刻，有效语音结束点对应第二时刻；

根据有效语音起始点以及有效语音结束点，从音频数据中确定待合成语音信息，其中，待合成语音信息的起始时刻为第一时刻，待合成语音信息的结束时刻为第二时刻。

在一种可能的设计中，在本申请实施例的第五方面的第七种实现方式中，

接收单元，还用于接收信息传输指令，其中，信息传输指令中携带接收方标识；

信息生成装置还包括发送单元，用于响应接收单元接收的信息传输指令，向服务器发送目标图像信息，以使服务器向接收方客户端发送目标图像信息，以使接收方客户端根据目标图像信息，在展示待合成图像集合时播放待合成语音信息，接收方客户端对应于接收方标识。

在一种可能的设计中，在本申请实施例的第五方面的第八种实现方式中，

获取单元具体用于：

通过所述待合成图像集合接收图像处理指令；

响应于所述图像处理指令，显示语音添加模块，其中，所述语音添加模块用于获取所述待合成语音信息。

本申请第六方面提供一种信息生成装置，包括：

接收单元，用于接收语音输入指令；

获取单元，用于响应接收单元接收的语音输入指令，获取待合成语音信息；

接收单元，还用于根据获取单元获取的待合成语音信息接收图像输入指令；

获取单元，还用于响应接收单元接收的图像输入指令，获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

生成单元，用于根据获取单元获取的待合成语音信息以及待合成图像集合生成目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合；

发送单元，用于发送目标语音信息。

在一种可能的设计中，在本申请实施例的第六方面的第一种实现方式中，

获取单元具体用于：响应于接收单元接收的语音输入指令，从预设语音信息集合中获取待合成语音信息，其中，语音输入指令中携带关键词信息，待合成语音信息携带关键词信息，预设语音信息集合包括至少一个语音信息。

在一种可能的设计中，在本申请实施例的第六方面的第二种实现方式中，

获取单元具体用于：

响应于接收单元接收的图像输入指令，从本地获取待合成图像集合；

或，

响应于接收单元接收的图像输入指令，从服务器获取待合成图像集合。

在一种可能的设计中，在本申请实施例的第六方面的第三种实现方式中，

接收单元具体用于：

根据获取单元获取的待合成语音信息展示图像选择列表；

通过图像选择列表接收图像输入指令；

获取单元具体用于：

响应于接收单元接收的图像输入指令，从图像选择列表中获取待合成图像集合。

本申请第七方面提供一种信息生成装置，包括：

接收单元，用于接收发送方客户端发送的目标图像信息，待合成图像集合包括至少一个待合成图像；

接收单元，还用于接收信息展示指令；

展示单元，用于响应接收单元接收的信息展示指令，在展示接收单元接收的待合成图像集合时，播放接收单元接收的待合成语音信息。

本申请第八方面提供一种信息生成装置，包括：

接收单元，用于接收发送方客户端发送的目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合，待合成图像集合包括至少一个待合成图像；

接收单元，还用于接收信息展示指令；

播放单元，用于响应接收单元接收的信息展示指令，在播放接收单元接收的待合成语音信息时，展示接收单元接收的待合成图像集合。

本申请第九方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括如下步骤：

根据待合成图像集合接收语音输入指令；

响应于语音输入指令，获取待合成语音信息；

根据待合成图像集合以及待合成语音生成目标图像信息；

总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。

本申请第十方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括如下步骤：

接收语音输入指令；

响应于语音输入指令，获取待合成语音信息；

根据待合成语音信息接收图像输入指令；

本申请第十一方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括如下步骤：

接收信息展示指令；

响应于信息展示指令，在展示待合成图像集合时，播放待合成语音信息；

本申请第十二方面提供一种终端设备，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括如下步骤：

接收信息展示指令；

响应于信息展示指令，在播放待合成语音信息时，展示待合成图像集合；

本申请的第十三方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

在获取待合成图像集合之后，可以根据待合成图像集合接收语音输入指令，其中，待合成图像集合包括至少一个待合成图像，并根据接收到的语音输入指令，获取待合成语音信息，进而根据待合成图像集合以及待合成语音生成目标图像信息。通过上述方式，能够实现语音与图片的交互方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

附图说明

图1为本申请实施例中信息生成系统的一个架构示意图；

图2为本申请实施例中信息生成的方法一实施例示意图；

图3为本申请实施例提供的待合成图像集合的一种获取流程示意图；

图4为本申请实施例提供的待合成图像集合的另一种获取流程示意图；

图5为本申请实施例提供的多种预设悬浮控制手势的示意图；

图6为本申请实施例提供的待合成语音信息的一种获取流程示意图；

图7为本申请实施例提供的待合成语音信息的另一种获取流程示意图；

图8为本申请实施例提供的待合成语音信息的又一种获取流程示意图；

图9为本申请实施例中信息生成方法的另一实施例示意图；

图10为本申请实施例中信息生成方法的又一实施例示意图；

图11为本申请实施例中信息生成方法的再一实施例示意图；

图12为本申请实施例中信息展示方法的一实施例示意图；

图13为本申请实施例中信息展示方法的另一实施例示意图；

图14为本申请实施例中信息展示方法的又一实施例示意图；

图15为本申请实施例中信息展示方法的再一实施例示意图；

图16为本申请实施例中信息生成装置的一实施例示意图；

图17为本申请实施例中信息生成装置的另一实施例示意图；

图18为本申请实施例中信息生成装置的又一实施例示意图；

图19为本申请实施例中信息展示装置的一实施例示意图；

图20为本申请实施例中信息展示装置的另一实施例示意图；

图21为本申请实施例中终端设备的一实施例示意图；

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请实施例提供的信息生成的方法可以应用于各种可以输入图像信息或者语音信息的场景中，作为示例，例如在通过搜索引擎客户端进行搜索时，可以在搜索框中输入携带有语音信息的图像或者携带有图像信息的语音，以提高搜索过程的精准度；作为另一示例，例如在通过购物类客户端挑选商品时，可以在搜索框中输入携带有语音信息的物品图像或者携带有物品图像的语音信息，从而购物客户端匹配到更为精准的物品；作为再一示例，例如在即时通讯客户端中，可以在通信界面中输入携带有语音信息的图像或者携带有图像信息的语音，使得用户信息传达更加高效准确等等，此处不再对其他应用场景进行一一举例。

为了便于理解，本申请提出了一种信息生成的方法，该方法应用于图1所示的信息生成系统，请参阅图1，图1为本申请实施例中信息生成系统的一个架构示意图，信息生成系统中可以包括发送方客户端100和服务器200，当发送方客户端100为即时通讯类型的客户端时，信息生成系统中还可以包括接收方客户端300。发送方客户端100用于获取待合成图像和待合成语音信息，并将待合成图像和待合成语音信息进行合成后发送给服务器200；在发送方客户端100为具有搜索功能的客户端的情况下，服务器200用于接收合成后的待合成图像和待合成语音信息，并根据合成后的待合成图像和待合成语音信息执行搜索操作，在发送方客户端100为即时通讯类型的客户端的情况下，服务器200用于接收合成后的待合成图像和待合成语音信息，并转发给接收方客户端300。

其中，发送方客户端100和接收方客户端300均可以表现为网页客户端，也可以表现为应用程序类客户端，服务器200为信息生成系统的后台服务器，可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。

需要说明的是，发送方客户端100和接收方客户端300均部署于终端设备上，其中，终端设备包含但不仅限于平板电脑、笔记本电脑、掌上电脑、手机、语音交互设备及个人电脑(personal computer，PC)，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

发送方客户端100、服务器200和接收方客户端300之间均可以通过无线网络连接。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan AreaNetwork，MAN)、广域网(Wide Area Network，WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可以使用包括超文本标记语言(Hyper Text Mark-upLanguage，HTML)、可扩展标记语言(Extensible Markup Language，XML)等的技术和/或格式来代表通过网络交换的数据。在另一些实施例中，还可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。

虽然图1中仅示出了三个发送方客户端100、一个服务器200和三个接收方客户端300，但应当理解，图1中的示例仅用于理解本方案，具体发送方客户端100、服务器200以及接收方客户端300的数量均应当结合实际情况灵活确定。本申请实施例中，仅以提供的信息生成的方法应用于通讯类型的客户端上为例，进行说明。

结合上述介绍，下面将对本申请中信息生成的方法进行介绍，请参阅图2，本申请实施例中信息生成的方法一个实施例包括：

101、发送方客户端获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

本实施例中，发送方客户端可以获取待合成图像集合，其中，待合成图像集合包括一个或多个待合成图像，待合成图像集合中的每个待合成图像可以表现为静止的图像，也可以表现为由多帧图像组成的动图。具体的，由于终端设备上的图库中存储有多个图像，则发送方客户端可以从图库中选取一个或多个待合成图像；发送方客户端也可以利用终端设备上的摄像模块获取一个或多个待合成图像；发送方客户端还可以为接收第三方客户端或服务器发送的至少一个图像，并从中选取一个或多个待合成图像等，具体待合成图像集合的获取方式，此处不做限定。

102、发送方客户端根据待合成图像集合接收语音输入指令；

本实施例中，发送方客户端在获取到待合成图像集合之后，可以展示待合成图像集合，从而可以根据待合成图像集合接收用户输入的语音输入指令。具体的，在待合成图像集合包括多个待合成图像，发送方客户端在展示待合成图像集合时，可以在展示界面上只展示一个待合成图像，并在接收到用户输入的图像切换指令时再展示另一个待合成图像，则发送方客户端可以通过一个待合成图像的展示界面接收用户输入的语音输入指令，其中，图像切换指令可以为左右滑动手势指令或上下滑动手势指令等等；发送方客户端在展示界面上也可以同时展示多个待合成图像的缩略图，则发送方客户端可以在多个待合成图像的缩略图展示界面上接收语音输入指令；可选的，发送客户端还可以接收用户对多个待合成图像的缩略图的选择指令，以确定待合成语音信息和待合成图像之间的对应关系等，语音输入指令的接收方式可以根据实际的产品形态确定，此处不做限定。

更具体的，用户可以通过输入悬浮控制手势操作的方式输入语音输入指令；也可以通过输入操作控制手势操作的方式输入语音输入指令；还可以为通过在预设位置上输入点击操作的方式输入语音输入指令等等，此处不限定语音输入指令的输入方式；其中，悬浮控制手势操作和操作控制手势操作的区别在于，前者在执行手势操作时与终端设备的屏幕之间有一定的距离，而后者是直接执行于屏幕上的操作。

103、发送方客户端响应于语音输入指令，获取待合成语音信息；

本实施例中，发送方客户端在接收到语音输入指令之后，可以通过麦克风等拾音元件获取用户输入的语音，并根据用户输入的语音生成待合成语音信息，其中，待合成语音信息的数量可以为一个。

104、发送方客户端根据待合成图像集合以及待合成语音生成目标图像信息。

本实施例中，发送方客户端在获取到待合成图像集合和待合成语音之后，可以执行待合成图像集合与待合成语音之间的合成操作，以生成包括待合成图像集合和待合成语音信息的目标图像信息，进而可以将目标图像信息保存到本地，或者将目标图像信息发送给服务器，或者将目标图像信息通过服务器发送给接收方客户端。具体的，由于待合成图像集合包括一个或多个待合成图像，在待合成图像集合中包括一个待合成图像的情况下，则发送客户端可以将待合成语音信息与所述一个待合成图像进行合成，则目标图像信息中包括一个合成有语音信息的图像；在待合成图像中包括多个待合成图像的情况下，在一种实现方式中，发送客户端可以确定待合成语音信息与多个待合成图像中哪一个目标待合成图像具有对应关系，则将待合成语音信息与目标待合成图像进行合成，则目标图像信息中包括一个合成有语音信息的图像和至少一个未合成语音信息的图像；在另一种实现方式中，发送客户端可以将待合成语音信息逐个与所述多个待合成图像进行合成，则目标图像信息中包括多个合成有语音信息的图像等，具体此处不限定执行合成操作的方式。

本申请实施例中，在获取待合成图像集合之后，可以根据待合成图像集合接收语音输入指令，其中，待合成图像集合包括至少一个待合成图像，并根据接收到的语音输入指令，获取待合成语音信息，进而根据待合成图像集合以及待合成语音生成目标图像信息。通过上述方式，能够实现语音与图片的交互方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

可选地，在上述图2对应的实施例的基础上，本申请实施例提供的信息生成的方法另一个可选实施例中，发送方客户端获取待合成图像集合，包括：

发送方客户端接收图像选取指令，其中，图像选取指令携带待合成图像集合所对应的图像标识；

发送方客户端响应于图像选取指令，从媒体数据集合中获取待合成图像集合。

本实施例中，发送方客户端可以接收用户针对媒体数据集合输入的图像选取指令，由于图像选取指令中携带有待合成图像集合中每张待合成图像的图像标识，则发送方客户端可以响应所述图像选取指令，从媒体数据集合中获取待合成图像集合，其中媒体数据集合中包括多个待选取图像，每个待选取图像可以表现为静止的图像，也可以表现为由多帧图像组成的动图。

在一种实现方式中，可以通过发送方客户端与接收方客户端的会话界面进入媒体数据集合的展示界面，以接收用户输入的图像选取指令，具体的，可以通过发送方客户端与接收方客户端的会话界面接收用户输入的图像输入指令，所述图像输入指令用于打开媒体数据集合展示界面(例如图库展示界面)，从而用户可以对媒体数据集合展示界面中展示的多个待选取图像的缩略图，则用户可以对多个待选取图像的缩略图中的一个或多个待选取图像的缩略图执行图像选取操作，从而发送方客户端可以接收到用户输入的图像选取指令，根据用户选取的一个或多个图像确定待合成图像集合。更具体的，用户输入图像选取指令的方式可以为对多个待选取图像中的一个或多个图像执行点击操作，也可以为在多个待选取图像中的一个或多个图像终端中的一个或多个图像上输入类似打对勾、画圆圈等图像选取手势等等，具体用户输入图像选取指令的方式，此处不做限定。

为进一步理解本方案，请参阅图3，图3为本申请实施例提供的待合成图像集合的一种获取流程示意图，图3包括(a)、(b)和(c)三个子示意图，其中图3的(a)子示意图展示的为发送方客户端和大黄(也即接收方客户端)的会话界面，其中，A1为文本输入框，用户可以通过A1输入想要发送给接收方客户端的文本信息；A2为语音信息输入按钮，用户可以通过点击A2触发发送方客户端的语音信息接收功能；用户可以通过点击A3打开A4中的图标展示界面，A4中的图标用于触发发送方客户端的其他功能，例如图3的(a)子示意图中的图像输入功能、图像拍摄功能、视频通话功能、位置信息输入功能等，其中，A5用于接收用户输入的图像输入指令，当用户对A5执行点击操作时，可以进入图3的(b)子示意图；图3的(b)子示意图示出的为图库中的多张待选取图像的展示界面(也即媒体数据集合展示界面)，其中，用户可以通过点击A6的方式输入图像选取指令，在用户执行完图像选取操作之后，可以通过点击A7进入图3的(c)子示意图；图3的(c)子示意图示出的为待合成图像集合的展示界面，图3的(c)子示意图中展示的待合成图像为动图，从而发送客户端可以通过图3的(c)子示意图接收用户输入的语音输入指令，应当理解，图3中的示例仅为方便理解本方案，不用于限定本方案。

在另一种实现方式中，也可以通过媒体数据集合的展示界面接收用户输入的图像选取指令之后，进入发送方客户端与接收方客户端的会话界面，具体的，作为示例，例如用户可以通过图库(也即媒体数据集合)中的待选取图像展示界面输入图像选取指令，所述图像选取指令用于确定一张或多张待合成图像，并在执行完待合成图像选取操作之后输入通过发送方客户端分享图像的指令，进而发送方客户端可以打开待合成图像集合展示界面，以接收用户输入的语音输入指令等。应当理解，发送方客户端还可以通过其他方式接收图像选取指令，具体方式可以根据实际产品确定，此处不做限定。

本申请实施例中，发送方客户端可以接收图像选取指令，并根据图像选取指令中携带的待合成图像集合所对应的图像标识，从媒体数据集合中选取待合成图像。通过上述方式，发送方客户端可以从已存储的媒体数据集合中选取待合成图像集合，进而执行待合成图像与语音信息的合成操作，提供了本方案的一种具体实现方式，提高了本方案的可实现性，进一步的，发送客户端可以通过与接收客户端的会话界面接收图像选取指令，也即用户可以在与好友聊天过程中，从图库中选取一张待合成图像进行语音合成，从而提高了语音与图片结合功能的便捷性，提高了客户端的用户粘度。

可选地，在上述图2对应的多个实施例的基础上，本申请实施例提供的信息生成的方法另一个可选实施例中，发送方客户端获取待合成图像集合，包括：

发送方客户端接收图像拍摄指令；

发送方客户端响应于图像拍摄指令，启动摄像模块；

发送方客户端通过摄像模块获取待合成图像集合。

本实施例中，发送方客户端可以接收用户输入的图像拍摄指令，并基于图像拍摄指令，启动摄像模块，以通过摄像模块获取待合成图像集合。一般情况下，本实施例中的待合成图像集合包括一张待合成图像，所述一张待合成图像可以为静止的图像或动图。

在一种实现方式中，可以通过发送方客户端与接收方客户端的会话界面接收图像拍摄指令，在通过摄像模块采集获得待合成图像之后，可以展示采集到的待合成图像，以接收用户输入的语音输入指令。为进一步理解本方案，请参阅图4，图4为本申请实施例提供的待合成图像集合的另一种获取流程示意图，图4包括(a)、(b)和(c)三个子示意图，其中图4的(a)子示意图和图3的(a)子示意图类似，可以结合图3对应的实施例中的描述进行理解，其中，B1用于接收图像拍摄指令，当用户点击B1，进入图4的(b)子示意图，也即发送方客户端启动摄像模块后的界面；其中B2用于接收图像采集指令，当用户点击B2时，发送客户端获取到静止图像形式的待合成图像，当用户按压B2一段时间，发送客户端可以获取到动图形式的待合成图像，在完成图像采集操作之后，可以进入图4的(c)子示意图，图4的(c)子示意图以采集的为静止的图像为例，则发送客户端可以通过图4的(c)子示意图接收语音输入指令，应当理解，图4中的示例仅为方便理解本方案，不用于限定本方案。

在另一种实现方式中，也可以通过摄像模块接收用户输入的图像拍摄指令，并响应于图像拍摄指令启动摄像模块，在通过摄像模块获取到待合成图像集合之后，进入发送方客户端与接收方客户端的会话界面，具体的，作为示例，例如用户可以通过点击摄像模块对应的图标输入图像拍摄指令，以启动摄像模块拍摄一个待合成图像，并在执行完待合成图像拍摄操作之后输入通过发送方客户端分享图像的指令，进而发送方客户端可以展示所述一个待合成图像，以接收用户输入的语音输入指令等。应当理解，具体图像拍摄指令的接收方式可以根据实际产品确定，此处也不做限定。

本申请实施例中，发送方客户端可以接收图像拍摄指令，并根据图像拍摄指令拍摄待合成图像。通过上述方式，发送方客户端可以实时获取待合成图像集合，进而执行待合成图像与语音信息的合成操作，也即用户可以随时生成一张携带有语音信息的图像发送给接收方客户端，不仅扩展了本方案的应用场景，而且提高了语音与图片结合功能的灵活性。

可选地，在上述图2对应的多个实施例的基础上，本申请实施例提供的信息生成的方法另一个可选实施例中，发送方客户端根据待合成图像集合接收语音输入指令，包括：

发送方客户端接收悬浮控制手势，其中，悬浮控制手势与终端设备的屏幕之间的距离大于预设距离，悬浮控制手势与待合成图像集合具有对应关系；

发送方客户端响应于语音输入指令，获取待合成语音信息，包括：

发送方客户端响应于悬浮控制手势，判断悬浮控制手势与预设悬浮控制手势是否匹配；

若悬浮控制手势与预设悬浮控制手势匹配成功，则发送方客户端通过语音输入模块获取待合成语音信息。

本实施例中，发送方客户端可以存储有一个或多个预设悬浮控制手势，则发送方客户端可以在待合成图像展示界面上，通过摄像模块监测用户输入的悬浮控制手势，其中，悬浮控制手势指的是与终端设备的屏幕之间的距离大于预设距离的控制手势，预设距离可以为2厘米、3厘米或4厘米等等，预设悬浮控制手势的个数可以为1个、2个或3个等等，为方便理解本方案，请参阅图5，图5为本申请实施例提供的多种预设悬浮控制手势的示意图，其中，C1对应的预设悬浮控制手势的操作轨迹为V字型；C2对应的预设悬浮控制手势的操作轨迹为向左上方滑动；C3对应的预设悬浮控制手势的操作轨迹为向右下方滑动；C4对应的预设悬浮控制手势的操作轨迹为圆圈型；C5对应的预设悬浮控制手势的操作轨迹为向外旋转操作等等，具体预设距离的长度和悬浮控制手势的个数以及操作轨迹，此处均不做限定。

发送方客户端可以响应于用户输入的悬浮控制手势，判断用户输入的悬浮控制手势与存储的一个或多个预设悬浮控制手势是否匹配，若用户输入的悬浮控制手势与一个或多个预设悬浮控制手势中的任一悬浮控制手势匹配成功，则发送方客户端可以通过语音输入模块获取待合成语音信息。其中，语音输入模块可以具体表现为麦克风等拾音元器件。具体的，发送方客户端可以展示与语音输入模块对应的图标，则用户通过按压所述图标启动语音输入模块，以输入音频数据，从而发送方客户端获取到待合成语音信息；也可以为在手势匹配成功之后，发送方客户端直接开启语音输入模块，以接收音频数据，并从接收到的音频数据中确定待合成语音信息等，具体此处不做限定。

若用户输入的悬浮控制手势与一个或多个预设悬浮控制手势匹配失败，在一种实现方式中，发送客户端可以输出提示信息，以提醒用户重新输入悬浮控制手势，作为示例，例如提示信息可以为“手势错误，请重新输入控制手势”；在另一种实现方式中，发送客户端也可以视为用户不想进入待合成语音信息输入界面，从而不再监测用户是否输入悬浮控制手势等。

为进一步理解本方案，请参阅图6，图6为本申请实施例提供的待合成语音信息的一种获取流程示意图，图6包括(a)和(b)两个子示意图，图6的(a)子示意图示出的为悬浮控制手势接收界面，D1代表用户输入的悬浮控制手势的操作轨迹为V字型，以预设悬浮控制手势中存在V字型悬浮控制手势为例，则用户输入的悬浮控制手势与预设悬浮控制手势匹配成功，进入图6的(b)子示意图；图6的(b)子示意图示出的为发送方客户端通过语音输入模块接收用户输入的语音界面，D2代表语音输入模块处于开启状态，以提示用户输入待合成语音，应当理解，图6中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，发送方客户端可以接收用户输入的悬浮控制手势，并在用户输入的悬浮控制手势与预设悬浮控制手势匹配成功的情况下，通过语音输入模块获取待合成语音信息。通过上述方式，用户可以通过输入悬浮控制手势的方式输入语音输入指令，不仅增加了语音输入指令过程的趣味性，且用户无需直接触控屏幕就可以输入语音输入指令，则即使终端设备外侧设置有放水套，用户也可以输入语音输入指令，极大的扩展了本方案的应用场景，提高了客户端的用户粘度。

发送方客户端接收操作控制手势，其中，操作控制手势与待合成图像集合具有对应关系，操作控制手势作用于终端设备的屏幕，操作控制手势包括长按手势、单击手势、双击手势以及轨迹手势中的至少一种；

发送方客户端响应于操作控制手势，判断操作控制手势与预设操作控制手势是否匹配；

发送方客户端若操作控制手势与预设操作控制手势匹配成功，则通过语音输入模块获取待合成语音信息。

本实施例中，发送方客户端可以存储有一个或多个预设操作控制手势，则发送方客户端可以在待合成图像展示界面上，接收用户输入的操作控制手势，其中，预设操作控制手势的个数可以为1个、2个或3个等等，预设操作控制手势可以具体表现为长按手势、点击手势、双击手势以及轨迹手势等等，具体的，轨迹手势的操作轨迹可以具体表现为V字型、向左上方滑动、向右下方滑动、圆圈型、向外旋转操作等等，具体可以参阅图5，轨迹手势的操作轨迹还可以具体表现为向左下方滑动、向右上方滑动、向内旋转操作等等，具体预设操作控制手势的个数以及操作轨迹均可以结合实际产品情况确定，此处举例仅为方便理解本方案，不用于限定本方案。

发送方客户端在接收到用户输入的操作控制手势之后，可以响应于操作控制手势，判断用户输入的操作控制手势与预设操作控制手势是否匹配，并在用户输入的操作控制手势与预设操作控制手势匹配成功的情况下，发送方客户端可以通过语音输入模块获取待合成语音信息。

为进一步理解本方案，请参阅图7，图7为本申请实施例提供的待合成语音信息的另一种获取流程示意图，图7包括(a)和(b)两个子示意图，图7的(a)子示意图示出的为操作控制手势接收界面，E1代表用户输入的操作控制手势的操作轨迹为圆圈型，以预设操作控制手势中存在圆圈型操作控制手势为例，则用户输入的操作控制手势与预设操作控制手势匹配成功，进入图7的(b)子示意图，图7的(b)子示意图与图6的(b)子示意图类似，可参考上述图6对应的实施例中的描述，此处不再赘述，应当理解，图7中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，发送方客户端可以接收用户输入的操作控制手势，并在用户输入的操作控制手势与预设操作控制手势匹配成功的情况下，通过语音输入模块获取待合成语音信息。用户可以通过输入操作控制手势的方式输入语音输入指令，操作便捷，且本实施例中提供了多种类型的操作控制手势，提高了本方案的可实现性。

发送方客户端通过待合成图像集合接收第一操作指令；

发送方客户端响应于第一操作指令，展示语音添加模块；

发送方客户端通过语音添加模块接收第二操作指令；

发送方客户端响应于语音输入指令，获取待合成语音信息，可以包括：

发送方客户端响应于第二操作指令，通过语音输入模块获取待合成语音信息。

本实施例中，发送方客户端可以通过待合成图像集合接收用户输入的第一操作指令，发送方客户端可以文本框或图标的形式展示语音添加模块，并通过语音添加模块接收第二操作指令，继而响应于第二操作指令，通过语音输入模块获取待合成语音信息。其中，第一操作指令包括但不限于对待合成图像的长按操作指令、双击操作指令等；第二操作指令可以为对语音添加模块的选择操作指令，具体可以表现为对语音添加模块的点击操作、双击操作等等，具体此处不做限定。

在一种实现方式中，发送方客户端可以通过与第三方客户端的会话界面接收第一操作指令，具体的，发送方客户端在与第三方客户端的会话界面上可以接收并展示第三方客户端发送的至少一个图像，所述至少一个图像中包括待合成图像集合，则用户可以对待合成图像输入第一操作指令，具体的，第一操作指令可以表现为图像处理指令，从而发送客户端响应于图像处理指令，展示语音添加模块，其中，用户输入图像处理指令的方式可以为对待合成图像执行的长按操作、点击操作、双击操作或其它操作等，用于从发送客户端展示的至少一个图像中确定待合成图像；语音添加模块用于获取待合成语音信息。具体的，用户可以通过语音添加模块输入第二操作指令，发送客户端响应于第二操作指令，通过语音输入模块获取待合成语音信息，在对待合成图像和待合成语音信息执行合成操作以得到目标图像信息之后，可以接收用户输入的转发给接收方客户端的指令，可选的，也可以为将目标图像信息保存在本地。为进一步理解本方案，请参阅图8，图8为本申请实施例提供的待合成语音信息的又一种获取流程示意图，图8包括(a)、和(b)两个子示意图，其中，图8的(a)子示意图示出的为发送方客户端与第三方客户端的会话界面，F1为发送方客户端接收的第三方客户端发送的图像，当用户对F1执行长按操作(也即第一操作指令)会出现F2，F2代表语音添加模块，当用户对F2执行点击操作(也即第二操作指令)，则发送方客户端将F1确定为待合成图像，并进入图8的(b)子示意图，图8的(b)子示意图示出的为通过语音输入模块获取待合成语音信息的界面，其中D2表示语音输入模块处于开启状态，发送方客户端在获取完待合成语音信息，并执行待合成语音信息与待合成图像的合成操作，应当理解，图8中的示例仅为方便理解本方案，不用于限定本方案。

在另一种实现方式中，发送方客户端可以在通过与接收方客户端的会话界面进入媒体数据集合的展示界面，以接收用户输入的图像选取指令之后，在展示待合成图像集合中的任一个待合成图像时，可以接收用户输入的第一操作指令，并响应于第一操作指令，展示语音添加模块，通过语音添加模块接收第二操作指令，响应于第二操作指令，通过语音输入模块获取待合成语音信息；在另一种实现方式中，发送方客户端还可以在通过与接收方客户端的会话界面进入摄像模块，以通过摄像模块获取待合成图像之后，在展示待合成图像时，可以接收用户输入的第一操作指令等等，具体此处不做限定。

本申请实施例中，发送方客户端可以通过待合成图像集合接收用户输入的第一操作指令，进而展示语音添加模块，并通过语音添加模块接收第二操作指令，响应于第二操作指令，通过语音输入模块获取待合成语音信息。本实施例中又提供了一种语音输入指令的接收方式，从而进一步的丰富了本方案的实现场景，提高了本方案的可实现性；进一步的，发送方客户端可以通过与第三方客户端的会话界面实现语音与图片的合并，并转发给接收发方客户端，进一步提高了用户之间的沟通效率。

可选地，在上述图2对应的多个实施例的基础上，本申请实施例提供的信息生成的方法另一个可选实施例中，发送方客户端通过语音输入模块获取待合成语音信息，包括：

发送方客户端通过语音输入模块接收音频数据；

发送方客户端采用语音边界检测VAD从音频数据中检测出有效语音起始点以及有效语音结束点，其中，有效语音起始点对应第一时刻，有效语音结束点对应第二时刻；

发送方客户端根据有效语音起始点以及有效语音结束点，从音频数据中确定待合成语音信息，其中，待合成语音信息的起始时刻为第一时刻，待合成语音信息的结束时刻为第二时刻。

本实施例中，发送方客户端在接收到语音输入指令之后，可以展示语音输入模块对应的图标，以接收用户输入的语音输入模块开启指令；也可以为发送方客户端在接收到语音输入指令之后，自动开启语音输入模块。进而发送方客户端可以通过语音输入模块接收音频数据，并采用语音边界检测(voice activity detection，VAD)技术从接收到的音频数据中检测出有效语音起始点以及有效语音结束点，其中，VAD技术指的是从连续的音频数据中检测出有效音频数据的技术，有效音频数据指的是有效语音起始点至有效语音结束点之间的音频数据，有效语音起始点对应音频数据的第一时刻，有效语音结束点对应音频数据的第二时刻。在确定了有效语音起始点以及有效语音结束点之后，发送方客户端可以将音频数据中从第一时刻至第二时刻的音频数据确定为待合成语音信息，其中，待合成语音信息的起始时刻为第一时刻，待合成语音信息的结束时刻为第二时刻。

具体的，发送方客户端可以获取与音频数据中每帧音频数据的能量值，并音频数据的起始点开始判断每帧音频数据的能量值是否大于预设能量值，并在能量值大于预设能量值时，获取能量值大于预设能量值的时刻，将其确定为第一时刻；进而可以从音频数据的终止点开始判断每帧音频数据的能量值是否小于预设能量值，并在能量值小于预设能量值时，获取能量值小于预设能量值的时刻，将其确定为第二时刻。

为进一步理解本方案，请参阅图9，图9为本申请实施例中信息生成方法的另一实施例示意图，方法可以包括：G1、发送方客户端通过发送方客户端与接收方客户端之间的会话界面打开图库展示界面；G2、发送方客户端通过图库展示界面选取待合成图像集合；G3、发送方客户端接收用户输入的悬浮控制手势，在悬浮控制手势与预设悬浮控制手势匹配成功的情况下，通过语音输入模块接收用户输入的音频数据；G4、发送方客户端采用VAD技术从用户输入的音频数据中确定待合成语音信息；G5、发送方客户端将待合成图像集合与待合成语音信息进行合成，得到目标图像信息；G6、发送方客户端将目标图像信息保存至本地或将目标图像信息发送给接收方客户端，应当理解，图9中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，发送方客户端在通过语音输入模块接收音频数据之后，采用VAD技术从音频数据中检测出有效语音起始点以及有效语音结束点，也即从接收到的音频数据中确定有效语音段，并根据有效语音段确定待合成语音。通过上述方式，可以自动对接收到的音频数据进行剪辑，从而待合成语音信息中仅保留音频数据中的有效数据，提高了目标图像信息中有效信息的比例，进一步提高信息传达的准确性。

可选地，在上述图2对应的多个实施例的基础上，本申请实施例提供的信息生成的方法另一个可选实施例中，发送方客户端根据待合成图像集合以及待合成语音生成目标图像信息之后，方法还包括：

发送方客户端接收信息传输指令，其中，信息传输指令中携带接收方标识；

发送方客户端响应于信息传输指令，向服务器发送目标图像信息，以使服务器向接收方客户端发送目标图像信息，以使接收方客户端根据目标图像信息，在展示待合成图像集合时播放待合成语音信息，接收方客户端对应于接收方标识。

本申请实施例中，发送方客户端在生成目标图像信息之后，还可以接收用户输入的信息传输指令，并响应于信息传输指令，向服务器发送目标图像信息，由于信息传输指令中携带接收方标识，则发送方客户端向服务器发送目标图像信息时可以携带有接收方标识，从而服务器在接收到目标图像信息后，可以确定与接收方标识对应的接收方客户端，并向接收方客户端发送目标图像信息，以使接收方客户端根据目标图像信息，在展示待合成图像集合时播放待合成语音信息。具体的，在一种情况下，发送客户端是通过与接收方客户端之间的会话界面生成目标图像信息，则当用户输入信息传输指令时，信息传输指令中携带有与接收方客户端对应的接收方标识；在另一种情况下，发送客户端是通过与第三方客户端之间的会话界面生成目标图像信息，则当用户输入信息传输指令时，需要用户输入对接收方客户端的选择操作，从而可以获得与接收方客户端对应的接收方标识等，此处不再对其他接收信息传输指令的方式一一进行列举。

本申请实施例中，发送方客户端在生成目标图像信息之后，接收携带有接收方标识的信息传输指令，并响应于信息传输指令向服务器发送目标图像信息，从而服务器将目标图像信息转发给接收方客户端，以使接收方客户端在展示待合成图像集合时播放待合成语音信息。通过上述方式，提供了发送方客户端将目标图像信息发送给接收方客户端的具体实现方案，提高了本方案的完整性和可实现性。

在上述图2至图9所对应的各个实施例的基础上，本申请实施例还提供了另一种信息生成的方法，请参阅图10，本申请实施例中信息生成的方法另一个实施例可以包括：

201、发送客户端接收语音输入指令；

本实施例中，发送客户端可以展示有与语音输入指令对应的图标，当用户对图标执行选择操作时，发送客户端接收用户输入的语音输入指令，其中，选择操作可以为点击操作、双击操作等等。具体的，发送客户端可以通过与接收方客户端的会话界面接收语音输入指令。

202、发送客户端响应于语音输入指令，获取待合成语音信息；

本实施例中，发送客户端在接收到语音输入指令之后，可以通过麦克风等拾音软件接收用户输入的音频数据，进而可以将接收到的所有音频数据视为待合成语音信息，也可以采用VAD技术从接收到的音频数据中确定待合成语音信息。

203、发送客户端根据待合成语音信息接收图像输入指令；

本实施例中，发送客户端在获取到待合成语音信息之后，可以向用户输入是否添加图像的提示信息，以接收用户输入的图像输入指令，其中，提示信息可以为文本形式，也可以为语音形式等，作为示例，例如发送客户端在获取到待合成语音信息之后，可以弹出一个包含提示信息和选择信息的文本框，提示信息的内容为“请问是否在语音信息上添加图像”，选择信息中包含“确定和取消”，当用户对与“确定”对应的按钮执行点击操作时，视为输入图像输入指令；作为另一示例，例如发送客户端在获取到待合成语音信息之后，可以输出“请问是否在语音信息上添加图像”的语音提示信息，若用户回复“添加”、“是”等肯定性答复语音时，视为输入图像输入指令等，应当理解，此处举例仅为方便理解本方案，不用于限定本方案。

204、发送客户端响应于图像输入指令，获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

本实施例中，发送客户端在获取到图像输入指令之后，可以获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像，待合成图像集合中的每个待合成图像可以表现为静止的图像，也可以表现为由多帧图像组成的动图。具体的，发送客户端在获取到图像输入指令之后，可以直接进入媒体数据集合展示界面，以接收用户的图像选取指令，从而发送客户端可以获取待合成图像集合；发送客户端在获取到图像输入指令之后，也可以开启摄像模块，从而通过摄像模块获取待合成图像集合；发送客户端在获取到图像输入指令之后，还可以为分别展示与摄像模块和媒体数据集合对应的两个图标，从而用户可以对所述两个图标中的一个图标执行选择操作，发送客户端根据用户的选择操作确定进入媒体数据集合展示界面还是开启摄像模块，进而获取待合成图像集合。

205、发送客户端根据待合成语音信息以及待合成图像集合生成目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合。

本实施例中，发送客户端可以将一条待合成语音信息与待合成图像集合中的至少一张待合成图像合成，得到携带有图像信息的目标语音信息，进而发送客户端可以将目标语音信息保存在本地，或者将目标语音信息发送给服务器，或者将目标语音信息通过服务器发送给接收方客户端。

206、发送客户端发送目标语音信息。

本实施例中，发送客户端在生成目标语音信息之后，可以向服务器发送目标语音信息，以使服务器将目标语音信息转发给接收客户端；也可以向服务器发送目标语音信息，从而使服务器根据目标语音信息进行搜索，以向发送客户端发送与目标语音信息对应的搜索结果等，具体此处不做限定。

可选的，发送客户端响应于语音输入指令，获取待合成语音信息，可以包括：

发送客户端响应于语音输入指令，从预设语音信息集合中获取待合成语音信息，其中，语音输入指令中携带关键词信息，待合成语音信息携带关键词信息，预设语音信息集合包括至少一个语音信息。

本实施例中，发送客户端可以接收用户输入的语音输入指令，其中，语音输入指令中携带可以关键词信息，发送客户端上还可以存储有预设语音信息集合，语音信息集合中包括至少一个语音信息，语音信息集合中的每个语音信息也携带有关键词信息，则发送客户端在获取到语音输入指令中的关键词信息之后，可以与预设语音信息集合中每个语音信息的关键词信息进行匹配，进而可以直接将匹配成功的目标语音信息确定为待合成语音信息；也可以展示匹配成功的至少一个语音信息，以供用户从展示的至少一个语音信息中获取目标语音信息。作为示例，例如用户输入的语音输入指令中携带关键词信息“婚纱”，预设语音信息集合中携带关键词信息“婚纱”的语音信息有三个，分别为“这件婚纱漂亮吗”、“什么时候去试婚纱”以及“这件婚纱多少钱”，则可以向用户展示前述三个语音信息，以供用户从三个语音信息中选取待合成语音信息。

本申请实施例中，用户在输入语音信息时可以只输入关键词信息，发送客户端根据关键词信息从预设语音信息集合中获取待合成语音信息，则需要用户输入的语音信息的数量减少，从而需要发送客户端进行语音识别的语音信息也减少，既有利于提高语音识别过程的精准度，又有利于减少语音识别过程的工作量。

可选的，发送客户端响应于图像输入指令，获取待合成图像集合，包括：

发送客户端响应于图像输入指令，从本地获取待合成图像集合；

或，

发送客户端响应于图像输入指令，从服务器获取待合成图像集合。

本实施例中，发送客户端在接受到图像输入指令之后，可以从本地的图库中获取待合成图像集合，也可以从远端服务器处获取待合成图像集合，具体的，可以为发送客户端从本地的图库中选取并展示与待合成语音匹配的至少一个图像，以接收用户对所述至少一个图像中的待合成图像输入的图像选取指令，从而发送客户端根据根据用户输入的图像选取指令确定待合成图像集合；也可以为发送客户端从服务器处获取并展示与待合成语音匹配的至少一个图像，以接收用户对所述至少一个图像中的待合成图像输入的图像选取指令，从而发送客户端根据根据用户输入的图像选取指令确定待合成图像集合等，具体此处不做限定。

本申请实施例中，发送客户端不仅可以从本地获取待合成图像集合，还可以从服务器获取待合成图像集合，丰富了待合成图像集合的获取渠道，提高了本方案的全面性。

可选的，发送客户端根据待合成语音信息接收图像输入指令，包括：

发送客户端根据待合成语音信息展示图像选择列表；

发送客户端通过图像选择列表接收图像输入指令；

发送客户端响应于图像输入指令，获取待合成图像集合，包括：

发送客户端响应于图像输入指令，从图像选择列表中获取待合成图像集合。

本实施例中，发送客户端可以根据从图库或服务器中获取的每个图像的内容为每个图像生成关键词信息，并在获取到待合成语音信息之后，从待合成语音信息中提取关键词信息，利用待合成语音信息的关键词信息与图库中的每个图像的关键词信息进行匹配，从而从图库的至少一个图像中确定图像选择列表，并展示所述图像选择列表，所述图像选择列表包括至少一个图像，所述图像选择列表中的每个图像与所述待合成语音信息之间均存在对应关系；则发送客户端可通过图像选择列表接收用户输入的图像输入指令，具体的，用户输入可以通过对待选取图像执行点击操作、双击操作、手势操作、长按操作、悬浮控制操作等以输入图像输入指令，从而发送客户端响应于图像输入指令，从图像选择列表中获取待合成图像集合。作为示例，例如待合成语音信息为“今天天空好蓝啊”，则提取出来的关键词信息可以为“今天”、“天空”和“蓝”，从而发送客户端可以从图库中获取每个图像的关键词信息，将关键词信息中包括拍摄时间为今天、拍摄目标为天空、天空的颜色为蓝色的至少一个图像(例如5个图像)确定为图像选择列表中包括的至少一个图像，并向用户展示图像选择列表中的5个图像，以接收用户对所述5个图像输入的图像输入指令，进而从所述5个图像中确定待合成图像集合。

本申请实施例中，在用户输入待合成语音信息之后，发送客户端可以根据待合成语音自动匹配图像选择列表，从而用户可以从用户选择列表中选取待合成图像集合，实现了待合成图像集合的精准推送，提高了待合成图像集合选取过程中的效率，有利于提高用户粘度。

为进一步理解本方案，请参阅图11，图11为本申请实施例中信息生成方法的另一实施例示意图，图11包括(a)、(b)和(c)三个子示意图，其中，图11的(a)子示意图示出的为语音输入指令接收界面，其中，H1用于接收语音输入指令，当用户点击H1时发送客户端获取待合成语音信息，在待合成语音信息获取完成之后进入图11的(b)子示意图；图11的(b)子示意图示出的为图像输入指令接收界面，在图11的示例中，发送方客户端通过文本框的形式输出提示信息，图11的(b)子示意图中提示信息的内容为“请问是否添加图像”，并分别设置有“确定”和“取消”两种选择所对应的两个按钮，当用户对H2执行点击操作时，进入图11的(c)子示意图；图11的(c)子示意图示出的为媒体数据集合展示界面(也即待合成图像集合获取界面)，从而用户可以通过图11的(c)子示意图执行对至少一个待合成图像的选择操作，则发送客户端可以获取待合成图像集合，进而执行待合成语音信息与待合成图像集合的合成操作，应当理解，图11中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，发送客户端接收语音输入指令之后，可以获取待合成语音信息，根据待合成语音信息接收图像输入指令，并响应于图像输入指令，获取包括至少一个待合成图像的待合成图像集合，根据待合成语音信息以及待合成图像集合生成目标语音信息。通过上述方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

在上述图2至图11所对应的各个实施例的基础上，本申请实施例还提供了一种信息展示的方法，请参阅图12，本申请实施例中信息展示的方法一个实施例可以包括：

301、接收方客户端接收发送方客户端发送的目标图像信息，待合成图像集合包括至少一个待合成图像；

本实施例中，接收方客户端可以接收发送方客户端发送的目标图像信息，目标图像信息包括待合成图像集合以及待合成语音信息，其中，待合成图像集合中的每个待合成图像可以表现为静止的图像，也可以表现为由多帧图像组成的动图。具体的，由于待合成图像集合包括至少一个待合成图像，在待合成图像集合中包括一个待合成图像的情况下，目标图像信息可以表现为一个合成有语音信息的图像；在待合成图像集合中包括至少两个待合成图像的情况下，在一种实现方式中，目标图像信息可以表现为一个合成有语音信息的图像和至少一个未合成语音信息的图像，作为示例，例如待合成图像集合中包括一张云朵的图像和一张大海的图像，目标图像信息可以表现为一张携带有语音的云朵图像和一张未携带语音的大海图像，云朵图像中携带的为“今天天气真好啊”的语音信息；在另一种实现方式中，则目标图像信息可以表现为两个合成有相同语音信息的图像，作为示例，例如待合成图像集合中包括两个小狗的图像，则目标图像信息可以表现为两个携带有语音的小狗的图像，每个小狗图像中均携带有“小狗跑的好快啊”的语音信息等，具体此处不做限定。

接收方客户端接收到目标图像信息之后，可以展示与目标图像信息对应的缩略图。其中，合成有语音信息的图像的缩略图与未合成语音信息的图像的缩略图可以不同，具体的，合成有语音信息的图像可以具体表现为在待合成图像的缩略图的基础上添加有与语音信息相关联的图标，更具体的，所述图标可以设置于待合成图像的左上角、右上角、左下角、右下角、中间位置等位置，所述图标的形状可以为类似声波形、心形、五角形、三角形等等，具体图标的形状以及图标在待合成图像的缩略图上的位置均可以结合实际产品形态确定，此处不进行限定。具体的，当待合成图像集合包括至少两个待合成图像时，接收方客户端可以分别展示与至少两个待合成图像对应的至少两个缩略图。

302、接收方客户端接收信息展示指令；

本实施例中，接收方客户端可以通过目标图像信息对应的缩略图接收信息展示指令，具体的，可以为用户通过对目标图像信息的缩略图执行点击操作以输入信息展示指令；也可以为用户通过对目标图像信息的缩略图执行双击操作以输入信息展示指令；也可以为用户通过语音的形式输入“打开目标图像信息”以输入信息展示指令等，具体信息展示指令的输入方式，此处不做限定。

更具体的，当待合成图像集合包括至少两个待合成图像时，由于接收方客户端分别展示了与至少两个待合成图像对应的至少两个缩略图，则接收方客户端接收信息展示指令中可以携带有与待合成图像对应的图像标识，接收方客户端可以根据所述图像标识从待合成图像集合中确定待展示的目标待合成图像。

303、接收方客户端响应于信息展示指令，在展示待合成图像集合时，播放待合成语音信息。

本实施例中，接收方客户端在接收到信息展示指令之后，可以解析携带有语音信息的待合成图像，从而分别获得待合成图像和待合成语音信息，进而在展示待合成图像时，播放待合成语音信息。具体的，在通过步骤203确定的目标待合成图像为合成有语音信息的图像的情况下，接收方客户端执行解析操作，以在展示待合成图像集合时，播放待合成语音信息；在通过步骤203确定的目标待合成图像为未合成有语音信息的图像的情况下，接收方客户端只展示待合成图像时，不播放待合成语音信息。

为进一步理解本方案，请参阅图13，图13为本申请实施例中信息展示方法的一实施例示意图，图13包括(a)和(b)两个子示意图，其中图13的(a)子示意图示出的为接收方客户端接收到目标图像信息之后，展示与待合成图像集合对应的至少一个缩略图的示意图，图13的(a)子示意图中展示了接收方客户端展示的与两个待合成图像对应的两个缩略图，I1为合成有语音信息的待合成图像，当用户对I1执行点击操作时，进入图13的(b)子示意图；图13的(b)子示意图示出的为接收方客户端展示待合成图像中的一个待合成图像，并播放待合成语音信息的示意图，I2代表语音信息正处于播放状态，播放的语音消息可以为“魔法少女变变变”，应当理解，图13中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，接收方客户端接收发送方客户端发送的目标图像信息之后，可以接收对目标图像信息的信息展示指令，从而在展示待合成图像集合时，播放待合成语音信息。通过上述方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

在上述图2至图13所对应的各个实施例的基础上，本申请实施例还提供了另一种信息展示的方法，请参阅图14，本申请实施例中信息展示的方法另一个实施例可以包括：

401、接收方客户端接收发送方客户端发送的目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合，待合成图像集合包括至少一个待合成图像；

本实施例中，接收方客户端接收发送方客户端发送的目标语音信息之后，可以展示与目标语音信息对应的图标，以提醒用户接收到了目标语音信息，其中，待合成图像集合中的每个待合成图像可以表现为静止的图像，也可以表现为由多帧图像组成的动图。具体的，由于目标语音信息中合成有待合成图像集合，则目标语音信息的图标可以与未合成待合成图像集合的语音信息的图标的具体表现形式不同，作为示例，例如目标语音信息的图标中可以叠加心形、云朵形、五角形、三角形或其他形状的图标等，具体此处不做限定。

402、接收方客户端接收信息展示指令；

本实施例中，接收方客户端可以通过与目标语音信息对应的图标接收信息展示指令，具体的，可以为用户通过对目标语音信息的图标执行点击操作以输入信息展示指令；也可以为用户通过对目标语音信息的图标执行双击操作以输入信息展示指令；也可以为用户通过语音的形式输入“播放目标语音信息”以输入信息展示指令等，具体信息展示指令的输入方式，此处不做限定。

403、接收方客户端响应于信息展示指令，在播放待合成语音信息时，展示待合成图像集合。

本实施例中，接收方客户端在接收到信息展示指令之后，可以解析目标语音信息，以得到待合成语音信息和待合成图像集合，从而在播放待合成语音信息时，展示待合成图像集合。具体的，在待合成图像集合中包括一张待合成图像的情况下，则在播放待合成语音信息时，展示所述一张待合成图像；在待合成图像集合中包括至少两张待合成图像的情况下，则在播放待合成语音信息时，播放所述至少两张待合成图像，至少两张待合成图像的播放顺序可以为随机播放，也可以为先接收到的待合成图像先播放等，具体此处不做限定。

为进一步理解本方案，请参阅图15，图15为本申请实施例中信息展示方法的一实施例示意图，图15包括(a)和(b)两个子示意图，其中图15的(a)子示意图示出的为接收方客户端接收到目标语音信息之后，展示与目标语音信息对应的图标的示意图，J1用于接收用户输入的信息展示指令，当用户对J1执行点击操作时，进入图15的(b)子示意图；图15的(b)子示意图示出的为接收方客户端播放待合成语音信息时的示意图，J2代表语音信息正处于播放状态，应当理解，图15中的示例仅为方便理解本方案，不用于限定本方案。

本申请实施例中，接收方客户端接收发送方客户端发送的目标语音信息之后，可以接收针对目标语音信息的信息展示指令，从而在播放待合成语音信息时，展示待合成图像集合。通过上述方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

在上述图2至图15所对应的各个实施例的基础上，下面对本申请中的信息生成装置以及信息展示装置进行详细描述，请参阅图16，图16为本申请实施例中信息生成装置的一实施例示意图，信息生成装置50可以包括：

获取单元501，用于获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

接收单元502，用于根据获取单元501获取的待合成图像集合接收语音输入指令；

获取单元501，还用于响应接收单元502接收的语音输入指令，获取待合成语音信息；

生成单元503，用于根据获取单元501获取的待合成图像集合以及待合成语音生成目标图像信息。

本实施例中，获取单元501获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像，接收单元502根据获取单元501获取的待合成图像集合接收语音输入指令，获取单元501响应接收单元502接收的语音输入指令，获取待合成语音信息，生成单元503根据获取单元501获取的待合成图像集合以及待合成语音生成目标图像信息。

本申请实施例中，在获取单元501获取待合成图像集合之后，接收单元502可以根据待合成图像集合接收语音输入指令，其中，待合成图像集合包括至少一个待合成图像，获取单元501根据接收到的语音输入指令，获取待合成语音信息，进而生成单元503根据待合成图像集合以及待合成语音生成目标图像信息。通过上述方式，能够实现语音与图片的交互方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的信息生成装置50的另一实施例中，获取单元501具体用于：

其次，本申请实施例中，获取单元501可以接收图像选取指令，并根据图像选取指令中携带的待合成图像集合所对应的图像标识，从媒体数据集合中选取待合成图像。通过上述方式，信息生成装置50可以从已存储的媒体数据集合中选取待合成图像集合，进而执行待合成图像与语音信息的合成操作，提供了本方案的一种具体实现方式，提高了本方案的可实现性，进一步的，信息生成装置50可以通过与接收客户端的会话界面接收图像选取指令，也即用户可以在与好友聊天过程中，从图库中选取一张待合成图像进行语音合成，从而提高了语音与图片结合功能的便捷性，提高了客户端的用户粘度。

接收图像拍摄指令；

响应于图像拍摄指令，启动摄像模块；

通过摄像模块获取待合成图像集合。

其次，本申请实施例中，获取单元501可以接收图像拍摄指令，并根据图像拍摄指令拍摄待合成图像。通过上述方式，信息生成装置50可以实时获取待合成图像集合，进而执行待合成图像与语音信息的合成操作，也即用户可以随时生成一张携带有语音信息的图像发送给接收方客户端，不仅扩展了本方案的应用场景，而且提高了语音与图片结合功能的灵活性。

通过获取单元501获取的待合成图像集合接收图像处理指令；

响应于所述图像处理指令，显示语音添加模块，其中，语音添加模块用于获取待合成语音信息。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的信息生成装置50的另一实施例中，

接收单元502具体用于：接收悬浮控制手势，其中，悬浮控制手势与终端设备的屏幕之间的距离大于预设距离，悬浮控制手势与待合成图像集合具有对应关系；

获取单元501具体用于：

响应接收单元502接收的悬浮控制手势，判断悬浮控制手势与预设悬浮控制手势是否匹配；

其次，本申请实施例中，接收单元502可以接收用户输入的悬浮控制手势，获取单元501在用户输入的悬浮控制手势与预设悬浮控制手势匹配成功的情况下，通过语音输入模块获取待合成语音信息。通过上述方式，用户可以通过输入悬浮控制手势的方式输入语音输入指令，不仅增加了语音输入指令过程的趣味性，且用户无需直接触控屏幕就可以输入语音输入指令，则即使信息生成装置50所部署的终端设备外侧设置有放水套，用户也可以输入语音输入指令，极大的扩展了本方案的应用场景，提高了客户端的用户粘度。

接收单元502具体用于：接收操作控制手势，其中，操作控制手势与待合成图像集合具有对应关系，操作控制手势作用于终端设备的屏幕，操作控制手势包括长按手势、单击手势、双击手势以及轨迹手势中的至少一种；

获取单元501具体用于：

响应接收单元502接收的操作控制手势，判断操作控制手势与预设操作控制手势是否匹配；

其次，本申请实施例中，接收单元502可以接收用户输入的操作控制手势，获取单元501在用户输入的操作控制手势与预设操作控制手势匹配成功的情况下，通过语音输入模块获取待合成语音信息。用户可以通过输入操作控制手势的方式输入语音输入指令，操作便捷，且本实施例中提供了多种类型的操作控制手势，提高了本方案的可实现性。

可选地，在上述图16所对应的实施例的基础上，本申请实施例提供的信息生成装置50的另一实施例中，接收单元502具体用于：

通过待合成图像集合接收第一操作指令；

响应于第一操作指令，展示语音添加模块；

通过语音添加模块接收第二操作指令；

获取单元501具体用于：响应接收单元502接收的第二操作指令，通过语音输入模块获取待合成语音信息。

其次，本申请实施例中，接收单元502可以通过待合成图像集合接收用户输入的第一操作指令，进而展示语音添加模块，并通过语音添加模块接收第二操作指令，响应于第二操作指令，通过语音输入模块获取待合成语音信息。本实施例中又提供了一种语音输入指令的接收方式，从而进一步的丰富了本方案的实现场景，提高了本方案的可实现性；进一步的，信息生成装置50可以通过与第三方客户端的会话界面实现语音与图片的合并，并转发给接收发方客户端，进一步提高了用户之间的沟通效率。

通过语音输入模块接收音频数据；

其次，本申请实施例中，获取单元501在通过语音输入模块接收音频数据之后，采用VAD技术从音频数据中检测出有效语音起始点以及有效语音结束点，也即从接收到的音频数据中确定有效语音段，并根据有效语音段确定待合成语音。通过上述方式，可以自动对接收到的音频数据进行剪辑，从而待合成语音信息中仅保留音频数据中的有效数据，提高了目标图像信息中有效信息的比例，进一步提高信息传达的准确性。

可选地，在上述图16所对应的实施例的基础上，请参阅图17，图17为本申请实施例中信息生成装置的另一实施例示意图，在本申请实施例提供的信息生成装置50的另一实施例中，

接收单元502，还用于接收信息传输指令，其中，信息传输指令中携带接收方标识；

信息生成装置50还可以包括发送单元504，用于响应接收单元502接收的信息传输指令，向服务器发送目标图像信息，以使服务器向接收方客户端发送目标图像信息，以使接收方客户端根据目标图像信息，在展示待合成图像集合时播放待合成语音信息，接收方客户端对应于接收方标识。

其次，本申请实施例中，生成单元503在生成目标图像信息之后，接收单元502接收携带有接收方标识的信息传输指令，发送单元504响应于信息传输指令向服务器发送目标图像信息，从而服务器将目标图像信息转发给接收方客户端，以使接收方客户端在展示待合成图像集合时播放待合成语音信息。通过上述方式，提供了发送方客户端将目标图像信息发送给接收方客户端的具体实现方案，提高了本方案的完整性和可实现性。

本申请实施例还提供了另一种信息生成装置，请参阅图18，图18为本申请实施例中图像生成装置的另一实施例示意图，本申请实施例提供的图像生成装置60可以包括：

接收单元601，用于接收语音输入指令；

获取单元602，用于响应接收单元601接收的语音输入指令，获取待合成语音信息；

接收单元601，还用于根据获取单元602获取的待合成语音信息接收图像输入指令；

获取单元602，还用于响应接收单元601接收的图像输入指令，获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像；

生成单元603，用于根据获取单元602获取的待合成语音信息以及待合成图像集合生成目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合；

发送单元604，用于发送生成单元603生成的目标语音信息。

本实施例中，接收单元601接收语音输入指令之后，获取单元602响应接收单元601接收的语音输入指令，获取待合成语音信息，接收单元601根据获取单元602获取的待合成语音信息接收图像输入指令，并由获取单元602响应接收单元601接收的图像输入指令，获取待合成图像集合，其中，待合成图像集合包括至少一个待合成图像，从而生成单元603根据获取单元602获取的待合成语音信息以及待合成图像集合生成目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合，发送单元604发送生成单元603生成的目标语音信息。

本申请实施例中，接收单元601接收语音输入指令之后，可以由获取单元602获取待合成语音信息，接收单元601根据待合成语音信息接收图像输入指令，获取单元602响应于图像输入指令，获取包括至少一个待合成图像的待合成图像集合，进而生成单元603根据待合成语音信息以及待合成图像集合生成目标语音信息，并由发送单元604发送生成单元603生成的目标语音信息。通过上述方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

可选地，获取单元602具体用于：响应于接收单元601接收的语音输入指令，从预设语音信息集合中获取待合成语音信息，其中，语音输入指令中携带关键词信息，待合成语音信息携带关键词信息，预设语音信息集合包括至少一个语音信息。

可选地，获取单元602具体用于：

响应于接收单元601接收的图像输入指令，从本地获取待合成图像集合；

或，

响应于接收单元601接收的图像输入指令，从服务器获取待合成图像集合。

可选地，接收单元601具体用于：

根据获取单元602获取的待合成语音信息展示图像选择列表；

通过图像选择列表接收图像输入指令；

获取单元602具体用于：

响应于接收单元601接收的图像输入指令，从图像选择列表中获取待合成图像集合。

本申请实施例还提供了一种信息展示装置，请参阅图19，图19为本申请实施例中图像展示装置的一实施例示意图，本申请实施例提供的图像生成装置70可以包括：

接收单元701，用于接收发送方客户端发送的目标图像信息，待合成图像集合包括至少一个待合成图像；

接收单元701，还用于接收信息展示指令；

展示单元702，用于响应接收单元701接收的信息展示指令，在展示接收单元701接收的待合成图像集合时，播放接收单元701接收的待合成语音信息。

本实施例中，接收单元701接收发送方客户端发送的目标图像信息，待合成图像集合包括至少一个待合成图像，之后接收单元701接收基于目标图像信息的信息展示指令，并由展示单元702响应接收单元701接收的信息展示指令，在展示接收单元701接收的待合成图像集合时，播放接收单元701接收的待合成语音信息。

本申请实施例中，接收单元701接收发送方客户端发送的目标图像信息之后，可以接收对目标图像信息的信息展示指令，从而展示单元702展示所述待合成图像集合时，播放所述待合成语音信息。通过上述方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

本申请实施例还提供了另一种信息展示装置，请参阅图20，图20为本申请实施例中图像展示装置的另一实施例示意图，本申请实施例提供的图像生成装置80可以包括：

接收单元801，用于接收发送方客户端发送的目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合，待合成图像集合包括至少一个待合成图像；

接收单元801，还用于接收信息展示指令；

播放单元802，用于响应接收单元801接收的信息展示指令，在播放接收单元801接收的待合成语音信息时，展示接收单元801接收的待合成图像集合。

本实施例中，接收单元801接收发送方客户端发送的目标语音信息，其中，目标语音信息包括待合成语音信息以及待合成图像集合，待合成图像集合包括至少一个待合成图像，之后接收单元801接收基于所述目标语音信息的信息展示指令，并由播放单元802响应接收单元801接收的信息展示指令，在播放接收单元801接收的待合成语音信息时，展示接收单元801接收的待合成图像集合。

本申请实施例中，接收单元801接收发送方客户端发送的目标语音信息之后，可以接收针对目标语音信息的信息展示指令，从而播放单元802在播放待合成语音信息时，展示待合成图像集合。通过上述方式，在使用语音信息交流和使用图片信息交流的基础上，实现了语音与图片结合的功能，提升用户之间的沟通效率，使得信息传达更加高效准确，从而增强方案的灵活性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

接下来，本申请实施例还提供了一种终端设备，所述终端设备上可以部署有上述图16以及图17对应的实施例中提供的信息生成装置，用于执行图2至图9对应的实施例中发送方客户端执行的步骤。或者，所述终端设备上可以部署有上述图18对应的实施例中提供的信息生成装置，用于执行图10至图11对应的实施例中发送方客户端执行的步骤。或者，所述终端设备上可以部署有上述图19对应的实施例中提供的信息展示装置，用于执行图12至图13对应的实施例中发送方客户端执行的步骤。或者，所述终端设备上可以部署有上述图20对应的实施例中提供的信息展示装置，用于执行图14至图15对应的实施例中发送方客户端执行的步骤。如图21所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该信息生成装置或信息展示装置可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant，PDA)、销售终端(Pointof Sales，POS)、车载电脑等任意终端设备，以属性信息展示装置为手机为例：

图21示出的是与本申请实施例提供的信息生成装置或信息展示装置相关的手机的部分结构的框图。参考图21，手机包括：射频(Radio Frequency，RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(wireless fidelity，WiFi)模块970、处理器980、以及电源990等部件。本领域技术人员可以理解，图21中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图21对手机的各个构成部件进行具体的介绍：

RF电路910可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器980处理；另外，将设计上行的数据发送给基站。通常，RF电路910包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，LNA)、双工器等。此外，RF电路910还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication，GSM)、通用分组无线服务(General Packet RadioService，GPRS)、码分多址(Code Division Multiple Access，CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution，LTE)、电子邮件、短消息服务(Short Messaging Service，SMS)等。

存储器920可用于存储软件程序以及模块，处理器980通过运行存储在存储器920的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元930可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元930可包括触控面板931以及其他输入设备932。触控面板931，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板931上或在触控面板931附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板931可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器980，并能接收处理器980发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板931。除了触控面板931，输入单元930还可以包括其他输入设备932。具体地，其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元940可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元940可包括显示面板941，可选的，可以采用液晶显示器(Liquid CrystalDisplay，LCD)、有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板941。进一步的，触控面板931可覆盖显示面板941，当触控面板931检测到在其上或附近的触摸操作后，传送给处理器980以确定触摸事件的类型，随后处理器980根据触摸事件的类型在显示面板941上提供相应的视觉输出。虽然在图21中，触控面板931与显示面板941是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板931与显示面板941集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器950，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板941的亮度，接近传感器可在手机移动到耳边时，关闭显示面板941和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路960、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路960可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路960接收后转换为音频数据，再将音频数据输出处理器980处理后，经RF电路910以发送给比如另一手机，或者将音频数据输出至存储器920以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块970可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图21示出了WiFi模块970，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器980是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器920内的软件程序和/或模块，以及调用存储在存储器920内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器980可包括一个或多个处理单元；可选的，处理器980可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器980中。

手机还包括给各个部件供电的电源990(比如电池)，可选的，电源可以通过电源管理系统与处理器980逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像模块、蓝牙模块等，在此不再赘述。

在本申请实施例中，当所述终端用于执行图2至图9对应的实施例中发送方客户端执行的步骤时，所述终端设备所包括的处理器980还具有以下功能：

获取待合成图像集合，其中，所述待合成图像集合包括至少一个待合成图像；

根据所述待合成图像集合接收语音输入指令；

响应于所述语音输入指令，获取待合成语音信息；

根据所述待合成图像集合以及所述待合成语音生成目标图像信息。

可选的，处理器980具体用于：

接收图像选取指令，其中，所述图像选取指令携带所述待合成图像集合所对应的图像标识；

响应于所述图像选取指令，从媒体数据集合中获取所述待合成图像集合。

可选的，处理器980具体用于：

接收图像拍摄指令；

响应于所述图像拍摄指令，启动摄像模块；

通过所述摄像模块获取所述待合成图像集合。

可选的，处理器980具体用于：

接收悬浮控制手势，其中，所述悬浮控制手势与终端设备的屏幕之间的距离大于预设距离，所述悬浮控制手势与所述待合成图像集合具有对应关系；

响应于所述悬浮控制手势，判断所述悬浮控制手势与预设悬浮控制手势是否匹配；

若所述悬浮控制手势与所述预设悬浮控制手势匹配成功，则通过语音输入模块获取所述待合成语音信息。

可选的，处理器980具体用于：

接收操作控制手势，其中，所述操作控制手势作用于终端设备的屏幕，所述操作控制手势包括长按手势、单击手势、双击手势以及轨迹手势中的至少一种；

响应于所述操作控制手势，判断所述操作控制手势与预设操作控制手势是否匹配；

若所述操作控制手势与所述预设操作控制手势匹配成功，则通过语音输入模块获取所述待合成语音信息。

可选的，处理器980具体用于：

通过所述待合成图像集合接收第一操作指令；

响应于所述第一操作指令，展示语音添加模块；

通过所述语音添加模块接收第二操作指令；

所述响应于所述语音输入指令，获取待合成语音信息，包括：

响应于所述第二操作指令，通过语音输入模块获取所述待合成语音信息。

可选的，处理器980具体用于：

通过所述语音输入模块接收音频数据；

采用语音边界检测VAD从所述音频数据中检测出有效语音起始点以及有效语音结束点，其中，所述有效语音起始点对应第一时刻，所述有效语音结束点对应第二时刻；

根据所述有效语音起始点以及所述有效语音结束点，从所述音频数据中确定所述待合成语音信息，其中，所述待合成语音信息的起始时刻为所述第一时刻，所述待合成语音信息的结束时刻为所述第二时刻。

可选的，处理器980还用于执行如下步骤：

接收信息传输指令，其中，所述信息传输指令中携带接收方标识；

响应于所述信息传输指令，向服务器发送所述目标图像信息，以使所述服务器向接收方客户端发送所述目标图像信息，以使所述接收方客户端根据所述目标图像信息，在展示所述待合成图像集合时播放所述待合成语音信息，所述接收方客户端对应于所述接收方标识。

在本申请实施例中，当所述终端用于执行图10至图11对应的实施例中发送方客户端执行的步骤时，所述终端设备所包括的处理器980还具有以下功能：

接收语音输入指令；

响应于所述语音输入指令，获取待合成语音信息；

根据所述待合成语音信息接收图像输入指令；

响应于所述图像输入指令，获取待合成图像集合，其中，所述待合成图像集合包括至少一个待合成图像；

根据所述待合成语音信息以及所述待合成图像集合生成目标语音信息。

在本申请实施例中，当所述终端用于执行图12至图13对应的实施例中接收方客户端执行的步骤时，所述终端设备所包括的处理器980还具有以下功能：

接收发送方客户端发送的目标图像信息，所述待合成图像集合包括至少一个待合成图像；

接收信息展示指令；

响应于所述信息展示指令，在展示所述待合成图像集合时，播放所述待合成语音信息。

在本申请实施例中，当所述终端用于执行图14至图15对应的实施例中接收方客户端执行的步骤时，所述终端设备所包括的处理器980还具有以下功能：

接收发送方客户端发送的目标语音信息，所述待合成图像集合包括至少一个待合成图像；

接收信息展示指令；

响应于所述信息展示指令，在播放所述待合成语音信息时，展示所述待合成图像集合。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种信息生成的方法，其特征在于，包括：

根据所述待合成图像集合接收语音输入指令；

响应于所述语音输入指令，获取待合成语音信息；

2.根据权利要求1所述的方法，其特征在于，所述获取待合成图像集合，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取待合成图像集合，包括：

接收图像拍摄指令；

响应于所述图像拍摄指令，启动摄像模块；

通过所述摄像模块获取所述待合成图像集合。

4.根据权利要求1所述的方法，其特征在于，所述获取待合成图像集合，包括：

通过所述待合成图像集合接收图像处理指令；

5.根据权利要求1所述的方法，其特征在于，所述响应于所述语音输入指令，获取待合成语音信息包括：

接收控制手势；

响应于所述控制手势，当所述控制手势与预设控制手势匹配成功时，则通过语音输入模块获取所述待合成语音信息。

6.根据权利要求1所述的方法，其特征在于，所述响应于所述语音输入指令，获取待合成语音信息包括：

7.根据权利要求1所述的方法，其特征在于，所述响应于所述语音输入指令，获取待合成语音信息包括：

通过所述待合成图像集合接收第一操作指令；

响应于所述第一操作指令，展示语音添加模块；

通过所述语音添加模块接收第二操作指令；

8.根据权利要求5至7中任一项所述的方法，其特征在于，所述通过语音输入模块获取所述待合成语音信息，包括：

通过所述语音输入模块接收音频数据；

9.根据权利要求1所述的方法，其特征在于，所述根据所述待合成图像集合以及所述待合成语音生成目标图像信息之后，所述方法还包括：

10.一种信息生成的方法，其特征在于，包括：

接收语音输入指令；

响应于所述语音输入指令，获取待合成语音信息；

根据所述待合成语音信息接收图像输入指令；

根据所述待合成语音信息以及所述待合成图像集合生成目标语音信息；

发送所述目标语音信息。

11.根据权利要求10所述的方法，其特征在于，所述响应于所述语音输入指令，获取待合成语音信息，包括：

响应于所述语音输入指令，从预设语音信息集合中获取所述待合成语音信息，其中，所述语音输入指令中携带关键词信息，所述待合成语音信息携带所述关键词信息，所述预设语音信息集合包括至少一个语音信息。

12.根据权利要求10或11所述的方法，其特征在于，所述响应于所述图像输入指令，获取待合成图像集合，包括：

响应于所述图像输入指令，从本地获取所述待合成图像集合；

或，

响应于所述图像输入指令，从服务器获取所述待合成图像集合。

13.根据权利要求10所述的方法，其特征在于，所述根据所述待合成语音信息接收图像输入指令，包括：

根据所述待合成语音信息展示图像选择列表；

通过所述图像选择列表接收所述图像输入指令；

所述响应于所述图像输入指令，获取待合成图像集合，包括：

响应于所述图像输入指令，从所述图像选择列表中获取所述待合成图像集合。

14.一种信息生成装置，其特征在于，包括：

获取单元，用于获取待合成图像集合，其中，所述待合成图像集合包括至少一个待合成图像；

接收单元，用于根据所述获取单元获取的待合成图像集合接收语音输入指令；

所述获取单元，还用于响应于所述接收单元接收的语音输入指令，获取待合成语音信息；

生成单元，用于根据所述获取单元获取的待合成图像集合以及所述待合成语音生成目标图像信息。

15.一种信息生成装置，其特征在于，包括：

接收单元，用于接收语音输入指令；

获取单元，用于响应于所述接收单元接收的语音输入指令，获取待合成语音信息；

所述接收单元，还用于根据所述获取单元获取的待合成语音信息接收图像输入指令；

所述获取单元，还用于响应于所述接收单元接收的图像输入指令，获取待合成图像集合，其中，所述待合成图像集合包括至少一个待合成图像；

生成单元，用于根据所述获取单元获取的待合成语音信息以及所述待合成图像集合生成目标语音信息；

发送模块，用于发送所述生成单元生成的所述目标语音信息。

16.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括如下步骤：

根据所述待合成图像集合接收语音输入指令；

响应于所述语音输入指令，获取待合成语音信息；

根据所述待合成图像集合以及所述待合成语音生成目标图像信息；

17.一种终端设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，存储器用于存储程序；

处理器用于执行存储器中的程序，包括如下步骤：

接收语音输入指令；

响应于所述语音输入指令，获取待合成语音信息；

根据所述待合成语音信息接收图像输入指令；

发送所述目标语音信息；

18.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1至9中任一项所述的方法，或执行如权利要求10至13中任一项所述的方法。