CN114979050A

CN114979050A - 语音生成方法、语音生成装置和电子设备

Info

Publication number: CN114979050A
Application number: CN202210523583.0A
Authority: CN
Inventors: 甘明润
Original assignee: Vivo Mobile Communication Shenzhen Co Ltd
Current assignee: Vivo Mobile Communication Shenzhen Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-08-30
Anticipated expiration: 2042-05-13
Also published as: CN114979050B

Abstract

本申请公开了一种语音生成方法、语音生成装置和电子设备，属于通信技术领域。该语音生成方法，包括：获取第一目标对象，所述第一目标对象包括目标控件和目标标识中的至少一项；获取与所述第一目标对象关联的语音；将与所述第一目标对象关联的多段语音进行拼接，生成目标语音。

Description

语音生成方法、语音生成装置和电子设备

技术领域

本申请属于通信技术领域，具体涉及一种语音生成方法、语音生成装置和电子设备。

背景技术

在工作生活中，用户使用电子设备的过程中，通过语音消息进行信息传递已成为重要的社交沟通方式。相关技术中，如果需要录制多人语音，需要让多人在同一位置对着同一电子设备进行录制，或者多人各自录制后，后期再通过语音编辑技术，将不同的语音片段剪辑在一起，操作难度较大。

发明内容

本申请实施例的目的是提供一种语音生成方法，能够解决多人语音剪辑难度大的问题。

第一方面，本申请实施例提供了一种语音生成方法，该方法包括：

获取第一目标对象，所述第一目标对象包括目标控件和目标标识中的至少一项；

获取与所述第一目标对象关联的语音；

将与所述第一目标对象关联的多段语音进行拼接，生成目标语音。

第二方面，本申请实施例提供了一种语音生成的装置，该装置包括：

第一获取模块，用于获取第一目标对象，所述第一目标对象包括目标控件和目标标识中的至少一项；

第二获取模块，用于获取与所述第一目标对象关联的语音；

第一处理模块，用于将与所述第一目标对象关联的多段语音进行拼接，生成目标语音。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，通过将与第一目标对象关联的多段语音进行拼接，可实现多设备语音的自动整合，无需将多个设备的语音收集到一台设备后，再通过专业的音频编辑软件进行拼接，对于多设备语音的拼接需求操作方便。

附图说明

图1是本申请实施例提供的语音生成方法的流程示意图之一；

图2是本申请实施例提供的语音生成方法的流程示意图之二；

图3是本申请实施例提供的语音生成方法的界面示意图之一；

图4是本申请实施例提供的语音生成方法的界面示意图之二；

图5是本申请实施例提供的语音生成方法的界面示意图之三；

图6是本申请实施例提供的语音生成方法的界面示意图之四；

图7是本申请实施例提供的语音生成方法的界面示意图之五；

图8是本申请实施例提供的语音生成装置的结构示意图；

图9是本申请实施例提供的电子设备的结构示意图；

图10是本申请实施例提供的电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的语音生成方法进行详细地说明。

其中，语音生成方法可应用于电子设备，具体可由，电子设备中的硬件或软件执行。

该电子设备包括但不限于具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的移动电话或平板电脑等其它便携式通信设备。还应当理解的是，在某些实施例中，该电子设备可以不是便携式通信设备，而是具有触摸敏感表面(例如，触摸屏显示器和/或触摸板)的台式计算机。该电子设备还可以包括但不限于具有触摸敏感表面

以下各个实施例中，描述了包括显示器和触摸敏感表面的电子设备。然而，应当理解的是，电子设备可以包括诸如拾音器、物理键盘、鼠标和控制杆的一个或多个其它物理用户接口设备。

本申请实施例提供的语音生成方法，该语音生成方法的执行主体可以为第一电子设备或者第一电子设备中能够实现该语音生成方法的功能模块或功能实体，本申请实施例提及的第一电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等，下面以第一电子设备作为执行主体为例对本申请实施例提供的语音生成方法进行说明。

如图1所示，该语音生成方法包括：步骤110、步骤120和步骤130。

步骤110、获取第一目标对象；

第一目标对象可以表现为目标控件和目标标识中的至少一种。

以第一目标对象表现为目标控件为例，目标控件可作为语音输入的入口，通过该入口输入的语音均与第一目标对象进行关联，在目标控件被触发后，通过拾音器录制语音，该语音与第一目标对象关联。也可以通过触发目标控件，完成已录制的语音与目标控件的关联绑定，使得该已录制完成的语音与目标控件关联上。

以第一目标对象表现为目标标识为例，在第一电子设备获取到的语音中解析出目标标识的情况下，则该语音也与目标标识关联，该语音可以为第一电子设备本地存储或采集得到的语音，也可以为其他电子设备发送到第一电子设备的。

步骤120、获取与第一目标对象关联的语音；

在该步骤中，获取的语音可以为第一电子设备本地采集的语音，或其他电子设备通过发送获得的语音。

以获取的语音为第一电子设备本地采集的语音为例，在这种情况下，可以是第一电子设备获取到通过目标控件采集到的语音。

比如第一目标对象包括目标控件，用户通过对目标控件进行输入，触发拾音器开启，拾音器采集的语音即为与第一目标对象关联的语音。

以获取的语音为其他电子设备发送的语音为例，第一目标对象包括目标标识，第二电子设备将第二语音发送给第一电子设备，第一电子设备对接收到第二语音进行解析，确定第二语音包含目标标识，则第二语音为与第一目标对象关联的语音。

步骤130、将与第一目标对象关联的多段语音进行拼接，生成目标语音。

需要说明的是，目标语音为一个完整的音频文件，该音频文件包括多个语音片段，每个语音片段均来源于与第一目标对象关联的语音。

即，目标语音中的语音片段不局限于本地设备的语音，还可以是其他设备发送的语音。

目标语音中多个语音片段的顺序可以通过多种方式确定：

其一，按照获取到的与第一目标对象关联的语音的顺序确定目标语音中多个语音片段的顺序。

在该实施方式中，步骤120获取到多段语音，多段语音获取的时间不等，按照获取的顺序，即可确定目标语音中多个语音片段的顺序。

其二，按照第一电子设备确定的顺序进行拼接。

在该实施方式中，第一电子设备可提前确定多个语音来源的顺序，从各个来源获取到语音后，即按照提前确定的顺序进行拼接即可。当然，目标语音中多个语音片段的顺序也可以调整。

当然，上述顺序也可以在录制完成后，由目标电子设备进行调整，目标电子设备可以为发起的电子设备(第一电子设备)，或者由发起的电子设备给予该权限的用户所对应的电子设备。

根据本申请实施例提供的语音生成方法，通过将与第一目标对象关联的语音进行拼接，可实现多设备语音的自动整合，无需将多个设备的语音收集到一台设备后，再通过专业的音频编辑软件进行拼接，对于多设备语音的拼接需求操作方便。

在一些实施例中，在步骤110、获取第一目标对象之前，该语音生成方法还可以包括：

接收用户对第一语音的第一输入；响应于第一输入，生成第一目标对象，并向至少一个第二电子设备发送包括第一目标对象的第一消息，且将第一语音与第一目标对象关联；

接收至少一个第二电子设备基于第一消息发送的第二消息，并从第二消息中获取与第一目标对象关联的第二语音。

可以理解的是，第一电子设备在正常工作时，用户可以打开目标社交应用(application，APP)的聊天界面。

聊天界面按照联系人区分，在双人聊天的场景下，第一联系人可以为单个联系人，在群聊场景下，第一联系人可以指代多个联系人形成的组群。

需要说明的是，第一电子设备可以将聊天记录按照时间先后顺序显示于聊天记录显示区域。

第一联系人可以为当前用户想要联系的联系人，第一联系人可以为当前用户想要邀请加入到多人语音共同录制的联系人，或者第一联系人可以为当前用户将合成好的目标语音发送到的联系人。

接收用户对第一语音的第一输入，可以包括：在显示与第一联系人的聊天界面的情况下，接收用户对第一语音的第一输入。第一语音对应的控件可以显示于该聊天界面，但是该第一语音未发送给第一联系人。

以当前用户需要向第一联系人发送目标语音，该目标语音需要包括多人的语音为例，比如，可以为多人共同向第一联系人发送祝福语音，或者多人接力讲故事(第一联系人为下一个需要讲故事的人)等场景。

在本步骤中，第一输入用于触发向第二电子设备发送第一消息。

其中，第一输入可以为如下至少一种方式：

其一，第一输入可以为触控操作，包括但不限于点击操作、滑动操作和按压操作等。

在该实施方式中，接收用户的第一输入，可以为，接收用户在终端显示屏的显示区域的触控操作。

为了降低用户误操作率，可以将第一输入的作用区域限定在特定的区域内；或者在显示特定界面的状态下，在当前界面显示第一目标控件，触摸第一目标控件，即可实现第一输入；或者将第一输入设置为在目标时间间隔内对显示区域的连续多次敲击操作。

其二，第一输入可以为实体按键输入。

在该实施方式中，终端的机身上设有与发送对应的实体按键，接收用户的第一输入，可以为，接收用户按压对应的实体按键的操作；第一输入还可以为同时按压多个实体按键的组合操作。

其三，第一输入可以为语音输入。

在该实施方式中，终端可以在接收到语音如“邀请张三录制组合语音”时，触发向第二电子设备发送第一消息。

当然，在其他实施例中，第一输入也可以为其他形式，包括但不限于字符输入等，具体可根据实际需要决定，本申请实施例对此不作限定。

在该步骤中，第一语音可以有多种来源：

其一，第一语音可以为第一电子设备通过拾音器录制的。

在该实施方式中，在步骤110、接收用户对第一语音的第一输入之前，该方法还可以包括：

接收用户的输入；响应于该输入，获取通过拾音器采集的音频信号。

上述输入用于控制第一电子设备的拾音器开启，且在拾音器开启后，采集用户的语音输入。

其二，第一语音可以为预存在第一电子设备或者从网络下载的语音。

响应于第一输入，生成第一目标对象，并向至少一个第二电子设备发送第一消息，第一消息包括第一目标对象，且将第一语音与第一目标对象关联。

第一输入可以为组合输入，该组合输入可以包括上述一种或多种形式的输入。

在一些实施例中，第一输入包括第一子输入、第二子输入和第三子输入，接收用户对第一语音的第一输入；响应于第一输入，向第二电子设备发送第一消息，包括：

接收用户对第一语音的第一子输入；

响应于第一子输入，显示备选联系人标识；

接收用户对备选联系人标识的第二子输入；

响应于第二子输入，确定目标联系人标识；

接收用户的第三子输入；

响应于第三子输入，向与目标联系人标识对应的第二电子设备发送第一消息。

上述第一子输入、第二子输入和第三子输入的具体形式可参考第一输入。

如图3所示，在当前界面显示第一语音对应的控件，接收用户的第一子输入可以包括，接收用户长按第一语音对应的控件，并点击显示的“添加参与录制联系人”的控件的输入；

如图4所示，响应于第一子输入，显示备选联系人标识。备选联系人标识可以为图4这种备选联系人的头像，或者该备选联系人标识可以包括备选联系人的称呼。

备选联系人标识可以包括当前用户在目标社交应用中通讯录中的所有人，或者在当前界面为群聊界面的情况下，备选联系人标识可以包括当前聊天群中的所有群成员。

在一些实施例中，通过滑动操作，可以调整显示出来的备选联系人标识。或者可以通过输入名称或名称的首字母等实现搜索。

如图4所示，接收用户对备选联系人标识的第二子输入，响应于第二子输入，确定目标联系人标识。第二子输入可以为点击备选联系人标识的输入，如图4中，最左侧的备选联系人标识被选中，该备选联系人标识即作为目标联系人标识。可以将一个或多个备选联系人标识确定为目标联系人标识。

第三子输入可以为点击发送控件的输入，在确定完目标联系人后，点击发送控件，即可向目标联系人对应的第二电子设备发送第一消息。

在第一输入后，第一语音即与第一目标对象关联，该第一语音转变为步骤120中的与第一目标对象关联的语音。

第一消息用于指示与第二电子设备对应的用户录制第二语音。第二电子设备的用户在收到第一消息后，可进行语音录制。

比如，第二电子设备接收用户对第一消息的第三输入，如图5所示，第三输入可以包括点击或长按麦克风样式的控件的输入以及语音输入。响应于第三输入，第二电子设备获取第二语音，第二语音可以为通过第二电子设备的拾音器采集的，或者第二语音可以为预存在第二电子设备中的语音。

第一消息可以作为邀请其他用户进行共同录音的请求，第一消息包括第一目标对象，并将多个语音通过该第一目标对象关联在一起。

第一消息可以包括第一语音或不包括第一语音。

其一，第一消息可以不包括第一语音。

在该实施方式中，第二电子设备接收到的第一消息可以包括提示信息和用于触发录音的控件。

如图5所示，提示信息可以为文字的形式“请参与语音录制”，当然，提示信息还可以为语音的形式，比如通过语音的方式播放“请参与语音录制”。

用于触发录音的控件可以显示为麦克风样式或其他样式的图标。

第二电子设备的用户在收到第一消息后，可以通过用于触发录音的控件进行语音输入，得到与第一语音关联的第二语音。

其二，第一消息可以包括第一语音。

在该实施方式中，第二电子设备接收到的第一消息可以包括第一语音和用于触发录音的控件。

第二电子设备在接收到用户的输入后，可播放第一语音，这样第二电子设备的用户可基于第一语音确定第二语音的内容。

比如，在多人向一人共同祝福场景下，第二电子设备的用户可参考第一语音的内容，录制与第一语音内容不同的第二语音。

或者在飞花令游戏中，第二电子设备的用户基于第一语音的内容，确定第二语音的内容，并完成录制，后一个电子设备的用户则可根据前一个用户发送的语音，录制下一句。比如，第一语音的内容为“花近高楼伤客心”，第一个第二电子设备的用户则可以录制第二语音“落花时节又逢君”，下一个第二电子设备的用户则可以录制第二语音“春江花朝秋月夜”，……

当然，在该实施方式中，第一消息也可以包括提示消息。提示信息可以为文字的形式“请参与语音录制”，当然，提示信息还可以为语音的形式，比如通过语音的方式播放“请参与语音录制”。

在获取第二语音后，第二电子设备基于第二语音，至少向第一电子设备发送第二消息，当然，该第二电子设备也可以向其他第二电子设备发送第二消息。

接收至少一个第二电子设备基于第一消息发送的第二消息；

第二消息包括有该第二电子设备对应的第二语音，第二消息可以有多种形式：

其一，第二消息包括第二语音，不包括第一语音。

在该实施方式中，由服务器合成第一语音和第二语音得到目标语音；或者由第一电子设备合成第一语音和第二语音得到目标语音。

其二，第二消息包括第二语音和第一语音。

在该实施方式中，由第二电子设备合成第一语音和第二语音得到目标语音；或者由服务器合成第一语音和第二语音得到目标语音；或者由第一电子设备合成第一语音和第二语音得到目标语音。

第一电子设备可接受一个或多个第二电子设备发送的第二消息。

从第二消息中获取与第一目标对象关联的第二语音。这样可基于第二消息，生成目标语音，目标语音包括第一语音和至少一个第二语音。

需要说明的是，目标语音为一个完整的音频文件，该音频文件包括多个语音片段——第一语音和至少一个第二语音。

目标语音中多个语音片段的顺序可以通过多种方式确定：

其一，多个第二电子设备的用户可自行选择录制的顺序。

在该实施方式中，第一消息同时发给多个第二电子设备，多个第二电子设备对应的用户响应的速度不同，多个第二语音中先完成的位于前面，即最后得到的目标语音中各语音片段的顺序可以基于录制的顺序确定。

其二，多个第二电子设备的用户可按照第一电子设备确定的顺序进行录制。

在该实施方式中，第一电子设备在发送第一消息时，已确定了多个第二语音的顺序，具体可表现为，多个第二电子设备可以顺序接收到第一消息，比如在前一个第二电子设备发送第二消息后，下一个第二电子设备才接收到的第一消息或第二消息，或者多个第二电子设备同时接收到第一消息，服务器或第一电子设备根据预设的顺序拼接多段语音。

根据本申请实施例提供的语音生成方法，通过第一消息将多人的语音关联起来，并进行拼接，可实现多设备语音的自动整合，无需将多个设备的语音收集到一台设备后，再通过专业的音频编辑软件进行拼接，对于多设备语音的拼接需求操作方便。

在一些实施例中，在步骤130、生成目标语音之后，该方法还可以包括：显示与目标语音对应的第一目标控件，第一目标控件包括多个用户标识，与第一目标对象关联的多段语音各对应一个用户标识。

需要说明的是，目标语音对应的第一目标控件可显示在第一电子设备的显示屏上，该第一目标控件用于编辑和/或播放目标语音。

得到的目标语音为已将多人的语音拼接完成的语音，不同的联系人对应的语音片段会显示对应的用户标识。

比如，在图6所示的实施例中，屏幕上显示目标语音对应的第一目标控件，第一目标控件包括联系人X、联系人1和联系人2的用户标识。通过左右滑动该第一目标控件，还可以显示其他隐藏的用户标识。点击用户标识，可播放该用户标识所对应的语音片段。

在图7所示的实施例中，屏幕上显示目标语音对应的第一目标控件，第一目标控件包括多个头像式的用户标识。多个用户标识采用采用转盘的形式显示。通过上下滑动该第一目标控件，还可以显示其他隐藏的用户标识。点击第一目标控件上的播放键，可播放当前显示的用户标识所对应的语音片段。

可以理解的是，由于显示的第一目标控件包括有多个用户标识，这样可方便地知晓该目标语音是由哪些联系人录制的，甚至能清楚地表达各个片段对应的联系人，且也方便对特定的片段进行编辑和播放。

在一些实施例中，在显示与目标语音对应的第一目标控件之后，该语音生成方法还可以包括：

接收用户对第一目标控件的输入；响应于该输入，按照多个用户标识的顺序，播放与多个用户标识对应的第一语音和第二语音。

换言之，第一目标控件包括用于控制总播放的子控件，点击该子控件，可完整播放该目标语音。上述输入的形式不限于触控操作，还可以参考第一输入的形式，为其他方式。

在该实施例中，在播放时按目标形式显示对应的用户标识。该目标形式可区别于当前未被播放的语音对应的用户标识，目标形式包括但不限于高亮、点亮、加粗、变色或特定区域等形式。

这样用户可以明确知晓当前在播放谁的语音。

在图6所示的实施例中，第一目标控件包括联系人X、联系人1和联系人2的用户标识，如在播放联系人X对应的语音时，则可点亮显示联系人X的用户标识，联系人1和联系人2的用户标识可以显示为灰度图，在联系人X对应的语音播放结束且播放联系人1对应的语音时，联系人X和联系人2的用户标识可以显示为灰度图，点亮显示联系人1的用户标识。

在图7所示的实施例中，第一目标控件包括多个联系人的用户标识，如在播放联系人X对应的语音时，则将联系人X的用户标识显示在转盘的中间，在联系人X对应的语音播放结束且播放联系人1对应的语音时，联系人X的用户标识显示在转盘的中间，联系人X和联系人2的用户标识显示在转盘的其他区域。

接收用户对多个用户标识中的目标用户标识的第二输入；

响应于第二输入，播放与目标用户标识对应的第一语音或第二语音。

比如需要播放联系人1的语音，则直接在图6所示的界面中，点击“联系人1”即可，不用从头开始播放。

换言之，在该实施例中，可实现对目标语音中各片段的点播，且是按照联系人来点播，这样操作更方便，可玩性更强。

第二输入的具体执行方式可参考第一输入的形式，包括但不限于触控、实体按键和语音等。

接收用户对多个用户标识中的目标用户标识的第二输入；

响应于第二输入，编辑与目标用户标识对应的第一语音或第二语音。

在该实施例中，“编辑”可以包括多种形式：

其一，调整语音片段的顺序。

在该实施方式中，第二输入用于调整目标用户标识对应的语音片段在整个目标语音中的位置。

以第二输入为触控操作为例，在图6所示的界面中，按压“第二联系人”并拖动其到目标位置，即可调整第二联系人对应的语音片段的位置。

其二，删除语音片段。

在该实施方式中，第二输入用于删除目标用户标识对应的语音片段。

第一电子设备在获取目标语音后，基于各自原因，可能需要删除某些语音片段，比如目标用户标识对应的语音片段无实际内容或者含不需要的内容。

以第二输入为触控操作为例，在图6所示的界面中，朝下滑动“第二联系人”，可弹出删除控件，点击删除控件，即可调整第二联系人对应的语音片段；或者长按“第二联系人”，可弹出删除控件。

在该实施方式中，通过对用户标识的简单操作，即可实现对目标语音的编辑，无需专业的音频编辑软件，使用方便，上手难度低。

本申请实施例提供的语音生成方法，执行主体可以为语音生成装置。本申请实施例中以语音生成装置执行语音生成方法为例，说明本申请实施例提供的语音生成装置。

本申请实施例还提供一种语音生成装置。

如图8所示，该语音生成装置包括：第一获取模块810、第二获取模块820和第一处理模块830。

第一获取模块810，用于获取第一目标对象，第一目标对象包括目标控件和目标标识中的至少一项；

第二获取模块820，用于获取与第一目标对象关联的语音；

第一处理模块830，用于将与第一目标对象关联的多段语音进行拼接，生成目标语音。

根据本申请实施例提供的语音生成装置，通过将与第一目标对象关联的多段语音进行拼接，可实现多设备语音的自动整合，无需将多个设备的语音收集到一台设备后，再通过专业的音频编辑软件进行拼接，对于多设备语音的拼接需求操作方便。

在一些实施例中，该语音生成装置还可以包括：

第一显示模块，用于在生成目标语音之后，显示与目标语音对应的第一目标控件，第一目标控件包括多个用户标识，与第一目标对象关联的多段语音各对应一个用户标识。

在一些实施例中，该语音生成装置还可以包括：

第二接收模块，用于在显示与目标语音对应的第一目标控件之后，接收用户对多个用户标识中的目标用户标识的第二输入；

第二处理模块，用于响应于第二输入，编辑或播放与目标用户标识对应的语音。

在一些实施例中，该语音生成装置还可以包括：

第一接收模块，用于在获取第一目标对象之前，接收用户对第一语音的第一输入；

第三处理模块，用于响应于第一输入，生成第一目标对象，并向至少一个第二电子设备发送包括第一目标对象的第一消息，且将第一语音与第一目标对象关联；

第二获取模块，还用于接收至少一个第二电子设备基于第一消息发送的第二消息，并从第二消息中获取与第一目标对象关联的第二语音。

本申请实施例提供的另一种语音生成方法，该语音生成方法的执行主体可以为第二电子设备或者第二电子设备中能够实现该语音生成方法的功能模块或功能实体，本申请实施例提及的第二电子设备包括但不限于手机、平板电脑、电脑、相机和可穿戴设备等，下面以第二电子设备作为执行主体为例对本申请实施例提供的语音生成方法进行说明。

如图2所示，该语音生成方法包括：步骤210、步骤220、步骤230和步骤240。

步骤210、获取第一电子设备基于第一语音发送的第一消息；

第二电子设备可以加载有目标社交应用，在联网的状态下，接收到第一电子设备发送的第一消息。

第一消息用于指示第二电子设备的用户录制第二语音。第二电子设备的用户在收到第一消息后，可进行语音录制。

第一消息包括第一目标对象。

第一消息可以作为邀请其他用户进行共同录音的请求，并将多个语音通过该第一消息关联在一起。

第一消息可以包括第一语音或不包括第一语音。

其一，第一消息可以不包括第一语音。

其二，第一消息可以包括第一语音。

第二电子设备在接收到第一消息后，用户通过播放第一语音可知晓第一语音的内容，并基于第一语音的内容，确定自己需录制的内容。

具体地，第二电子设备在接收到用户的输入后，可播放第一语音，这样第二电子设备的用户可基于第一语音确定第二语音的内容。

比如，在多人向一人共同祝福场景下，第二电子设备的用户可参考第一语音的内容，录制与第一语音内容不同的第二语音；或者在飞花令游戏中，第二电子设备的用户基于第一语音的内容，确定第二语音的内容，并完成录制，后一个电子设备的用户则可根据前一个用户发送的语音，录制下一句。

步骤220、接收用户对第一消息的第三输入；

第一消息可包括用于触发录音的控件，该控件被触发时拾音器开启。

第三输入用于触发获取第二语音，第三输入的形式可参考第一输入，包括但不限于：触控操作、实体按键输入和语音输入等。

第三输入可以用于触发音频录制，如图5所示，第三输入可以包括点击或长按麦克风样式的控件的输入以及语音输入。

或者，第三输入可以用于触发从预存在第二电子设备中的音频中确定第二语音，比如点击拓展控件，显示音频文件夹，并从音频文件夹中确定第二语音。

步骤230、响应于第三输入，获取第二语音，第二语音与第一目标对象关联；

第二语音可以为通过第二电子设备的拾音器采集的，或者第二语音可以为预存在第二电子设备中的语音。

步骤240、基于第二语音，至少向第一电子设备发送第二消息。

在获取第二语音后，第二电子设备基于第二语音，至少向第一电子设备发送第二消息。

当然，该第二电子设备也可以向其他第二电子设备发送第二消息。

第二消息包括有该第二电子设备对应的第二语音，第二消息有多种形式：

其一，第二消息包括第二语音，不包括第一语音。

其二，第二消息包括第二语音和第一语音。

在一些实施例中，各第二电子设备在完成第二语音的录制后，即与前面已录制的语音进行拼接，体现在第二电子设备上，第二电子设备的屏幕上可同步显示当前最新的目标语音对应的第一目标控件。

根据本申请实施例提供的语音生成方法，通过接收的第一消息，可将本机的语音与其他设备的语音关联起来，并进行拼接，可实现多设备语音的自动整合，无需将多个设备的语音收集到一台设备后，再通过专业的音频编辑软件进行拼接，对于多设备语音的拼接需求操作方便。

在一些实施例中，在步骤230、获取第二语音之后，该语音生成方法还可以包括：

生成目标语音，并显示与目标语音对应的第一目标控件，目标语音包括第一语音和第二语音，第一目标控件包括多个用户标识，第一语音和第二语音各对应一个用户标识。

在该实施方式中，第二电子设备获取最终拼接的目标语音，需要说明的是，目标语音对应的第一目标控件可显示在第二电子设备的显示屏上，该第一目标控件用于编辑和/或播放目标语音。

在图6所示的实施例中，屏幕上显示目标语音对应的第一目标控件，第一目标控件包括联系人X、联系人1和联系人2的用户标识。

在图7所示的实施例中，屏幕上显示目标语音对应的第一目标控件，第一目标控件包括多个头像式的用户标识。多个用户标识采用采用转盘的形式显示。

可以理解的是，由于显示的第一目标控件包括有多个用户标识，这样可方便地知晓哪些联系人参与了语音录制。

在一些实施例中，在显示与目标语音对应的第一目标控件之后，该语音生成方法还包括：

接收用户对与第二语音对应的用户标识的第四输入；

响应于第四输入，播放第二语音。

第四输入用于触发播放第二语音，第四输入的形式可参考第一输入，包括但不限于：触控操作、实体按键输入和语音输入等。

比如需要播放联系人1的语音，则直接在图6所示的界面中，点击“联系人1”即可，不用从头开始播放。当然，也可以设置为第二电子设备只能播放自身获取的第二语音，通过播放第二语音，可供用户确定是否需要编辑修改。

换言之，在该实施例中，可实现对第二语音的点播，这样操作更方便，可玩性更强。

接收用户对与第二语音对应的用户标识的第四输入；

响应于第四输入，编辑第二语音。

第四输入用于触发编辑第二语音，第四输入的形式可参考第一输入，包括但不限于：触控操作、实体按键输入和语音输入等。

在该实施例中，“编辑”可以包括多种形式：

其一，删除语音片段。

在该实施方式中，第四输入用于删除第二电子设备自身对应的语音片段。

第二电子设备在获取目标语音后，基于各自原因，可能需要删除之前确定的第二语音，比如录制效果未达到目标。

以第四输入为触控操作，且该第二电子设备的用户为第二联系人为例，在图6所示的界面中，朝下滑动“第二联系人”，可弹出删除控件，点击删除控件，即可调整第二联系人对应的语音片段；或者长按“第二联系人”，可弹出删除控件。

其二，新增录制语音片段。

在该实施方式中，通过第四输入可实现第二语音的补录，基于补录的第二语音可更新原有的目标语音，且该第二语音可自动拼接到原有位置。

其三，调整语音片段的顺序。

在该实施方式中，对于具有对应权限的用户，第四输入用于调整自身的第二语音在整个目标语音中的位置。

以第四输入为触控操作为例，在图6所示的界面中，按压“第二联系人”并拖动其到目标位置，即可调整第二联系人对应的语音片段的位置。

在该实施方式中，通过对用户标识的简单操作，即可实现对第二语音的编辑，无需专业的音频编辑软件，使用方便，上手难度低。

本申请实施例中的语音生成装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtualreality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personalcomputer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personalcomputer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的语音生成装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为IOS操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的语音生成装置能够实现图1至图7的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图9所示，本申请实施例还提供一种电子设备1000，包括处理器1001，存储器1002，存储在存储器1002上并可在所述处理器1001上运行的程序或指令，该程序或指令被处理器1001执行时实现上述语音生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图10为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备1100包括但不限于：射频单元1101、网络模块1102、音频输出单元1103、输入单元1104、传感器1105、显示单元1106、用户输入单元1107、接口单元1108、存储器1109以及处理器1110等部件。

本领域技术人员可以理解，电子设备1100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器1110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图10中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

在一些实施例中，输入单元1104，用于获取第一目标对象，第一目标对象包括目标控件和目标标识中的至少一项；

输入单元1104，还用于获取与第一目标对象关联的语音；

处理器1001，用于将与第一目标对象关联的多段语音进行拼接，生成目标语音。

根据本申请实施例提供的电子设备，通过将第一目标对象关联的多段语音进行拼接，可实现多设备语音的自动整合，使用方便。

可选地，显示单元1106，用于显示与目标语音对应的第一目标控件，第一目标控件包括多个用户标识，与第一目标对象关联的多段语音各对应一个用户标识。

可选地，用户输入单元1107，用于接收用户对多个用户标识中的目标用户标识的第二输入；

处理器1110，还用于响应于第二输入，编辑或播放与目标用户标识对应的第一语音或第二语音。

可选地，用户输入单元1107，用于在获取第一目标对象之前，接收用户对第一语音的第一输入；

处理器1110，还用于响应于第一输入，生成第一目标对象，并向至少一个第二电子设备发送包括第一目标对象的第一消息，且将第一语音与第一目标对象关联；

输入单元1104，还用于接收至少一个第二电子设备基于第一消息发送的第二消息，并从第二消息中获取与第一目标对象关联的第二语音。

在另一些实施例中，网络模块1102，用于获取第一电子设备基于第一语音发送的第一消息；

用户输入单元1107，用于接收用户对第一消息的第三输入；

处理器1110，用于响应于第三输入，获取第二语音；

网络模块1102，还用于基于第二语音，至少向第一电子设备发送第二消息。

根据本申请实施例提供的电子设备，通过接收的第一消息，可将本机的语音与其他设备的语音关联起来，并进行拼接，可实现多设备语音的自动整合，使用方便。

可选的，处理器1110，还用于在获取第二语音之后生成目标语音，显示单元1106，用于显示与目标语音对应的第一目标控件，目标语音包括第一语音和第二语音，第一目标控件包括多个用户标识，第一语音和第二语音各对应一个用户标识。

可选的，用户输入单元1107，还用于在显示与目标语音对应的第一目标控件之后，接收用户对与第二语音对应的用户标识的第四输入；处理器1110，还用于响应于第四输入，编辑或播放第二语音。

应理解的是，本申请实施例中，输入单元1104可以包括图形处理器(GraphicsProcessing Unit，GPU)11041和麦克风11042，图形处理器11041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元1106可包括显示面板11061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板11061。用户输入单元1107包括触控面板11071以及其他输入设备11072中的至少一种。触控面板11071，也称为触摸屏。触控面板11071可包括触摸检测装置和触摸控制器两个部分。其他输入设备11072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器1109可用于存储软件程序以及各种数据，存储器1109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器1109可以包括易失性存储器或非易失性存储器，或者，存储器1109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器1109包括但不限于这些和任意其它适合类型的存储器。

处理器1110可包括一个或多个处理单元；可选地，处理器1110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器1110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述语音生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述语音生成方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种语音生成方法，其特征在于，包括：

获取与所述第一目标对象关联的语音；

2.根据权利要求1所述的语音生成方法，其特征在于，在所述生成目标语音之后，所述方法还包括：

显示与所述目标语音对应的第一目标控件，所述第一目标控件包括多个用户标识，与所述第一目标对象关联的所述多段语音各对应一个所述用户标识。

3.根据权利要求2所述的语音生成方法，其特征在于，在所述显示与所述目标语音对应的第一目标控件之后，所述方法还包括：

接收用户对所述多个用户标识中的目标用户标识的第二输入；

响应于所述第二输入，编辑或播放与所述目标用户标识对应的所述语音。

4.根据权利要求1-3中任一项所述的语音生成方法，其特征在于，所述获取第一目标对象之前，所述方法还包括：

接收用户对第一语音的第一输入；

响应于所述第一输入，生成第一目标对象，并向至少一个第二电子设备发送包括所述第一目标对象的第一消息，且将所述第一语音与所述第一目标对象关联；

所述获取与所述第一目标对象关联的语音，包括：

接收所述至少一个第二电子设备基于所述第一消息发送的第二消息，并从所述第二消息中获取与所述第一目标对象关联的第二语音。

5.一种语音生成装置，其特征在于，包括：

第二获取模块，用于获取与所述第一目标对象关联的语音；

6.根据权利要求5所述的语音生成装置，其特征在于，所述装置还包括：

第一显示模块，用于在所述生成目标语音之后，显示与所述目标语音对应的第一目标控件，所述第一目标控件包括多个用户标识，与所述第一目标对象关联的所述多段语音各对应一个所述用户标识。

7.根据权利要求6所述的语音生成装置，其特征在于，所述装置还包括：

第二接收模块，用于在所述显示与所述目标语音对应的第一目标控件之后，接收用户对所述多个用户标识中的目标用户标识的第二输入；

第二处理模块，用于响应于所述第二输入，编辑或播放与所述目标用户标识对应的所述语音。

8.根据权利要求5-7中任一项所述的语音生成装置，其特征在于，所述装置还包括：

第一接收模块，用于在所述获取第一目标对象之前，接收用户对第一语音的第一输入；

第三处理模块，用于响应于所述第一输入，生成第一目标对象，并向至少一个第二电子设备发送包括所述第一目标对象的第一消息，且将所述第一语音与所述第一目标对象关联；

所述第二获取模块，还用于接收所述至少一个第二电子设备基于所述第一消息发送的第二消息，并从所述第二消息中获取与所述第一目标对象关联的第二语音。

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-4中任一项所述的语音生成方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-4中任一项所述的语音生成方法的步骤。