CN111131616B

CN111131616B - 基于智能终端的音频共享方法及相关装置

Info

Publication number: CN111131616B
Application number: CN201911383922.4A
Authority: CN
Inventors: 万根顺; 高建清; 王智国
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2019-12-28
Filing date: 2019-12-28
Publication date: 2022-05-17
Anticipated expiration: 2039-12-28
Also published as: CN111131616A

Abstract

本申请实施例公开了一种基于智能终端的音频共享方法及相关装置，所述方法包括：获取预设场景的声源位置；依据所述声源位置与智能终端之间的位置关系，依据所述位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系和/或所述距离从所述预设场景的智能终端内选择共享智能终端；获取所述共享智能终端采集的音频数据，将所述音频数据确定为所述预设场景的共享音频。本申请提供的技术方案具有提高音频数量的优点。

Description

基于智能终端的音频共享方法及相关装置

技术领域

本申请涉及音频技术领域，具体涉及一种基于智能终端的音频共享方法及相关装置。

背景技术

现有的音频共享一般都是在会议、演讲、采访或者授课等使用场景音频录制结束之后，以特定设备所录制的音频进行分享以实现参会者对音频的回放收听，或者进一步的语音识别以实现相应的文案整理；若需要实时进行音频结果反馈，需要在音频录制过程中，通过当前设备收录的音频进行实时语音识别，以提供相应的参考识别结果给智能终端使用者进行实时整理，辅助参会人员形成及时有效的会议反馈等。

现有的音频共享方法，需要提供特定的设备进行音频录制以保证录制质量，并且需要额外工作人员对录音进行实时监控，无法实现音频的实时共享；若需要在音频录制过程中实时提供识别结果以实现文案整理等，需要保证当前设备收录的音频质量，一般当前设备音频收录出现问题时，将对识别结果造成严重影响，进而影响用户体验。

发明内容

本申请实施例提供了一种基于智能终端的音频共享及相关装置，以期提高音频收录的质量。

第一方面，提供一种基于智能终端的音频共享方法，其特征在于，所述方法包括如下步骤：

获取预设场景的声源位置；

依据所述声源位置与智能终端之间的位置关系，依据所述位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系和/或所述距离从所述预设场景的智能终端内选择共享智能终端；

获取所述共享智能终端采集的音频数据，将所述音频数据确定为所述预设场景的共享音频。

第二方面，提供基于智能终端的音频共享装置，其特征在于，所述装置包括：

获取单元，用于获取预设场景的声源位置；

处理单元，用于依据所述声源位置与智能终端之间的位置关系，依据所述位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系以及所述距离从所述预设场景的智能终端内选择共享智能终端；

采集单元，用于获取所述共享智能终端采集的音频数据；

所述处理单元，还用于将所述音频数据确定为所述预设场景的共享音频。

第三方面，本申请实施例提供了一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，其中，上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。

第四方面，本申请实施例提供了一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请提供的技术方案能够实现高质量音频在不同智能终端以及参会人员之间的共享，具体地，本申请的技术方案依据声源位置和/或距离从预设场景的智能终端中选择符合条件的终端组成共享智能终端，然后通过共享智能终端采集音频数据，并将该音频数据作为共享音频，因为本申请的技术方案不局限与具体的录音设备，因此能够提高录音的效果。另外本申请的技术方案结合会议、演讲、采访或者授课等使用场景中较为普及的智能终端设备，对录制音频进行实时有效的监控以及处理，从而实现录制音频的实时处理，大大提高了音频共享的实时性和有效性，进而保证音频回放的质量以及实时语音识别的效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例一提供的基于智能终端的音频共享方法的流程示意图。

图2是本申请实施例二提供共享智能终端的确定方法的流程示意图。

图2-1是本申请实施例二提供声源位置与智能终端位置示意图。

图2-2是本申请实施例二提供遮挡物的遮挡区域示意图。

图3本申请实施例三提供的一种共享智能终端的确定方法的流程示意图。

图3-1是本申请实施例三提供声源位置与智能终端位置示意图。

图3-2是本申请实施例三提供的智能终端位置关系示意图。

图3-3是本申请实施例三提供的智能终端另一位置关系示意图。

图4本申请实施例提供的一种基于智能终端的音频共享装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实现的技术方案例如会议、演讲、采访以及授课等场合，智能终端使用者之间的实时音频共享。所属系统实现同一场合不同智能终端使用者之间的音频共享，以提供质量更高的音频供所有智能终端使用者进行回放甚至是进一步的语音识别等操作。

基于智能设备的音频录制主要是利用智能设备的录音装置，对会议、演讲、采访以及授课等场景说话人的内容进行同步录制，保证其所录制的音频内容涵盖整个过程。而针对音频的共享，不仅能够保证在不同时刻将不同智能设备之间最优的音频实现实时共享，避免因为障碍遮挡、距离过远或者设备故障等造成的收音质量问题，方便实现回听、实时语音识别等操作，而且可以利用不同的智能设备形成的分布式麦克风阵列，进行语音的增强操作，以进一步提高语音质量。

实施例一

参阅图1，图1提供了一种基于智能终端的音频共享方法，该方法可以由电子设备执行，该电子设备例如智能手机、平板电脑、个人电脑、服务器、云平台等等，本实施例实现的技术场景例如会议、演讲、讲课等等场景，以会议为例，该会议的局域网内具有多个智能终端，局域网内多个智能终端之间相互通信的方法，建立当前使用场地多个智能终端相互通信的渠道，同时可由任一智能终端使用者发起音频共享同步信息给该局域网内的所有智能终端设备，如手机、录音笔、智能办公本等该方法。另外，并对参与音频共享的各个智能终端进行收音时间的同步校准，保证对后续的音频共享实现时间维度信息的一致。多个智能终端是否参与音频共享可以由使用者自行选择，如图1所示，包括如下步骤：

步骤S101、获取预设场景的声源位置。

上述步骤S101的实现方法可以包括：

上述声源位置可以为固定声源位置例如固定的播音设备，还可以为移动的声源位置例如移动的讲课人。

该声源位置的确定方法可以包括：利用智能终端的摄像装置以及物体检测方法判断技术场景是否存在固定的播音设备，同时通过现有的声纹方案对人声或由播音设备发出的声音加以区分，或直接由智能设备使用者进行选择确认，从而确认现场智能设备的声源位置。声源的分类主要由是否存在移动的可能分为两种，一类是来自位置固定的播音设备、一类是来自于存在移动可能性的演讲者本人或者演讲者可移动的播音设备(如手持扩音装置等)。

步骤S102、依据所述声源位置与智能终端之间的位置关系，依据所述位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系和/或所述距离从所述预设场景的智能终端内选择共享智能终端。

上述所述位置关系和/或所述距离具体可以包括：位置关系或距离，当然也可以为位置关系和距离。例如将声源位置的正面180°角度范围(依据位置关系来获得)的智能终端确定为共享智能终端。又如将距离小于设定值的智能终端确定为共享智能终端。

例如声源位置可以区分为固定和移动两种，对于固定声源，其实现方法具体可以包括：

周期性的更新所述声源位置与智能终端之间的位置关系，依据所述位置关系获取所述声源位置与智能终端之间的距离；将距离小于距离阈值的智能终端确定为待选终端，依据待选终端之间的位置关系确定本周期的共享智能终端。

上述周期性的周期可以为固定时间，例如5分钟、10分钟、30分钟等等。

上述依据待选终端之间的位置关系确定本周期的共享智能终端具体可以包括：

遍历待选终端获取每个待选终端设定区域内的终端数量x，将x大于等于筛选阈值的待选终端确定为本周期的共享智能终端。

上述设定区域可以为以待选终端为中心设定的一个范围，例如半径R的圆形范围，当然也可以为边长L的正方形范围等等。

对于声源位置为移动的情况，上述步骤S102的实现方法可以包括：

对所述预设场景的音频进行识别得到音频识别结果，获取音频识别结果中每个音频段的时间点；在每个音频段的时间点，依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系，依据所述位置关系确定所述声源位置与智能终端之间的相对距离；依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端。

例如所述依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端具体可以包括：

依据所述智能终端的收音能力以及初始距离确定所述智能终端的距离阈值，如所述智能终端与所述声源位置的相对距离小于等于所述距离阈值，确定所述智能终端为所述共享智能终端。

上述智能终端的收音能力可以有多种表现形式，例如通过等级方式来表示，又如通过数值来表示，以等级为例，该智能终端的收音能力可以划分为10级，分别为S0-S10。对于任意两个等级之间的设备存在转换位置关系映射表可供查询。如对于S1和S3之间，相当于要达到同样的收音效果，S3所对应的智能终端与声源之间的距离关系相对于S1所对应的智能终端与声源之间的距离关系可以放宽D_S1S3长度)。

步骤S103、获取所述共享智能终端采集的音频数据，将所述音频数据确定为所述预设场景的共享音频。

上述将所述音频数据确定为所述预设场景的共享音频具体可以包括：

获取所述音频数据的音频质量，若所述音频质量小于质量阈值，将所述音频数据进行增强处理得到增强后的音频数据，将增强后的音频数据确定为所述预设场景的共享音频。

上述将所述音频数据进行增强处理得到增强后的音频数据具体包括：

如果所述共享智能终端为多个终端，利用多个终端形成的多角度声源，将所述多角度声源通过对抗网络进行处理得到增加后的音频数据。

上述对音频进行增强处理时，首先对音频质量进行判断，对于音频质量较差时，需要对接收的音频进行增强，具体增强时，可以利用多个智能终端形成的多角度声源通过对抗网络生成新的音频，从而提高最终存档音频的质量；具体过程如下所述：

对音频质量进行判断，以确定是否需要进行音频增强

因对声源是否固定的场景采用了不同的方法确定当前时刻的共享音频，尤其对于声源不固定的情况下，共享音频的片段存在过于琐碎的情况，单纯的对每一个子片段进行质量的判断容易出现判断不准确的情况。所以，本申请将步骤S103的音频数据进行质量的检测以及音频增强，总而形成更高质量的音频存档。对于声源不固定的情况，将一个音频段当作子音频段，对于声源固定的情况重新采用端点检测的方案确定子音频段。对于所有的子音频段，首先对于音频的能量小于能量阈值(E_th)或者信噪比小于信噪比阈值(SNR_th)的子音频段确认为该音频段质量较差，需要增强的音频段；然后根据音频的能量、信噪比以及识别结果的置信度等综合考量(计算出所有音频段的平均能量E_avg，平均信噪比SNR_avg以及识别结果的平均置信度CF_avg)，当该子音频段小于平均置信度CF_avg，若满足该子音频段的能量小于平均能量E_avg或者信噪比小于平均信噪比SNR_avg两者中任意一条件，则认为该音频质量较差；通过上述两种阈值判定，确定需要增强的音频段，对音频进行进一步的音频增强以提高整体音频质量。

利用多智能终端形成的多角度声源通过对抗网络生成新的音频，从而提高共享音频的质量。当确认需要进行音频增强时，利用现有的基于生成对抗网络的语音增强技术对语音进行增强。该生成对抗网络训练时利用质量较差的音频以及非平行高质量语音作为输入，经过对偶生成网络，对质量较差的音频输出以及高质量语音的输出经过判别器进行区分，以及对高质量语音的输出与高质量语音本生经过判别器进行区分。测试时即首先将不同智能终端设备所收录的音频作为输入，经过神经网络将输出作为对抗神经网络的输入，经过生成网络生成增强后的语音。

上述方法在步骤S103之后还可以包括：对产生的实时共享音频，利用局域网将该音频实时共享给其他智能终端设备以供实时的语音识别与进一步的回听等；同时，将选中的各个智能终端反馈的音频或者进行增强后的音频片段备份形成完整的现场音频留存以供存档。

本申请提供的技术方案能够实现高质量音频在不同智能终端以及参会人员之间的共享，具体地，本申请的技术方案依据声源位置和/或距离从预设场景的智能终端中选择符合条件的终端组成共享智能终端，然后通过共享智能终端采集音频数据，并将该音频数据作为共享音频，因为本申请的技术方案不局限与具体的录音设备，因此能够提高录音的效果。另外本申请的技术方案结合会议、演讲、采访或者授课等使用场景中较为普及的智能终端设备，对录制音频进行实时有效的监控以及处理，从而实现录制音频的实时处理，大大提高了音频共享的实时性和有效性，进而保证音频回放的质量以及实时语音识别的效果。

实施例二

本申请实施例二为实施例一的步骤S102的细化方案，本实施例主要针对声源位置为移动场景的情况，本申请实施例提供了一种共享智能终端的确定方法，该方法如图2所示，包括如下步骤：

步骤S201、确定声源位置与智能终端之间位置关系的计算时间点。

其具体的实现方法可以为：

因需要对音频进行实时共享，而分享的音频段需要是一个相对独立的语音段。同时，因为声源位置(以演讲者为例)与智能终端之间的位置关系和/或距离存在变化的可能性，选取哪一个智能终端录制的音频作为分享的音频需要动态调整，即需要在每一次语音段结束的时候进行位置关系的动态更新。所以，首先需要确定进行位置更新的时间点(即计算时间点)。

对持续收集的音频利用端点检测技术结合强制切分策略实时确定说话人音频段的结束点，即从T₀时刻开始进行端点检测，当T₁时刻通过端点检测确认为音频结束点(即音频段的时间点)，且该音频段(T₁-T₀)小于强制切分的阈值T_th(阈值根据场景确定，如一般演讲场景强制切分的阈值为10s，多人对话的场景为15s等)，则将T₁时刻作为第n个语音段的起始时刻T_begin-n以及第n-1个语音段的结束时刻T_end-n-1；当音频段超过强制切分的阈值T_th时且端点检测未发现明显的结束点时候，调整端点结束的策略，降低端点结束的要求(如调整连续出现静音帧的时间阈值)，使音频段尽快满足结束的条件，如在T₂时刻满足音频结束的条件，则将T_2p时刻作为第n个语音段的起始时刻T_begin-n以及第n-1个语音段的结束时刻T_end-n-1。音频实时共享的时间段为T_begin-n到T_end-n，位置关系实时计算的时间点为T_begin。

步骤S202、依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系，依据所述位置关系确定所述声源位置与智能终端之间的相对距离，依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端。

对于声源确认为存在移动可能性的演讲者本人(声源位置)或者演讲者可移动的播音设备(声源位置)的情况，可认为由声源距离智能终端的绝对位置距离关系以及该智能终端收音设备等级所对应的转换距离关系，决定了任意智能终端与演讲者之间的相对位置距离关系。该相对位置距离越小，则认为该智能终端收音的质量越好，即可以将该智能终端选作收音设备(共享智能终端)，其录制的音频作为实时共享音频。具体的计算方式为：

D_i＝D_real-i+D_sxsi (1)

其中，sx表示参与音频共享的所有智能终端设备中收音评级最高(收音能力最高)的智能终端所对应的等级，si表示当前智能终端设备所对应的收音评级。D_sxsi可以由不同等级之间的位置关系转换表自动查询得到。D_real-i表示声源位置与智能终端的绝对位置距离。绝对位置距离可以通过目标跟踪算法确定演讲者在会场等场合的实时位置，即根据确定的位置关系定位时间点T_begin-n重新进行第n次演讲者位置定位，若第n次演讲者位置关系与第n-1次演讲者位置相同，则不需要重新进行位置关系计算，若第n次演讲者位置关系与第n-1次演讲者位置发生了变化，则需要重新计算演讲者与终端之间的绝对位置距离。

下面以一个实际的例子来说明，如图2-1演讲者与智能终端的位置关系示意图所示，当演讲者保持在位置PA时，综合考虑智能终端设备信息以及绝对距离关系，利用式(1)对设备D{1..8}分别计算其与演讲者之间的相对距离为W{1..8}。对W{1..8}按照相对位置关系由小到大确定被选为收音设备的候选设备方案，如依此为{D1,D3,D2，D5…}，当前设备D1距离演讲者的相对位置关系最近，则认为智能设备D1当前时刻作为被选中的智能终端设备最为合适，D3被选中的智能终端设备，其次，依次类推；当演讲者从位置PA走到位置PB的时候，重新利用式(1)对设备D{1..8}分别计算其与演讲者之间的相对距离，若当前设备D8距离演讲者的相对位置最近，按照位置关系确定候选方案依此为{D8，D7，D5，D6…}；根据是否存在走动产生的距离关系变化以及不同智能终端设备间的收音效果差距综合考量，确认作为收音设备的智能终端候选方案。

步骤S203、获取所述预设场景的障碍物，依据所述声源移动轨迹确定所述声源位置与所述障碍物之间的位置关系，依据所述位置关系确定所述障碍物的遮挡区域，将所述遮挡区域内的智能终端从所述共享智能终端内删除。

具体可以包括：

因在实际场景中，存在有因为明显遮挡等情况造成的收音效果问题，利用现有的具有遮挡感知机制的实时视觉目标跟踪算法，判断智能终端设备与演讲者之间是否存在明显的障碍物遮挡情况。如图2-2演讲者与智能终端的位置关系遮挡判断示意图，当演讲者从位置PA走到位置PB的时候，障碍物会对智能终端D6产生比较严重的影响(即D6处于遮挡区域)，所以需要根据判断出来的目标遮挡排除掉智能终端设备D6；若不存在遮挡，则保持原候选方案，在此基础上，确定用来作为收音设备的智能终端以及备选终端。如果当前作为收音设备的智能终端存在收音故障时，及时进行备选收音设备的切换，如当前时刻确定的智能设备候选方案依此为{D8，D7，D5，D6…}，如果当前D8发生收音故障，则选择D7作为当前的智能终端收音设备。最终，将选择的收音终端T_begin-n到T_end-n时间段内的音频，在局域网内实时发送给其他智能终端，作为共享的音频。，而将[T_begin-n，T_end-n,]段内的音频作为最终整合的音频段，最终将每个时间段的音频串联拼接在一起，作为完成的共享音频段。

本实施例提供的方案对现场是否存在针对演讲者或者发言人进行判断确定声源位置固定时，实时判断当前演讲者与智能终端之间的位置关系以及是否存在明显遮挡等其他因素影响音频质量，从而确定最优的智能终端作为收音设备，较好的收音设备保证了录制音频的质量，因此本实施例的方案能够提高音频的质量。

实施例三

参阅图3，本申请实施例二为实施例一的步骤S102的细化方案，本实施例主要针对声源位置为固定场景的情况，本申请实施例提供了一种共享智能终端的确定方法，该方法如图3所示，包括如下步骤：

步骤S301、确定声源的位置并确认智能终端距离声源的位置关系。

基于声源定位方法确认声源的位置。因为声源与智能终端设备之间的位置关系相对确定，例如图3-1)，综合考量不同智能终端设备间的收音效果差距以及声源与智能终端之间的绝对位置关系，计算不同的智能终端设备D{1..8}与不同播音设备M{A,B}之间的相对位置关系W{A1，...，A8，B1，...，B8}，与声源不固定的位置关系的区别就是该场景下位置关系固定，基本上不需要更新，除非参与音频共享的智能终端使用者中途发生位置关系的变化，但因为该场景下的共享音频采用下述分布式阵列的方案，影响相对较小，所以可以考虑周期性的更新，该周期可以为一个时间段(如半个小时、10分钟)进行位置关系、距离的更新，该位置关系、更新可以用来对步骤S302的共享智能终端个体的挑选和排除。

步骤S302、确定智能终端设备的分布情况并构建终端阵列，依据该终端阵列中各个终端之间的位置关系来确定共享智能终端。

上述步骤的实现方法具体可以包括：

确定智能终端设备的分布情况。每一个智能终端设备均构建以其自身为圆心的区域，如图3-2所示，以D2设备为圆心构建半径为R的区域C2，如图3-3，以D4设备为圆心构建半径为R的区域C4，其中半径R一般由当前核心设备距离声源的相对位置关系确定，如D2距离声源的位置距离，确认为{A2，B2}，其中A2<B2，则以A2/2为半径R(上述半径R还可以通过其他方式来确定，当然在实际应用中，也可以为正方形、矩阵等其他的形状)。对于D2所构建的区域C2包含智能终端设备D{1,2,3,4},对于D4所构建的区域C4包含智能终端设备D{2,3,4,5,6}。依次类推，每一个智能终端设备均确定本身的区域。当同一区域的智能终端设备超过筛选阈值N_th时则认为其符合条件(下述使用的基于现有的ad-hoc分布式阵列网络的语音增强算法本身对参与计算的设备的数量不做限制，但是考虑到计算量带来的实时性延迟，以实际使用环境中智能终端设备的真实数量情况，且当设备过于密集时不需要使用全部设备，N_th的选择根据智能终端总数量进行划定，当设备总数Dnum<30时，N_th选择3即可，当设备总数D_num>30时，N_th选择>Dnum/10的最小整数即可)。通过N_th的设置筛选出符合条件的所有智能设备所对应的区域。如当Nth＝3时，则C2,C4均符合条件，即将C2、C4确定为共享智能终端。然后根据符合条件的阵列区域中每个智能终端距离播音设备的平均相对距离的大小确定作为分布式麦克风阵列网络的区域。平均分布距离可以由智能终端距离声源的位置关系确定，即对该区域内的所有智能终端的相对位置距离按照从小到大排列，并选择前N_th个距离小的设备取平均作为平均距离分布，进而利用前N_th个距离小的设备构建的分布式网络，基于现有的ad-hoc分布式麦克风阵列网络的语音增强算法生成新的音频作为共享音频。

本申请提供的技术方案针对固定声源位置，确定声源的位置，并且根据智能终端距离声源的位置关系以及智能终端设备的分布情况构建阵列以选择符合要求的智能终端，采集该智能终端的音频数据以生成高质量语音，因此本申请实施例提供的技术方案具有提高音频质量的优点。

参阅图4，图4提供了一种基于智能终端的音频共享装置，所述装置包括：

获取单元，用于获取预设场景的声源位置；

采集单元，用于获取所述共享智能终端采集的音频数据；

例如处理单元，具体用于周期性的更新所述声源位置与智能终端之间的位置关系，依据所述位置关系获取所述声源位置与智能终端之间的距离；将距离小于距离阈值的智能终端确定为待选终端，依据待选终端之间的位置关系确定本周期的共享智能终端。

例如处理单元，具体用于遍历待选终端获取每个待选终端设定区域内的终端数量x，将x大于等于筛选阈值的待选终端确定为本周期的共享智能终端。

例如处理单元，具体用于若所述声源位置移动，对所述预设场景的音频进行识别得到音频识别结果，获取音频识别结果中每个音频段的时间点；在每个音频段的时间点，依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系，依据所述位置关系确定所述声源位置与智能终端之间的相对距离；依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端。

例如处理单元，具体用于依据所述智能终端的收音能力以及初始距离确定所述智能终端的距离阈值，如所述智能终端与所述声源位置的相对距离小于等于所述距离阈值，确定所述智能终端为所述共享智能终端。

例如处理单元，还用于获取所述预设场景的障碍物，依据所述声源移动轨迹确定所述声源位置与所述障碍物之间的位置关系，依据所述位置关系确定所述障碍物的遮挡区域，将所述遮挡区域内的智能终端从所述共享智能终端内删除。

例如处理单元，具体用于获取所述音频数据的音频质量，若所述音频质量小于质量阈值，将所述音频数据进行增强处理得到增强后的音频数据，将增强后的音频数据确定为所述预设场景的共享音频。

例如处理单元，具体用于如果所述共享智能终端为多个终端，利用多个终端形成的多角度声源，将所述多角度声源通过对抗网络进行处理得到增加后的音频数据。

本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括电子设备。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括电子设备。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种基于智能终端的音频共享方法，其特征在于，所述方法包括如下步骤：

获取预设场景的声源位置；

依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系和所述距离从所述预设场景的智能终端内选择共享智能终端；

获取所述共享智能终端采集的音频数据，将所述音频数据确定为所述预设场景的共享音频；具体包括：

获取所述音频数据的音频质量，若所述音频质量小于质量阈值，将所述音频数据进行增强处理得到增强后的音频数据，将增强后的音频数据确定为所述预设场景的共享音频；

若所述声源位置移动，所述依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系和所述距离从所述预设场景的智能终端内选择共享智能终端具体包括：

对所述预设场景的音频进行识别得到音频识别结果，获取音频识别结果中每个音频段的时间点；对持续收集的音频利用端点检测技术结合强制切分策略实时确定说话人音频段的结束点；

在每个音频段的时间点，依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系，依据所述位置关系确定所述声源位置与智能终端之间的相对距离；

依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端；

所述智能终端与所述声源位置的相对距离小于等于所述距离阈值。

2.根据权利要求1所述的方法，其特征在于，所述依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端具体包括：

依据所述智能终端的收音能力以及初始距离确定所述智能终端的距离阈值，所述智能终端与所述声源位置的相对距离小于等于所述距离阈值，确定所述智能终端为所述共享智能终端。

3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

获取所述预设场景的障碍物，依据所述声源移动轨迹确定所述声源位置与所述障碍物之间的位置关系，依据所述位置关系确定所述障碍物的遮挡区域，将所述遮挡区域内的智能终端从所述共享智能终端内删除。

4.根据权利要求1所述的方法，其特征在于，所述将所述音频数据进行增强处理得到增强后的音频数据具体包括：

5.一种基于智能终端的音频共享装置，其特征在于，所述装置包括：

获取单元，用于获取预设场景的声源位置；

处理单元，用于依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系以及所述距离从所述预设场景的智能终端内选择共享智能终端；

采集单元，用于获取所述共享智能终端采集的音频数据；

所述处理单元，还用于将所述音频数据确定为所述预设场景的共享音频；具体包括：

若所述声源位置移动，所述处理单元，具体用于对所述预设场景的音频进行识别得到音频识别结果，获取音频识别结果中每个音频段的时间点；对持续收集的音频利用端点检测技术结合强制切分策略实时确定说话人音频段的结束点；在每个音频段的时间点，依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系，依据所述位置关系确定所述声源位置与智能终端之间的相对距离；依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端；

6.一种基于智能终端的音频共享方法，其特征在于，所述方法包括如下步骤：

获取预设场景的声源位置；

获取所述共享智能终端采集的音频数据，将所述音频数据确定为所述预设场景的共享音频；

若所述声源位置固定，所述依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离，依据所述位置关系和所述距离从所述预设场景的智能终端内选择共享智能终端具体包括：

周期性的更新所述声源位置与智能终端之间的位置关系，依据所述位置关系获取所述声源位置与智能终端之间的距离；

将距离小于距离阈值的智能终端确定为待选终端，依据待选终端之间的位置关系确定本周期的共享智能终端；所述依据待选终端之间的位置关系确定本周期的共享智能终端具体包括：

7.一种计算机可读存储介质，其特征在于，存储用于电子数据交换的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1-4任一项所述的方法、如权利要求6所述的方法所述的方法。