CN111131616B - 基于智能终端的音频共享方法及相关装置 - Google Patents

基于智能终端的音频共享方法及相关装置 Download PDF

Info

Publication number
CN111131616B
CN111131616B CN201911383922.4A CN201911383922A CN111131616B CN 111131616 B CN111131616 B CN 111131616B CN 201911383922 A CN201911383922 A CN 201911383922A CN 111131616 B CN111131616 B CN 111131616B
Authority
CN
China
Prior art keywords
intelligent terminal
audio
sound source
distance
terminals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911383922.4A
Other languages
English (en)
Other versions
CN111131616A (zh
Inventor
万根顺
高建清
王智国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201911383922.4A priority Critical patent/CN111131616B/zh
Publication of CN111131616A publication Critical patent/CN111131616A/zh
Application granted granted Critical
Publication of CN111131616B publication Critical patent/CN111131616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72448User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions
    • H04M1/72457User interfaces specially adapted for cordless or mobile telephones with means for adapting the functionality of the device according to specific conditions according to geographic location
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/7243User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages
    • H04M1/72433User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality with interactive means for internal management of messages for voice messaging, e.g. dictaphones
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Telephone Function (AREA)

Abstract

本申请实施例公开了一种基于智能终端的音频共享方法及相关装置,所述方法包括:获取预设场景的声源位置;依据所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和/或所述距离从所述预设场景的智能终端内选择共享智能终端;获取所述共享智能终端采集的音频数据,将所述音频数据确定为所述预设场景的共享音频。本申请提供的技术方案具有提高音频数量的优点。

Description

基于智能终端的音频共享方法及相关装置
技术领域
本申请涉及音频技术领域,具体涉及一种基于智能终端的音频共享方法及相关装置。
背景技术
现有的音频共享一般都是在会议、演讲、采访或者授课等使用场景音频录制结束之后,以特定设备所录制的音频进行分享以实现参会者对音频的回放收听,或者进一步的语音识别以实现相应的文案整理;若需要实时进行音频结果反馈,需要在音频录制过程中,通过当前设备收录的音频进行实时语音识别,以提供相应的参考识别结果给智能终端使用者进行实时整理,辅助参会人员形成及时有效的会议反馈等。
现有的音频共享方法,需要提供特定的设备进行音频录制以保证录制质量,并且需要额外工作人员对录音进行实时监控,无法实现音频的实时共享;若需要在音频录制过程中实时提供识别结果以实现文案整理等,需要保证当前设备收录的音频质量,一般当前设备音频收录出现问题时,将对识别结果造成严重影响,进而影响用户体验。
发明内容
本申请实施例提供了一种基于智能终端的音频共享及相关装置,以期提高音频收录的质量。
第一方面,提供一种基于智能终端的音频共享方法,其特征在于,所述方法包括如下步骤:
获取预设场景的声源位置;
依据所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和/或所述距离从所述预设场景的智能终端内选择共享智能终端;
获取所述共享智能终端采集的音频数据,将所述音频数据确定为所述预设场景的共享音频。
第二方面,提供基于智能终端的音频共享装置,其特征在于,所述装置包括:
获取单元,用于获取预设场景的声源位置;
处理单元,用于依据所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系以及所述距离从所述预设场景的智能终端内选择共享智能终端;
采集单元,用于获取所述共享智能终端采集的音频数据;
所述处理单元,还用于将所述音频数据确定为所述预设场景的共享音频。
第三方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。
第四方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。
可以看出,本申请提供的技术方案能够实现高质量音频在不同智能终端以及参会人员之间的共享,具体地,本申请的技术方案依据声源位置和/或距离从预设场景的智能终端中选择符合条件的终端组成共享智能终端,然后通过共享智能终端采集音频数据,并将该音频数据作为共享音频,因为本申请的技术方案不局限与具体的录音设备,因此能够提高录音的效果。另外本申请的技术方案结合会议、演讲、采访或者授课等使用场景中较为普及的智能终端设备,对录制音频进行实时有效的监控以及处理,从而实现录制音频的实时处理,大大提高了音频共享的实时性和有效性,进而保证音频回放的质量以及实时语音识别的效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例一提供的基于智能终端的音频共享方法的流程示意图。
图2是本申请实施例二提供共享智能终端的确定方法的流程示意图。
图2-1是本申请实施例二提供声源位置与智能终端位置示意图。
图2-2是本申请实施例二提供遮挡物的遮挡区域示意图。
图3本申请实施例三提供的一种共享智能终端的确定方法的流程示意图。
图3-1是本申请实施例三提供声源位置与智能终端位置示意图。
图3-2是本申请实施例三提供的智能终端位置关系示意图。
图3-3是本申请实施例三提供的智能终端另一位置关系示意图。
图4本申请实施例提供的一种基于智能终端的音频共享装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实现的技术方案例如会议、演讲、采访以及授课等场合,智能终端使用者之间的实时音频共享。所属系统实现同一场合不同智能终端使用者之间的音频共享,以提供质量更高的音频供所有智能终端使用者进行回放甚至是进一步的语音识别等操作。
基于智能设备的音频录制主要是利用智能设备的录音装置,对会议、演讲、采访以及授课等场景说话人的内容进行同步录制,保证其所录制的音频内容涵盖整个过程。而针对音频的共享,不仅能够保证在不同时刻将不同智能设备之间最优的音频实现实时共享,避免因为障碍遮挡、距离过远或者设备故障等造成的收音质量问题,方便实现回听、实时语音识别等操作,而且可以利用不同的智能设备形成的分布式麦克风阵列,进行语音的增强操作,以进一步提高语音质量。
实施例一
参阅图1,图1提供了一种基于智能终端的音频共享方法,该方法可以由电子设备执行,该电子设备例如智能手机、平板电脑、个人电脑、服务器、云平台等等,本实施例实现的技术场景例如会议、演讲、讲课等等场景,以会议为例,该会议的局域网内具有多个智能终端,局域网内多个智能终端之间相互通信的方法,建立当前使用场地多个智能终端相互通信的渠道,同时可由任一智能终端使用者发起音频共享同步信息给该局域网内的所有智能终端设备,如手机、录音笔、智能办公本等该方法。另外,并对参与音频共享的各个智能终端进行收音时间的同步校准,保证对后续的音频共享实现时间维度信息的一致。多个智能终端是否参与音频共享可以由使用者自行选择,如图1所示,包括如下步骤:
步骤S101、获取预设场景的声源位置。
上述步骤S101的实现方法可以包括:
上述声源位置可以为固定声源位置例如固定的播音设备,还可以为移动的声源位置例如移动的讲课人。
该声源位置的确定方法可以包括:利用智能终端的摄像装置以及物体检测方法判断技术场景是否存在固定的播音设备,同时通过现有的声纹方案对人声或由播音设备发出的声音加以区分,或直接由智能设备使用者进行选择确认,从而确认现场智能设备的声源位置。声源的分类主要由是否存在移动的可能分为两种,一类是来自位置固定的播音设备、一类是来自于存在移动可能性的演讲者本人或者演讲者可移动的播音设备(如手持扩音装置等)。
步骤S102、依据所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和/或所述距离从所述预设场景的智能终端内选择共享智能终端。
上述所述位置关系和/或所述距离具体可以包括:位置关系或距离,当然也可以为位置关系和距离。例如将声源位置的正面180°角度范围(依据位置关系来获得)的智能终端确定为共享智能终端。又如将距离小于设定值的智能终端确定为共享智能终端。
例如声源位置可以区分为固定和移动两种,对于固定声源,其实现方法具体可以包括:
周期性的更新所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离;将距离小于距离阈值的智能终端确定为待选终端,依据待选终端之间的位置关系确定本周期的共享智能终端。
上述周期性的周期可以为固定时间,例如5分钟、10分钟、30分钟等等。
上述依据待选终端之间的位置关系确定本周期的共享智能终端具体可以包括:
遍历待选终端获取每个待选终端设定区域内的终端数量x,将x大于等于筛选阈值的待选终端确定为本周期的共享智能终端。
上述设定区域可以为以待选终端为中心设定的一个范围,例如半径R的圆形范围,当然也可以为边长L的正方形范围等等。
对于声源位置为移动的情况,上述步骤S102的实现方法可以包括:
对所述预设场景的音频进行识别得到音频识别结果,获取音频识别结果中每个音频段的时间点;在每个音频段的时间点,依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系,依据所述位置关系确定所述声源位置与智能终端之间的相对距离;依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端。
例如所述依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端具体可以包括:
依据所述智能终端的收音能力以及初始距离确定所述智能终端的距离阈值,如所述智能终端与所述声源位置的相对距离小于等于所述距离阈值,确定所述智能终端为所述共享智能终端。
上述智能终端的收音能力可以有多种表现形式,例如通过等级方式来表示,又如通过数值来表示,以等级为例,该智能终端的收音能力可以划分为10级,分别为S0-S10。对于任意两个等级之间的设备存在转换位置关系映射表可供查询。如对于S1和S3之间,相当于要达到同样的收音效果,S3所对应的智能终端与声源之间的距离关系相对于S1所对应的智能终端与声源之间的距离关系可以放宽DS1S3长度)。
步骤S103、获取所述共享智能终端采集的音频数据,将所述音频数据确定为所述预设场景的共享音频。
上述将所述音频数据确定为所述预设场景的共享音频具体可以包括:
获取所述音频数据的音频质量,若所述音频质量小于质量阈值,将所述音频数据进行增强处理得到增强后的音频数据,将增强后的音频数据确定为所述预设场景的共享音频。
上述将所述音频数据进行增强处理得到增强后的音频数据具体包括:
如果所述共享智能终端为多个终端,利用多个终端形成的多角度声源,将所述多角度声源通过对抗网络进行处理得到增加后的音频数据。
上述对音频进行增强处理时,首先对音频质量进行判断,对于音频质量较差时,需要对接收的音频进行增强,具体增强时,可以利用多个智能终端形成的多角度声源通过对抗网络生成新的音频,从而提高最终存档音频的质量;具体过程如下所述:
对音频质量进行判断,以确定是否需要进行音频增强
因对声源是否固定的场景采用了不同的方法确定当前时刻的共享音频,尤其对于声源不固定的情况下,共享音频的片段存在过于琐碎的情况,单纯的对每一个子片段进行质量的判断容易出现判断不准确的情况。所以,本申请将步骤S103的音频数据进行质量的检测以及音频增强,总而形成更高质量的音频存档。对于声源不固定的情况,将一个音频段当作子音频段,对于声源固定的情况重新采用端点检测的方案确定子音频段。对于所有的子音频段,首先对于音频的能量小于能量阈值(Eth)或者信噪比小于信噪比阈值(SNRth)的子音频段确认为该音频段质量较差,需要增强的音频段;然后根据音频的能量、信噪比以及识别结果的置信度等综合考量(计算出所有音频段的平均能量Eavg,平均信噪比SNRavg以及识别结果的平均置信度CFavg),当该子音频段小于平均置信度CFavg,若满足该子音频段的能量小于平均能量Eavg或者信噪比小于平均信噪比SNRavg两者中任意一条件,则认为该音频质量较差;通过上述两种阈值判定,确定需要增强的音频段,对音频进行进一步的音频增强以提高整体音频质量。
利用多智能终端形成的多角度声源通过对抗网络生成新的音频,从而提高共享音频的质量。当确认需要进行音频增强时,利用现有的基于生成对抗网络的语音增强技术对语音进行增强。该生成对抗网络训练时利用质量较差的音频以及非平行高质量语音作为输入,经过对偶生成网络,对质量较差的音频输出以及高质量语音的输出经过判别器进行区分,以及对高质量语音的输出与高质量语音本生经过判别器进行区分。测试时即首先将不同智能终端设备所收录的音频作为输入,经过神经网络将输出作为对抗神经网络的输入,经过生成网络生成增强后的语音。
上述方法在步骤S103之后还可以包括:对产生的实时共享音频,利用局域网将该音频实时共享给其他智能终端设备以供实时的语音识别与进一步的回听等;同时,将选中的各个智能终端反馈的音频或者进行增强后的音频片段备份形成完整的现场音频留存以供存档。
本申请提供的技术方案能够实现高质量音频在不同智能终端以及参会人员之间的共享,具体地,本申请的技术方案依据声源位置和/或距离从预设场景的智能终端中选择符合条件的终端组成共享智能终端,然后通过共享智能终端采集音频数据,并将该音频数据作为共享音频,因为本申请的技术方案不局限与具体的录音设备,因此能够提高录音的效果。另外本申请的技术方案结合会议、演讲、采访或者授课等使用场景中较为普及的智能终端设备,对录制音频进行实时有效的监控以及处理,从而实现录制音频的实时处理,大大提高了音频共享的实时性和有效性,进而保证音频回放的质量以及实时语音识别的效果。
实施例二
本申请实施例二为实施例一的步骤S102的细化方案,本实施例主要针对声源位置为移动场景的情况,本申请实施例提供了一种共享智能终端的确定方法,该方法如图2所示,包括如下步骤:
步骤S201、确定声源位置与智能终端之间位置关系的计算时间点。
其具体的实现方法可以为:
因需要对音频进行实时共享,而分享的音频段需要是一个相对独立的语音段。同时,因为声源位置(以演讲者为例)与智能终端之间的位置关系和/或距离存在变化的可能性,选取哪一个智能终端录制的音频作为分享的音频需要动态调整,即需要在每一次语音段结束的时候进行位置关系的动态更新。所以,首先需要确定进行位置更新的时间点(即计算时间点)。
对持续收集的音频利用端点检测技术结合强制切分策略实时确定说话人音频段的结束点,即从T0时刻开始进行端点检测,当T1时刻通过端点检测确认为音频结束点(即音频段的时间点),且该音频段(T1-T0)小于强制切分的阈值Tth(阈值根据场景确定,如一般演讲场景强制切分的阈值为10s,多人对话的场景为15s等),则将T1时刻作为第n个语音段的起始时刻Tbegin-n以及第n-1个语音段的结束时刻Tend-n-1;当音频段超过强制切分的阈值Tth时且端点检测未发现明显的结束点时候,调整端点结束的策略,降低端点结束的要求(如调整连续出现静音帧的时间阈值),使音频段尽快满足结束的条件,如在T2时刻满足音频结束的条件,则将T2p时刻作为第n个语音段的起始时刻Tbegin-n以及第n-1个语音段的结束时刻Tend-n-1。音频实时共享的时间段为Tbegin-n到Tend-n,位置关系实时计算的时间点为Tbegin
步骤S202、依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系,依据所述位置关系确定所述声源位置与智能终端之间的相对距离,依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端。
对于声源确认为存在移动可能性的演讲者本人(声源位置)或者演讲者可移动的播音设备(声源位置)的情况,可认为由声源距离智能终端的绝对位置距离关系以及该智能终端收音设备等级所对应的转换距离关系,决定了任意智能终端与演讲者之间的相对位置距离关系。该相对位置距离越小,则认为该智能终端收音的质量越好,即可以将该智能终端选作收音设备(共享智能终端),其录制的音频作为实时共享音频。具体的计算方式为:
Di=Dreal-i+Dsxsi (1)
其中,sx表示参与音频共享的所有智能终端设备中收音评级最高(收音能力最高)的智能终端所对应的等级,si表示当前智能终端设备所对应的收音评级。Dsxsi可以由不同等级之间的位置关系转换表自动查询得到。Dreal-i表示声源位置与智能终端的绝对位置距离。绝对位置距离可以通过目标跟踪算法确定演讲者在会场等场合的实时位置,即根据确定的位置关系定位时间点Tbegin-n重新进行第n次演讲者位置定位,若第n次演讲者位置关系与第n-1次演讲者位置相同,则不需要重新进行位置关系计算,若第n次演讲者位置关系与第n-1次演讲者位置发生了变化,则需要重新计算演讲者与终端之间的绝对位置距离。
下面以一个实际的例子来说明,如图2-1演讲者与智能终端的位置关系示意图所示,当演讲者保持在位置PA时,综合考虑智能终端设备信息以及绝对距离关系,利用式(1)对设备D{1..8}分别计算其与演讲者之间的相对距离为W{1..8}。对W{1..8}按照相对位置关系由小到大确定被选为收音设备的候选设备方案,如依此为{D1,D3,D2,D5…},当前设备D1距离演讲者的相对位置关系最近,则认为智能设备D1当前时刻作为被选中的智能终端设备最为合适,D3被选中的智能终端设备,其次,依次类推;当演讲者从位置PA走到位置PB的时候,重新利用式(1)对设备D{1..8}分别计算其与演讲者之间的相对距离,若当前设备D8距离演讲者的相对位置最近,按照位置关系确定候选方案依此为{D8,D7,D5,D6…};根据是否存在走动产生的距离关系变化以及不同智能终端设备间的收音效果差距综合考量,确认作为收音设备的智能终端候选方案。
步骤S203、获取所述预设场景的障碍物,依据所述声源移动轨迹确定所述声源位置与所述障碍物之间的位置关系,依据所述位置关系确定所述障碍物的遮挡区域,将所述遮挡区域内的智能终端从所述共享智能终端内删除。
具体可以包括:
因在实际场景中,存在有因为明显遮挡等情况造成的收音效果问题,利用现有的具有遮挡感知机制的实时视觉目标跟踪算法,判断智能终端设备与演讲者之间是否存在明显的障碍物遮挡情况。如图2-2演讲者与智能终端的位置关系遮挡判断示意图,当演讲者从位置PA走到位置PB的时候,障碍物会对智能终端D6产生比较严重的影响(即D6处于遮挡区域),所以需要根据判断出来的目标遮挡排除掉智能终端设备D6;若不存在遮挡,则保持原候选方案,在此基础上,确定用来作为收音设备的智能终端以及备选终端。如果当前作为收音设备的智能终端存在收音故障时,及时进行备选收音设备的切换,如当前时刻确定的智能设备候选方案依此为{D8,D7,D5,D6…},如果当前D8发生收音故障,则选择D7作为当前的智能终端收音设备。最终,将选择的收音终端Tbegin-n到Tend-n时间段内的音频,在局域网内实时发送给其他智能终端,作为共享的音频。,而将[Tbegin-n,Tend-n,]段内的音频作为最终整合的音频段,最终将每个时间段的音频串联拼接在一起,作为完成的共享音频段。
本实施例提供的方案对现场是否存在针对演讲者或者发言人进行判断确定声源位置固定时,实时判断当前演讲者与智能终端之间的位置关系以及是否存在明显遮挡等其他因素影响音频质量,从而确定最优的智能终端作为收音设备,较好的收音设备保证了录制音频的质量,因此本实施例的方案能够提高音频的质量。
实施例三
参阅图3,本申请实施例二为实施例一的步骤S102的细化方案,本实施例主要针对声源位置为固定场景的情况,本申请实施例提供了一种共享智能终端的确定方法,该方法如图3所示,包括如下步骤:
步骤S301、确定声源的位置并确认智能终端距离声源的位置关系。
基于声源定位方法确认声源的位置。因为声源与智能终端设备之间的位置关系相对确定,例如图3-1),综合考量不同智能终端设备间的收音效果差距以及声源与智能终端之间的绝对位置关系,计算不同的智能终端设备D{1..8}与不同播音设备M{A,B}之间的相对位置关系W{A1,...,A8,B1,...,B8},与声源不固定的位置关系的区别就是该场景下位置关系固定,基本上不需要更新,除非参与音频共享的智能终端使用者中途发生位置关系的变化,但因为该场景下的共享音频采用下述分布式阵列的方案,影响相对较小,所以可以考虑周期性的更新,该周期可以为一个时间段(如半个小时、10分钟)进行位置关系、距离的更新,该位置关系、更新可以用来对步骤S302的共享智能终端个体的挑选和排除。
步骤S302、确定智能终端设备的分布情况并构建终端阵列,依据该终端阵列中各个终端之间的位置关系来确定共享智能终端。
上述步骤的实现方法具体可以包括:
确定智能终端设备的分布情况。每一个智能终端设备均构建以其自身为圆心的区域,如图3-2所示,以D2设备为圆心构建半径为R的区域C2,如图3-3,以D4设备为圆心构建半径为R的区域C4,其中半径R一般由当前核心设备距离声源的相对位置关系确定,如D2距离声源的位置距离,确认为{A2,B2},其中A2<B2,则以A2/2为半径R(上述半径R还可以通过其他方式来确定,当然在实际应用中,也可以为正方形、矩阵等其他的形状)。对于D2所构建的区域C2包含智能终端设备D{1,2,3,4},对于D4所构建的区域C4包含智能终端设备D{2,3,4,5,6}。依次类推,每一个智能终端设备均确定本身的区域。当同一区域的智能终端设备超过筛选阈值Nth时则认为其符合条件(下述使用的基于现有的ad-hoc分布式阵列网络的语音增强算法本身对参与计算的设备的数量不做限制,但是考虑到计算量带来的实时性延迟,以实际使用环境中智能终端设备的真实数量情况,且当设备过于密集时不需要使用全部设备,Nth的选择根据智能终端总数量进行划定,当设备总数Dnum<30时,Nth选择3即可,当设备总数Dnum>30时,Nth选择>Dnum/10的最小整数即可)。通过Nth的设置筛选出符合条件的所有智能设备所对应的区域。如当Nth=3时,则C2,C4均符合条件,即将C2、C4确定为共享智能终端。然后根据符合条件的阵列区域中每个智能终端距离播音设备的平均相对距离的大小确定作为分布式麦克风阵列网络的区域。平均分布距离可以由智能终端距离声源的位置关系确定,即对该区域内的所有智能终端的相对位置距离按照从小到大排列,并选择前Nth个距离小的设备取平均作为平均距离分布,进而利用前Nth个距离小的设备构建的分布式网络,基于现有的ad-hoc分布式麦克风阵列网络的语音增强算法生成新的音频作为共享音频。
本申请提供的技术方案针对固定声源位置,确定声源的位置,并且根据智能终端距离声源的位置关系以及智能终端设备的分布情况构建阵列以选择符合要求的智能终端,采集该智能终端的音频数据以生成高质量语音,因此本申请实施例提供的技术方案具有提高音频质量的优点。
参阅图4,图4提供了一种基于智能终端的音频共享装置,所述装置包括:
获取单元,用于获取预设场景的声源位置;
处理单元,用于依据所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系以及所述距离从所述预设场景的智能终端内选择共享智能终端;
采集单元,用于获取所述共享智能终端采集的音频数据;
所述处理单元,还用于将所述音频数据确定为所述预设场景的共享音频。
本申请提供的技术方案能够实现高质量音频在不同智能终端以及参会人员之间的共享,具体地,本申请的技术方案依据声源位置和/或距离从预设场景的智能终端中选择符合条件的终端组成共享智能终端,然后通过共享智能终端采集音频数据,并将该音频数据作为共享音频,因为本申请的技术方案不局限与具体的录音设备,因此能够提高录音的效果。另外本申请的技术方案结合会议、演讲、采访或者授课等使用场景中较为普及的智能终端设备,对录制音频进行实时有效的监控以及处理,从而实现录制音频的实时处理,大大提高了音频共享的实时性和有效性,进而保证音频回放的质量以及实时语音识别的效果。
例如处理单元,具体用于周期性的更新所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离;将距离小于距离阈值的智能终端确定为待选终端,依据待选终端之间的位置关系确定本周期的共享智能终端。
例如处理单元,具体用于遍历待选终端获取每个待选终端设定区域内的终端数量x,将x大于等于筛选阈值的待选终端确定为本周期的共享智能终端。
例如处理单元,具体用于若所述声源位置移动,对所述预设场景的音频进行识别得到音频识别结果,获取音频识别结果中每个音频段的时间点;在每个音频段的时间点,依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系,依据所述位置关系确定所述声源位置与智能终端之间的相对距离;依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端。
例如处理单元,具体用于依据所述智能终端的收音能力以及初始距离确定所述智能终端的距离阈值,如所述智能终端与所述声源位置的相对距离小于等于所述距离阈值,确定所述智能终端为所述共享智能终端。
例如处理单元,还用于获取所述预设场景的障碍物,依据所述声源移动轨迹确定所述声源位置与所述障碍物之间的位置关系,依据所述位置关系确定所述障碍物的遮挡区域,将所述遮挡区域内的智能终端从所述共享智能终端内删除。
例如处理单元,具体用于获取所述音频数据的音频质量,若所述音频质量小于质量阈值,将所述音频数据进行增强处理得到增强后的音频数据,将增强后的音频数据确定为所述预设场景的共享音频。
例如处理单元,具体用于如果所述共享智能终端为多个终端,利用多个终端形成的多角度声源,将所述多角度声源通过对抗网络进行处理得到增加后的音频数据。
本申请实施例可以根据上述方法示例对电子设备进行功能单元的划分,例如,可以对应各个功能划分各个功能单元,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请实施例中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤,上述计算机包括电子设备。
本申请实施例还提供一种计算机程序产品,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包,上述计算机包括电子设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例上述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (7)

1.一种基于智能终端的音频共享方法,其特征在于,所述方法包括如下步骤:
获取预设场景的声源位置;
依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和所述距离从所述预设场景的智能终端内选择共享智能终端;
获取所述共享智能终端采集的音频数据,将所述音频数据确定为所述预设场景的共享音频;具体包括:
获取所述音频数据的音频质量,若所述音频质量小于质量阈值,将所述音频数据进行增强处理得到增强后的音频数据,将增强后的音频数据确定为所述预设场景的共享音频;
若所述声源位置移动,所述依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和所述距离从所述预设场景的智能终端内选择共享智能终端具体包括:
对所述预设场景的音频进行识别得到音频识别结果,获取音频识别结果中每个音频段的时间点;对持续收集的音频利用端点检测技术结合强制切分策略实时确定说话人音频段的结束点;
在每个音频段的时间点,依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系,依据所述位置关系确定所述声源位置与智能终端之间的相对距离;
依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端;
所述智能终端与所述声源位置的相对距离小于等于所述距离阈值。
2.根据权利要求1所述的方法,其特征在于,所述依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端具体包括:
依据所述智能终端的收音能力以及初始距离确定所述智能终端的距离阈值,所述智能终端与所述声源位置的相对距离小于等于所述距离阈值,确定所述智能终端为所述共享智能终端。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取所述预设场景的障碍物,依据所述声源移动轨迹确定所述声源位置与所述障碍物之间的位置关系,依据所述位置关系确定所述障碍物的遮挡区域,将所述遮挡区域内的智能终端从所述共享智能终端内删除。
4.根据权利要求1所述的方法,其特征在于,所述将所述音频数据进行增强处理得到增强后的音频数据具体包括:
如果所述共享智能终端为多个终端,利用多个终端形成的多角度声源,将所述多角度声源通过对抗网络进行处理得到增加后的音频数据。
5.一种基于智能终端的音频共享装置,其特征在于,所述装置包括:
获取单元,用于获取预设场景的声源位置;
处理单元,用于依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系以及所述距离从所述预设场景的智能终端内选择共享智能终端;
采集单元,用于获取所述共享智能终端采集的音频数据;
所述处理单元,还用于将所述音频数据确定为所述预设场景的共享音频;具体包括:
获取所述音频数据的音频质量,若所述音频质量小于质量阈值,将所述音频数据进行增强处理得到增强后的音频数据,将增强后的音频数据确定为所述预设场景的共享音频;
若所述声源位置移动,所述处理单元,具体用于对所述预设场景的音频进行识别得到音频识别结果,获取音频识别结果中每个音频段的时间点;对持续收集的音频利用端点检测技术结合强制切分策略实时确定说话人音频段的结束点;在每个音频段的时间点,依据所述声源的移动轨迹确定所述声源位置与智能终端之间的位置关系,依据所述位置关系确定所述声源位置与智能终端之间的相对距离;依据所述相对距离与距离阈值之间的关系从所述预设场景的智能终端内选择共享智能终端;
所述智能终端与所述声源位置的相对距离小于等于所述距离阈值。
6.一种基于智能终端的音频共享方法,其特征在于,所述方法包括如下步骤:
获取预设场景的声源位置;
依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和所述距离从所述预设场景的智能终端内选择共享智能终端;
获取所述共享智能终端采集的音频数据,将所述音频数据确定为所述预设场景的共享音频;
若所述声源位置固定,所述依据所述声源位置与智能终端之间的位置关系获取所述声源位置与智能终端之间的距离,依据所述位置关系和所述距离从所述预设场景的智能终端内选择共享智能终端具体包括:
周期性的更新所述声源位置与智能终端之间的位置关系,依据所述位置关系获取所述声源位置与智能终端之间的距离;
将距离小于距离阈值的智能终端确定为待选终端,依据待选终端之间的位置关系确定本周期的共享智能终端;所述依据待选终端之间的位置关系确定本周期的共享智能终端具体包括:
遍历待选终端获取每个待选终端设定区域内的终端数量x,将x大于等于筛选阈值的待选终端确定为本周期的共享智能终端。
7.一种计算机可读存储介质,其特征在于,存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1-4任一项所述的方法、如权利要求6所述的方法所述的方法。
CN201911383922.4A 2019-12-28 2019-12-28 基于智能终端的音频共享方法及相关装置 Active CN111131616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911383922.4A CN111131616B (zh) 2019-12-28 2019-12-28 基于智能终端的音频共享方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911383922.4A CN111131616B (zh) 2019-12-28 2019-12-28 基于智能终端的音频共享方法及相关装置

Publications (2)

Publication Number Publication Date
CN111131616A CN111131616A (zh) 2020-05-08
CN111131616B true CN111131616B (zh) 2022-05-17

Family

ID=70504085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911383922.4A Active CN111131616B (zh) 2019-12-28 2019-12-28 基于智能终端的音频共享方法及相关装置

Country Status (1)

Country Link
CN (1) CN111131616B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111653283B (zh) * 2020-06-28 2024-03-01 讯飞智元信息科技有限公司 一种跨场景声纹比对方法、装置、设备及存储介质
CN114171058A (zh) * 2021-12-03 2022-03-11 安徽继远软件有限公司 基于声纹的变压器运行状态监测方法及系统
CN117031399B (zh) * 2023-10-10 2024-02-20 浙江华创视讯科技有限公司 多智能体协同的声源定位方法、设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040170289A1 (en) * 2003-02-27 2004-09-02 Whan Wen Jea Audio conference system with quality-improving features by compensating sensitivities microphones and the method thereof
CN101350931B (zh) * 2008-08-27 2011-09-14 华为终端有限公司 音频信号的生成、播放方法及装置、处理系统
JP5482854B2 (ja) * 2012-09-28 2014-05-07 沖電気工業株式会社 収音装置及びプログラム
CN103905942B (zh) * 2012-12-26 2018-08-10 联想(北京)有限公司 声音数据采集的方法及电子设备
US9385779B2 (en) * 2013-10-21 2016-07-05 Cisco Technology, Inc. Acoustic echo control for automated speaker tracking systems
US9817634B2 (en) * 2014-07-21 2017-11-14 Intel Corporation Distinguishing speech from multiple users in a computer interaction
CN105139868A (zh) * 2015-07-28 2015-12-09 苏州宏展信息科技有限公司 一种用于录音笔的语音频率自动补偿控制方法
EP3457402B1 (en) * 2016-06-24 2021-09-15 Samsung Electronics Co., Ltd. Noise-adaptive voice signal processing method and terminal device employing said method
CN106328132A (zh) * 2016-08-15 2017-01-11 歌尔股份有限公司 一种智能设备的语音交互控制方法和装置
US10424317B2 (en) * 2016-09-14 2019-09-24 Nuance Communications, Inc. Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR)
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN106954126B (zh) * 2017-03-31 2020-01-10 深圳壹秘科技有限公司 一种音频信息处理方法及其会议终端
JP6375475B1 (ja) * 2017-06-07 2018-08-15 井上 時子 音源方向追従システム
US10134414B1 (en) * 2017-06-30 2018-11-20 Polycom, Inc. Interference-free audio pickup in a video conference
CN107749313B (zh) * 2017-11-23 2019-03-01 郑州大学第一附属医院 一种自动转写与生成远程医疗会诊记录的方法
CN108322855B (zh) * 2018-02-11 2020-11-17 北京百度网讯科技有限公司 用于获取音频信息的方法及装置
CN109168109A (zh) * 2018-09-06 2019-01-08 深圳万智联合科技有限公司 一种基于移动终端的无线扬声系统
CN109545242A (zh) * 2018-12-07 2019-03-29 广州势必可赢网络科技有限公司 一种音频数据处理方法、系统、装置及可读存储介质
CN109803059A (zh) * 2018-12-17 2019-05-24 百度在线网络技术(北京)有限公司 音频处理方法和装置
CN109785835A (zh) * 2019-01-25 2019-05-21 广州富港万嘉智能科技有限公司 一种通过移动终端实现声音录制的方法及装置
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN109976700A (zh) * 2019-01-25 2019-07-05 广州富港万嘉智能科技有限公司 一种录音权限转移的方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN111131616A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
CN111131616B (zh) 基于智能终端的音频共享方法及相关装置
US11665496B2 (en) Processing segments or channels of sound with HRTFs
US10257465B2 (en) Group and conversational framing for speaker tracking in a video conference system
DE112015003945T5 (de) Mehrquellen-Rauschunterdrückung
US20160155455A1 (en) A shared audio scene apparatus
CN102318373A (zh) 解码装置、编解码装置及解码方法
CN106716526A (zh) 用于增强声源的方法和装置
EP3611897A1 (en) Method, apparatus, and system for presenting communication information in video communication
JP2019186931A (ja) カメラ撮影制御方法、装置、インテリジェント装置およびコンピュータ記憶媒体
CN106535059A (zh) 重建立体声的方法和音箱及位置信息处理方法和拾音器
CN104378635B (zh) 基于麦克风阵列辅助的视频感兴趣区域的编码方法
US9195740B2 (en) Audio scene selection apparatus
CN105959614A (zh) 一种视频会议的处理方法及系统
US11068233B2 (en) Selecting a microphone based on estimated proximity to sound source
US20140121794A1 (en) Method, Apparatus, And Computer Program Product For Providing A Personalized Audio File
CN112788489B (zh) 控制方法、装置和电子设备
CN114531425A (zh) 一种处理方法和处理装置
US20200184973A1 (en) Transcription of communications
CN113707165A (zh) 音频处理方法、装置及电子设备和存储介质
CN112735455A (zh) 声音信息的处理方法和装置
CN106131355A (zh) 一种声音播放方法及装置
US20230276187A1 (en) Spatial information enhanced audio for remote meeting participants
CN106817551A (zh) 语音获取方法、设备及系统
US20230267942A1 (en) Audio-visual hearing aid
KR102589864B1 (ko) 음향 동기화 기술이 적용된 디지털 음향의 무선 WiFi 전송 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant