CN114915690B - 音频信号的处理方法、装置、设备及介质 - Google Patents
音频信号的处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN114915690B CN114915690B CN202210483544.2A CN202210483544A CN114915690B CN 114915690 B CN114915690 B CN 114915690B CN 202210483544 A CN202210483544 A CN 202210483544A CN 114915690 B CN114915690 B CN 114915690B
- Authority
- CN
- China
- Prior art keywords
- signal
- human voice
- duration
- voice signal
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 192
- 238000003672 processing method Methods 0.000 title claims abstract description 13
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000001914 filtration Methods 0.000 claims abstract description 22
- 238000012544 monitoring process Methods 0.000 claims abstract description 22
- 238000004891 communication Methods 0.000 claims description 28
- 238000012545 processing Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 abstract 1
- 230000037430 deletion Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Circuit For Audible Band Transducer (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种音频信号的处理方法、装置、设备及介质,该方法包括音频信号的处理方法,获取第一音频信号和第二音频信号;过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;同步监测所述第一人声信号和第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。仅播放第一人声信号或第二人声信号,减少了发言冲突导致的信息混乱和信息缺失的问题。
Description
技术领域
本发明涉及会议音频信号处理的技术领域,尤其涉及一种音频信号的处理方法、装置、设备及介质。
背景技术
随时远程通信技术和会议设备的快速发展,日常工作中越来越多涉及多方的远程会议,远程会议常见的形式有视频会议、音频会议等。音频会议因为对带宽要求更低,会议流畅性更好而得到普遍应用。
音频形式的会议,在会议进行过程中,由于与会多方相互沟通有延迟而容易出现两方或多方同时发言而造成语音冲突的问题,造成信息接收不清楚、信息丢失、沟通混乱等问题。
发明内容
基于此,有必要针对上述问题,提出了一种音频信号的处理方法、装置、计算机设备及计算机可读存储介质。
一种音频信号的处理方法,应用于会议终端设备,所述会议终端设备与至少两个场外的通信设备连接,所述会议终端设备接收通信设备发送的音频信号,所述方法包括:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
进一步的,所述若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号的步骤包括:若重叠时间信号的时长大于重叠时间阈值,屏蔽第二人声信号,通过播放器播放第一人声信号;或屏蔽第一人声信号,通过播放器播放第二人声信号。
进一步的,所述若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号的步骤包括:若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号,同时,将第二人声信号解码为文字信号,将解码的文字信号转换为文字图形信号,将文字图形信号通过会场显示装置显示;或,通过播放器播放第二人声信号,同时,将第一人声信号解码为文字信号,将解码的文字信号转换为文字图形信号,将文字图形信号通过会场显示装置显示。
进一步的,所述若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号的步骤包括:若重叠时间信号的时长大于重叠时间阈值,则获取第一人声信号和第二人声信号的播放优先权重,比对第一人声信号和第二人声信号的优先权重,若第一人声信号的播放优先权重更高,则通过播放器播放第一人声信号,若第二人声信号的播放优先权重更高,则通过播放器播放第二人声信号。
进一步的,所述比对第一人声信号和第二人声信号的优先权重的步骤包括:确认重叠时间信号的时长等于重叠时间阈值的时间点为判定时间节点,获取第一人声信号在判定时间节点之前的第一历史持续时长和第二人声信号在判定时间节点之前的第二历史持续时长,若第一历史上持续时长大于第二历史持续时长,则判定第一人声信号的播放优先权重大于第二人声信号的播放优先权重,若第一历史上持续时长小于第二历史持续时长,则判定第一人声信号的播放优先权重小于第二人声信号的播放优先权重。
进一步的,还包括:若重叠时间信号的时长不大于重叠时间阈值,通过接收器接收播放器播放的声音信号;若重叠时间信号的时长大于重叠时间阈值,则通过接收器接收播放器播放的第一人声信号,标记播放器仅播放第一人声信号的时间起点为剪辑起点,标记播放器仅播放第一人声信号的时间终点为剪辑终点,获取剪辑起点至剪辑终点之间的第二人声信号片段,将第二人声信号片段插入至接收器接收到的第一人声信号的时间终点位置处。
进一步的,所述同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号的步骤包括:同步监测所述第一人声信号和所述第二人声信号的持续时间;获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号;比对获取第一持续时间信号和第二持续时间信号的时间起点;若第一持续时间信号的时间起点早于第二持续时间信号,则在检测到第一人声信号的第一持续时间信号的时间起点时,向第二音频信号的通信设备反馈语音占用信号;若第一持续时间信号的时间起点晚于第二持续时间信号,则在检测到第二人声信号的第二持续时间信号的时间起点时,向第一音频信号的通信设备反馈语音占用信号。
一种音频信号的处理装置,包括:
多路信号获取模块,用于获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
信号过滤模块,用于过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
语音冲突检测模块,用于同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
优先播放比对模块,用于比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
本会议系统的音频信号处理方法,通过同步监控过滤得到的第一人声信号和第二人声信号,监测第一人声信号及第二人声信号的持续时间信号,即监测第一音频信号中的发言状态和第二音频信号中的发言状态,在第一音频信号和第二音频信号的发言状态不冲突时,通过播放器正常播放第一人声信号和第二人声信号,在第一音频信号和第二音频信号的发言状态冲突时,仅播放第一人声信号或第二人声信号,减少了发言冲突导致的信息混乱和信息缺失的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中音频信号处理方法的应用环境图;
图2为一个实施例中音频信号处理方法的流程图;
图3为一个实施例中音频信号处理装置的结构框图。
图4为一个实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为一个实施例中一种会议系统的音频信号处理方法的应用环境图。参照图1,该会议系统的音频信号处理方法应用于多方参与的音频会议终端设备或音频会议系统。该音频会议终端设备包括音频信号接收模块、音频信号过滤模块、信号处理器、存储器和播放器,该音频会议终端设备还可以包括显示器等显示装置。
该音频会议终端设备与至少两个场外通信设备连接,该场外通信设备向音频会议终端设备发送音频信号,音频会议终端设备接收音频信号、过滤音频信号、处理音频信号、播放音频信号、存储音频信号等。
实施例一
如图2所示,本实施例提供一种音频信号的处理方法,应用于会议终端设备,所述会议终端设备与至少两个场外的通信设备连接,所述会议终端设备接收通信设备发送的音频信号。
本实施例所要解决的技术问题是:音频形式的会议,在会议进行过程中,由于与会多方相互沟通有延迟而容易出现两方或多方同时发言而造成语音冲突的问题,造成信息接收不清楚、信息丢失、沟通混乱等问题。
所述方法包括:
S101:获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
S102:过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
S103:同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
S104:比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
本实施例的效果为:通过同步监控过滤得到的第一人声信号和第二人声信号,监测第一人声信号及第二人声信号的持续时间信号,即监测第一音频信号中的发言状态和第二音频信号中的发言状态,在第一音频信号和第二音频信号的发言状态不冲突时,通过播放器正常播放第一人声信号和第二人声信号,在第一音频信号和第二音频信号的发言状态冲突时,仅播放第一人声信号或第二人声信号,减少了发言冲突导致的信息混乱和信息缺失的问题。
实施例二
在实施例一的基础上,本实施例要解决的技术问题是:如何通过播放器仅播放第一人声信号或第二人声信号。
为了解决上述技术问题,本实施例提供一种音频信号的处理方法,获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,屏蔽第二人声信号,通过播放器播放第一人声信号;或屏蔽第一人声信号,通过播放器播放第二人声信号。
本实施例的方案,通过屏蔽第一人声信号来播放第二人声信号,或通过屏蔽第二人声信号来播放第一人声信号。解决了信号择一播放的技术问题。
实施例三
在实施例一的基础上,本实施例要解决的技术问题是:在第一人声信号和第二人声信号冲突而同时播放时,择一播放的方式虽然可以解决因信号冲突导致的会场人员信息接收不清楚的技术问题,但是,被屏蔽掉的信息仍然丢失了,因此,上述方案存在音频信号冲突时,择一播放的方式导致了信息丢失的技术问题。
为了缓解上述技术问题,本实施例提供一种音频信号的处理方法,获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;
若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号,同时,将第二人声信号解码为文字信号,将解码的文字信号转换为文字图形信号,将文字图形信号通过会场显示装置显示。
本实施例仅列举了选择第一人声信号播放的方案,选择第二人声信号播放的方案是原理是相同的。
将实施例一或实施例二中被屏蔽的第二人声信号,通过文字形式显示在显示屏上,现场与会人员,在听到第一人声信号和第二人声信号冲突时,播放器播放第一人声信号,显示器显示第二人声信号转换的文字,可以最大程度的保留远程会场发送的会议信息。
实施例四
在实施例一的基础上,本实施例要解决的技术问题是:会议终端设备具体如何选择播放器播放第一人声信号,还是播放第二人声信号的问题。会议终端设备选择播放的人声信号可能为不重要的语音,而将重要的语音屏蔽掉了。
为了缓解上述技术问题,实施例提供一种音频信号的处理方法,获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;
若重叠时间信号的时长大于重叠时间阈值,则获取第一人声信号和第二人声信号的播放优先权重,比对第一人声信号和第二人声信号的优先权重,若第一人声信号的播放优先权重更高,则通过播放器播放第一人声信号,若第二人声信号的播放优先权重更高,则通过播放器播放第二人声信号。
通过设置播放优先权重的方法对第一人声信号和第二人声信号赋值,根据优先权重的赋值大小作为播放器播放信号选择的依据,可以使会议终端设备更容易选择合理的人声信号播放,避免播放的信号不重要,而屏蔽掉的信号更重要的技术问题。
实施例五
本实施例在实施例四的基础上,解决如何设置播放优先权重的技术问题。
在实施例四的基础上,本实施例可直接对第一人声信号和第二人声信号进行播放优先权重的赋值。例如第一通信设备所在的会场为主席会场,第二通信设备所在的会场为分公司会场,可以将第一通信设备的第一人声信号的优先播放权重设置为1,将第二通信设备的第二人声信号的优先播放权重设置为0,在第一人声信号和第二人声信号冲突时,直接播放第一人声信号以保证重要信息的不中断和信息接收清晰。
本实施例还可以提供一种方案,通过会议终端设备监测第一人声信号和第二人声信号的持续时间,如果第一人声信号持续发言,则接收到第二人声信号时判断第二人声信号为插队信号,优先播放第一人声信号。
具体的,第一人声信号的持续时间的检测,并不限定为第一人声信号不中断,而是第一人声信号中断的时间小于设定阈值时,判定第一人声信号在持续中。
本方案具体为:确认重叠时间信号的时长等于重叠时间阈值的时间点为判定时间节点,获取第一人声信号在判定时间节点之前的第一历史持续时长和第二人声信号在判定时间节点之前的第二历史持续时长,若第一历史上持续时长大于第二历史持续时长,则判定第一人声信号的播放优先权重大于第二人声信号的播放优先权重,若第一历史上持续时长小于第二历史持续时长,则判定第一人声信号的播放优先权重小于第二人声信号的播放优先权重。
本实施例还可以提供一种方案,获取第一人声信号的第一历史人声信号和第二人声信号的第二历史人声信号,检测第一历史人声信号和第二历史人声信号并获取第一历史人声信号和第二历史人声信号中的关键词,根据关键词判断第一人声信号和第二人声信号的播放优先权重。
例如,第一历史人声信号中检测到了“首先”、“其次”、“第一”、“第二”等代表信息逻辑持续的关键词,则将第一人声信号的优先权重赋值更高,从而保证第一人声信号的持续发言和持续接收。
实施例六
基于实施例一,择一播放的播放形式,虽然可以使会场的与会人员接收到更清楚完成的发言信息,但是,会议录音设备记录到的会议录音必然有信息缺失。基于实施例三,虽然与会人员可以听到播放器播放的第一人声信号,通过显示屏接收到第二人声信号转换的文字信息,但是,会议录音设备记录到的信息必然有信息缺失,即无法记录第二人声信号携带的信息。
为了缓解上述技术问题,本实施例提供一种音频信号的处理方法,应用于会议终端设备,所述会议终端设备与至少两个场外的通信设备连接,所述会议终端设备接收通信设备发送的音频信号,所述方法包括:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间;
获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号,通过接收器接收播放器播放的声音信号;
若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号(此处略去播放第二人声信号的方案)。通过接收器接收播放器播放的第一人声信号,标记播放器仅播放第一人声信号的时间起点为剪辑起点,标记播放器仅播放第一人声信号的时间终点为剪辑终点,获取剪辑起点至剪辑终点之间的第二人声信号片段,将第二人声信号片段插入至接收器接收到的第一人声信号的时间终点位置处。
相比于现有的会场录音设备录制的时长,本方案录音设备(集成在会议终端设备上)录制的时长更长,原因在于在两个人声信号冲突时,择一播放一个人声信号,同时设置第二人声信号的剪辑起点和剪辑终点,以及第一人声信号的时间终点(剪辑插入点),将剪辑的第二人声信号(实施例一及实施例四中均无法通过现场录音设备录制)插入到剪辑插入点,因此,在会议回放时,可以尽可能听到更全面的会议信息。
为了避免会议回放时信息混乱,可以在剪辑插入点先插入提示声音片段,例如“滴”,或“滴滴”等,再插入剪辑的第二人声信号的片段。
实施例七
上述方案解决的是两个远程通信设备发送的语音信号出现冲突的问题,语音冲突的出现,很多时候是信号延迟造成的,例如A会场的人准备发言了,但是B会场的人具有优先级,或者先发言了,但是A会场的人因为信号延迟并不知道,等他听到会场回传的语音信号时,才知道自己跟别人冲突了。
为了缓解因为信号延迟导致的发言冲突的问题,本实施例提供一种音频信号的处理方法,应用于会议终端设备,所述会议终端设备与至少两个场外的通信设备连接,所述会议终端设备接收通信设备发送的音频信号,所述方法包括:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间;
获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号;
比对获取第一持续时间信号和第二持续时间信号的时间起点;
若第一持续时间信号的时间起点早于第二持续时间信号,则在检测到第一人声信号的第一持续时间信号的时间起点时,向第二音频信号的通信设备反馈语音占用信号;
若第一持续时间信号的时间起点晚于第二持续时间信号,则在检测到第二人声信号的第二持续时间信号的时间起点时,向第一音频信号的通信设备反馈语音占用信号;
计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
上述方案中向第一音频信号的通信设备反馈语音占用信号的时间提早于播放器播放的时间,更提早于会场麦克风等语音接收装置的接收时间,因此,可以缓解因信号延迟导致的远程会场的发言人发言冲突的问题。
实施例八
本实施例提供一种音频信号的处理装置,如图3所示,包括:
多路信号获取模块100,用于获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
信号过滤模块200,用于过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
语音冲突检测模块300,用于同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
优先播放比对模块400,用于比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
本会议系统的音频信号处理装置,通过同步监控过滤得到的第一人声信号和第二人声信号,监测第一人声信号及第二人声信号的持续时间信号,即监测第一音频信号中的发言状态和第二音频信号中的发言状态,在第一音频信号和第二音频信号的发言状态不冲突时,通过播放器正常播放第一人声信号和第二人声信号,在第一音频信号和第二音频信号的发言状态冲突时,仅播放第一人声信号或第二人声信号,减少了发言冲突导致的信息混乱和信息缺失的问题。
实施例九
图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现年龄识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行年龄识别方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
实施例十
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (5)
1.一种音频信号的处理方法,其特征在于,应用于会议终端设备,所述会议终端设备与至少两个场外的通信设备连接,所述会议终端设备接收通信设备发送的音频信号,所述方法包括:
获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号;
其中,所述若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号的步骤包括:
若重叠时间信号的时长大于重叠时间阈值,则获取第一人声信号和第二人声信号的播放优先权重,比对第一人声信号和第二人声信号的优先权重,若第一人声信号的播放优先权重更高,则通过播放器播放第一人声信号,若第二人声信号的播放优先权重更高,则通过播放器播放第二人声信号;
其中,所述比对第一人声信号和第二人声信号的优先权重的步骤包括:
确认重叠时间信号的时长等于重叠时间阈值的时间点为判定时间节点,获取第一人声信号在判定时间节点之前的第一历史持续时长和第二人声信号在判定时间节点之前的第二历史持续时长,若第一历史上持续时长大于第二历史持续时长,则判定第一人声信号的播放优先权重大于第二人声信号的播放优先权重,若第一历史上持续时长小于第二历史持续时长,则判定第一人声信号的播放优先权重小于第二人声信号的播放优先权重。
2.根据权利要求1所述的音频信号的处理方法,其特征在于,所述同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号的步骤包括:
同步监测所述第一人声信号和所述第二人声信号的持续时间;
获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号;
比对获取第一持续时间信号和第二持续时间信号的时间起点;
若第一持续时间信号的时间起点早于第二持续时间信号,则在检测到第一人声信号的第一持续时间信号的时间起点时,向第二音频信号的通信设备反馈语音占用信号;
若第一持续时间信号的时间起点晚于第二持续时间信号,则在检测到第二人声信号的第二持续时间信号的时间起点时,向第一音频信号的通信设备反馈语音占用信号。
3.一种音频信号的处理装置,其特征在于,用于应用权利要求1或2所述的音频信号的处理方法,所述装置包括:
多路信号获取模块,用于获取第一音频信号和第二音频信号,所述第一音频信号包括第一人声信号和第一噪声音频信号,所述第二音频信号包括第二人声信号和第二噪声音频信号;
信号过滤模块,用于过滤所述第一音频信号和所述第二音频信号,获取第一人声信号和第二人声信号;
语音冲突检测模块,用于同步监测所述第一人声信号和所述第二人声信号的持续时间,获取第一人声信号的第一持续时间信号,及第二人声信号的第二持续时间信号,计算第一持续时间信号和第二持续时间信号的重叠时长并获取重叠时间信号,设定重叠时间阈值;
优先播放比对模块,用于比对重叠时间信号和重叠时间阈值,若重叠时间信号的时长不大于重叠时间阈值,则通过播放器播放第一人声信号和第二人声信号;若重叠时间信号的时长大于重叠时间阈值,则通过播放器播放第一人声信号或第二人声信号。
4.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1或2任一项所述方法的步骤。
5.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1或2任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483544.2A CN114915690B (zh) | 2022-05-05 | 2022-05-05 | 音频信号的处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210483544.2A CN114915690B (zh) | 2022-05-05 | 2022-05-05 | 音频信号的处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114915690A CN114915690A (zh) | 2022-08-16 |
CN114915690B true CN114915690B (zh) | 2024-08-20 |
Family
ID=82767502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210483544.2A Active CN114915690B (zh) | 2022-05-05 | 2022-05-05 | 音频信号的处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114915690B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104205212A (zh) * | 2012-03-23 | 2014-12-10 | 杜比实验室特许公司 | 听觉场景中的讲话者冲突 |
CN105100521A (zh) * | 2014-05-14 | 2015-11-25 | 中兴通讯股份有限公司 | 远程会议中实现有序发言的方法及服务器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111861048A (zh) * | 2019-04-24 | 2020-10-30 | 阿里巴巴集团控股有限公司 | 会议数据处理方法、装置、系统及电子设备 |
CN110322869B (zh) * | 2019-05-21 | 2023-06-16 | 平安科技(深圳)有限公司 | 会议分角色语音合成方法、装置、计算机设备和存储介质 |
-
2022
- 2022-05-05 CN CN202210483544.2A patent/CN114915690B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104205212A (zh) * | 2012-03-23 | 2014-12-10 | 杜比实验室特许公司 | 听觉场景中的讲话者冲突 |
CN105100521A (zh) * | 2014-05-14 | 2015-11-25 | 中兴通讯股份有限公司 | 远程会议中实现有序发言的方法及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN114915690A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7844454B2 (en) | Apparatus and method for providing voice recognition for multiple speakers | |
DE69839068T2 (de) | System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung | |
DE69624250T2 (de) | Verfahren und vorrichtung zur aufzeichnung und indexierung einer audio- und multimediakonferenz | |
US7130404B2 (en) | Apparatus and method for providing advanced communication conferencing operations | |
JP5533854B2 (ja) | 音声認識処理システム、および音声認識処理方法 | |
US20070263823A1 (en) | Automatic participant placement in conferencing | |
CN112839195B (zh) | 一种会议记录的查阅方法、装置、计算机设备及存储介质 | |
US20100220844A1 (en) | Method and arrangement for capturing of voice during a telephone conference | |
US20180293996A1 (en) | Electronic Communication Platform | |
CN106162046A (zh) | 一种视频会议图像呈现方法及其装置 | |
US9959881B2 (en) | Voice processing device, audio and video output apparatus, communication system, and sound processing method | |
CN112562677A (zh) | 会议语音转写方法、装置、设备及存储介质 | |
CN114915690B (zh) | 音频信号的处理方法、装置、设备及介质 | |
CN110460798B (zh) | 视频访谈服务处理方法、装置、终端与存储介质 | |
US8553855B2 (en) | Conference support apparatus and conference support method | |
CN116939150B (zh) | 一种基于机器视觉的多媒体平台监测系统及方法 | |
JP4850690B2 (ja) | 通信会議装置 | |
CN114257778A (zh) | 一种远程会议系统及多麦克风语音识别播放方法 | |
WO2014076129A1 (de) | Verfahren zum betreiben eines telefonkonferenzsystems und telefonkonferenzsystem | |
JP2010226377A (ja) | 遠隔会議支援装置、及び方法 | |
US20190333517A1 (en) | Transcription of communications | |
CN113096674B (zh) | 一种音频处理方法、装置及电子设备 | |
JP2000333150A (ja) | テレビ会議システム | |
CN115714847A (zh) | 一种会议中展示发言人的方法、装置、设备以及介质 | |
US20230035219A1 (en) | Teleconference method and teleconference system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |