CN104885437A - 会议系统和用于会议系统中的语音激活的方法 - Google Patents

会议系统和用于会议系统中的语音激活的方法 Download PDF

Info

Publication number
CN104885437A
CN104885437A CN201280078055.3A CN201280078055A CN104885437A CN 104885437 A CN104885437 A CN 104885437A CN 201280078055 A CN201280078055 A CN 201280078055A CN 104885437 A CN104885437 A CN 104885437A
Authority
CN
China
Prior art keywords
representative unit
unit
representative
conference system
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280078055.3A
Other languages
English (en)
Other versions
CN104885437B (zh
Inventor
H·范德沙尔
R·德克斯
M·斯马克
J·博纳里乌斯
J·谢斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of CN104885437A publication Critical patent/CN104885437A/zh
Application granted granted Critical
Publication of CN104885437B publication Critical patent/CN104885437B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/18Comparators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2203/00Aspects of automatic or semi-automatic exchanges
    • H04M2203/50Aspects of automatic or semi-automatic exchanges related to audio conference
    • H04M2203/5072Multiple active speakers

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)

Abstract

会议系统例如用于讨论,并且通常包括具有麦克风的多个代表单元,由此,在讨论中,每个讨论参与者使用他自己的代表单元。通常,代表单元具有允许在代表单元前面的参与者请求激活他的麦克风的开关等,使得参与者的讲话输入会议系统,并被会议系统放大。一种会议系统(1),包括:多个代表单元(2),每个代表单元(2)具有用于从周围接收音频信号的麦克风(5);中心服务模块(3),其操纵多个促进通道,由此,所述促进通道的音频输出促进了所述会议系统(1)的放大的音频输出,由此,每个代表单元(2)适于将对促进通道委托的请求发送至所述中心服务模块(3),所述中心服务模块(3)适于准许所述请求,并将促进通道分配给正在请求的代表单元(2),从而将正在请求的代表单元(i)设定在激活状态(A)下,由此,所述代表单元(2)适于通过语音激活触发所述请求,由此,在至少第一触发条件被满足的情况下触发所述请求,所述第一触发条件定义为:作为正在请求的可能代表单元(i)的其中一个代表单元(2)的音频信号水平高于对于在激活状态(A)下的每个其他代表单元(2)的个体测试值,由此,所述个体测试值是由提供至其他激活代表单元(2)的音频或语音信号产生的正在请求的可能单元(i)的估计音频信号水平。

Description

会议系统和用于会议系统中的语音激活的方法
技术领域
本发明涉及一种会议系统。更具体地说,本发明涉及如下会议系统,其包括:多个代表单元,每个代表单元具有用于从周围接收音频信号的麦克风;和中心服务模块,其操纵多个促进通道,由此,促进通道的音频输出促进了会议系统的放大的音频输出,由此,每个代表单元适于将对促进通道委托的请求发送至中心服务模块,该服务模块适于准许请求,并将促进通道分配给正在请求的代表单元,从而将正在请求的代表单元设定在激活状态下。此外,本发明涉及一种用于会议系统中的语音激活的方法。
背景技术
会议系统例如用于讨论,并且通常包括具有麦克风的多个代表单元,由此,在讨论中,每个讨论参与者使用他自己的代表单元。通常,代表单元具有允许在代表单元前面的参与者请求激活他的麦克风的开关等,使得参与者的语音被输入会议系统,并被会议系统放大。
例如,可能代表最接近的现有技术的文献EP 1686835A1公开了一种具有多个这样的代表单元的会议系统,由此,在代表单元上安置有各种指示器,用于指示代表单元的不同状态。
根据本发明,提出了一种具有权利要求1的特征的会议系统。此外,介绍了一种具有权利要求11的特征的方法。本发明的优选或有利的实施例由从属权利要求、说明书和所附的图公开。
发明内容
根据本发明,提供了一种会议系统,其可操作,以安装在会议室中或安装在全会厅中,并且例如由互相讨论的政治家或其他参与者使用。会议系统还能取名为会议装置。
会议系统包括多个代表单元。优选地超过50个、尤其地超过100个代表单元用于会议系统。每个代表单元具有用于从周围接收音频信号的麦克风。音频信号尤其地是来自站或坐在代表单元前面并从而在麦克风前面的参与者的语音信号。优选地,代表单元具体化为具有可选择地带或不带扬声器的基体的桌面单元,由此,麦克风布置在基体上。为了处理数据,优选的是,代表单元包括优选地集成在基体中的本地处理单元。
会议系统还包括中心服务单元,其可操作,以操纵多个促进通道、尤其放大通道,由此,促进通道的音频输出促进了会议系统的放大的音频输出。会议系统的放大的音频输出是在周围由会议系统提供的合成的音频气氛。优选地,会议系统可操作,以通过利用促进通道将来自代表单元的音频信号放大成放大的音频信号,由此,放大的音频信号是例如全会厅或会议室中的音频气氛的一部分。
每个代表单元适于将对促进通道委托的请求发送或发射至中心服务模块。通过请求,代表单元要求与促进通道中的一个促进通道连接,以便将自己的音频信号发射至促进通道,使得音频信号被放大,并形成放大的音频输出的一部分并从而形成音频气氛的一部分。中心服务模块适于准许请求,并将促进通道中的一个促进通道分配给正在请求的代表单元。通过该程序,正在请求的代表单元被设定在激活状态下,并将其状态从未激活代表单元变成激活代表单元。
中心服务模块可具体化为计算机,尤其地具体化为服务器。中心服务模块与代表单元之间的通信优选地是尤其地利用网络协议的数字通信,用于发送请求和/或用于发射音频信号。
根据本发明,代表单元适于通过语音激活触发请求和因此地传输请求。会议系统从而允许代表单元通过语音激活由未激活状态变成激活状态。语音激活意味着仅在代表单元前面的演讲者必须开始说话,以便启动请求的触发。语音激活模式的优点是,讨论的参与者无须通过按压按钮等来请求促进讨论,而是能通过简单地开始说话来加入讨论。语音激活方法不仅用于互动讨论,而且能用于其它讨论方法,以限制促进楼层音频(floor audio)的通道的数量。
代表单元中可触发请求的一个代表单元称作正在请求的可能代表单元,由此,代表单元中的每个代表单元能够是这样的正在请求的可能单元。正在请求的可能代表单元适于在满足至少第一触发条件的情况下触发请求,这要求正在请求的可能代表单元的音频信号水平高于对于在激活状态下的每个其他的代表单元的个体测试值。正在请求的可能代表单元自己的音频信号水平是由正在请求的可能代表单元的麦克风接收的音频信号的水平。对于每个其他激活的代表单元,个体测试值被估计或计算。个体测试值是由提供至其他激活的代表单元的音频或语音信号产生并且在正在请求的可能单元的麦克风中耦合的正在请求的可能代表单元的估计或计算音频信号水平。
本发明的基本思想是在代表单元例如以小于1米、尤其地小于60厘米的距离靠近彼此布置的情况下,并且关于代表单元常常具有大的动态音频入点范围的事实,在没有附加信息的情况下代表单元不能确定它是正在请求的可能代表单元还是邻近的代表单元。此外,房间状况(反射和混响)能在房间中引起音频积累至被错误地识别成演讲者的水平的点。
通过进行第一触发条件的测试,正在请求的可能代表单元测试自己的音频信号是来自演讲者还是用自己的麦克风说话的参与者,或者语音信号是来自演讲者还是对着邻近的代表单元说话的参与者。在该情况下,该邻近的代表单元的个体测试值将高于自己的音频信号水平,并且正在请求的可能代表单元断定其未被语音激活。因此,正在请求的可能代表单元测试第一触发条件是真还是假。
对于测试代表单元的个体测试值优选地通过使个体声学耦合系数与在测试周期期间的测试代表单元的音频信号水平、并且可选择地与阈值系数相乘来估计、尤其地来计算,所述个体声学耦合系数被限定用于每对正在请求的可能代表单元与测试代表单元。因此,为每对(正在请求的可能代表单元←→测试代表单元)限定个体声学耦合系数。测试代表单元的音频信号水平被限定为从相应的测试代表单元的麦克风接收的音频信号的水平。测试周期优选地短于1秒,尤其地短于0.1秒。优选地,仅激活代表单元被评价为测试代表。
在本发明的替代性实施例中,代替当前测试周期的音频信号水平,使用在最后几个时间周期测试代表的音频信号水平的最大值。例如,至少将最后的3、5或10个时间周期用于确定最大值。该替代方式改善了值的鲁棒性以及从而语音激活的鲁棒性。
在本发明的另一改进中,对于样本块、例如以48kHz的采样率的1024个样本的块更新个体测试值,使得个体测试值21毫秒全部更新。能使用用于采样率和块长度的其他值。还优选的是,对每个样本进行第一触发条件的测试。因此,对于上述示例,每隔1/48000秒进行测试。
在语音信号由演讲者利用测试代表单元产生的情况下,个体声学耦合系数描述或代表正在请求的可能代表单元的音频信号水平与测试代表单元的音频信号水平之间的比率。换句话说,个体声学耦合系数能在演讲者对着测试代表单元的麦克风说话的情形下得到,由此,正在请求的可能代表单元的音频信号除以请求代表单元的音频信号,以重新得到声学耦合系数。换句话说,声学耦合系数描述正在请求的可能代表单元的麦克风与测试代表单元的麦克风从语音信号接收的音频信号水平的比率。
会议系统还能在正在请求的可能代表单元从其自己或另一扬声器接收音频信号的情况下操作。在该情况下,个体声学耦合系数实际上还从扬声器会聚于音频,从而防止请求被扬声器信号触发。这是可能的,由于已知(激活的)代表单元有助于扬声器信号。为了将本地演讲者降低至麦克风耦合,能够实现短声回音消除器,所述短声回音消除器从其麦克风信号过滤代表单元扬声器的信号。
在优选的实施例中,每个代表单元包括包含其他代表单元(包括激活的和未激活的代表单元)的个体ID和个体耦合系数的系数表格。应强调的是,各种代表单元的系数表格彼此不同。此外,代表单元包括音频信号水平表格,所述音频信号水平表格包含在激活状态下的其他代表单元的个体ID和在测试周期期间的音频信号水平。通过该两个表格,正在请求的可能代表单元能够进行关于第一触发条件的测试。
在本发明的优选实现方式中,系数表格由代表单元管理,并且优选地存档在代表单元中。例如,代表单元具有用于存档系数表格的存储器。音频信号水平表格由中心服务模块提供。由于音频信号水平表格必须对于每个测试周期更新,所以例如能通过广播或组播分配方法将音频信号水平表格分配至代表单元。
在本发明的可能的改进中,代表单元适于以迭代方式为其他代表单元中的每个代表单元估计个体声学耦合系数,由此,在每个迭代步骤中,增大个体声学耦合系数的起始值。在可能的实现方式中,所有个体耦合系数在会议系统的安装或初始化期间被设定在1.0=0dB。一旦产生用于估计个体耦合系数的情形,就进行下一迭代步骤。这样的情形假定仅一名演讲者使用会议系统的一个代表单元。在该情形下,能在迭代步骤中增大与所使用的代表单元相关的所有其他代表单元的个体耦合系数。因此,会议系统是自我学习的,并从而随着时间的过去自我优化。
在本发明的另一可能改进中,代表单元中的一个代表单元基于第一测试周期的数据请求促进通道并通过将促进通道分配给代表单元而专用于该促进通道,所述一个代表单元适于通过基于第二测试周期的数据重新测试至少第一触发条件来检查请求以及从而分配。该改进的基本思想是以下情形:例如,彼此邻近布置的三个代表单元在第一测试周期期间处于未激活状态,并且所有三个代表单元接收相同的语音信号。在该情形下,可能发生的是,由于三个代表单元处于未激活状态并且互相不检测,所以所有三个代表单元如上所述都触发请求。在三个代表单元中的每个代表单元分配给促进通道之后,基于优选地跟随在第一测试周期之后的第二测试周期、尤其地在第一测试周期之后的下一测试周期的数据重新测试第一条件。在第二测试周期期间,三个代表单元处于激活状态。由于三个代表单元现在相互测试第一触发条件,所以通过基于第二测试周期的数据测试第一触发条件,三个代表单元中的两个代表单元将第一触发条件测试为假。
在本发明的另一改进的实施例中,要求代表单元适于在满足至少第一触发条件和第二触发条件的情况下触发请求,由此,第二触发条件限定正在请求的可能代表单元的音频信号水平在测试周期期间高于参考噪声水平。噪声水平的数据优选地由中心服务模块提供,尤其地与音频信号水平表格一起提供。
防止由相同的语音信号产生的两个代表单元的请求准许的另一可能的改进是中心服务模块适于在预选死区时间期间仅准许一个请求。返回至先前的示例,所有代表单元将在非常短的时间窗内发送它们的请求。中心服务模块仅准许第一请求,并且将在死区时间期间拒绝其他请求。
在本发明的另一改进中,代表单元包括用于指示代表单元的演讲者状态的演讲者指示装置,由此,在代表单元处于激活状态的情况下(作为第一指示条件)并且在检测到语音音调的第二指示条件下激活演讲者指示。通过该改进,如果触发音频信号是语音信号,则确保只激活指示装置。
附图说明
本发明另外的特征、优点和细节将通过本发明的实施例的说明变得显而易见。附图示出:
图1是作为本发明的实施例的会议系统的方框图。
具体实施方式
图1示出了作为本发明的实施例的会议系统1的示意性概图。会议系统1包括附加地用字母i、p1、p2、p3、p(n-1)、pn标记的多个代表单元2和中心服务模块3,所述中心服务模块3通过网络4与代表单元2连接。中心服务模块3可具体化为计算机服务器或另一服务器,或者可形成与服务器分开的模块。
代表单元2中的每个代表单元包括用于从讨论的演讲者或参与者接收语音信号的麦克风5。中心服务模块3组织多个促进通道(contribution channel),由此,促进通道是放大器通道,使得从代表单元2发送至促进通道中的一个促进通道的音频信号将被放大,并作为放大的音频信号发射至周围。
会议系统例如能安装在全会厅中,由此,每个全会座位配备有代表单元2中的一个代表单元。在全会厅中的讨论期间,利用代表单元中的一个代表单元的讨论参与者能对着代表单元2的麦克风5说话,使得由代表单元2接收音频信号。音频信号发射至促进通道,放大并在全会厅中发射,使得其他参与者能听到音频信号。
为了具有井然有序的讨论,代表单元2中的一些代表单元处于激活状态(active state)A,并允许参与者在讨论中说话,而代表单元2中的一些代表单元处于未激活状态(passive state)P,由此,音频信号不被放大和在楼层中发射。在代表单元2处于激活状态A的情况下,促进通道中的一个促进通道从中心服务模块分配给代表单元2。
在操作期间,代表单元2通过如以下说明的语音激活方法从未激活状态P转换到激活状态A。
当满足第一和可选择的第二触发条件时,处于未激活状态P的每个代表单元2请求促进通道委托:
第一触发条件是定向噪声条件:正在请求的可能代表单元2的输入音频信号水平远高于估计的耦合进来的音频水平,即远高于利用另一代表单元2由从演讲者接收语音信号产生的估计的音频信号水平。
第二触发条件是弥散噪声条件:正在请求的可能代表单元2的输入音频信号水平远高于参考水平(例如,楼层背景噪声水平)。
作为用于每个代表单元2确定以上两种条件的外部信息所需的数据(所述数据还被称为音频元数据)是:(1)处于激活状态的所有代表单元2在测试周期T期间的它们的唯一标识ID和它们的音频信号水平的表格ALT和(2)参考(背景噪声)水平N。表格ALT例如可具有以下结构:
p2  水平Xp2(T)
p(n-1)  水平Xp(n-1)(T)
pn  水平Xpn(T)
噪声水平  N
由此,p2、p(n-1)、pn代表ID,并且水平Xp#代表在测试周期T期间的音频信号水平。稍后将说明噪声水平N。
在可能的非限制性实现方式中,水平是在由16位无符号整数描述的范围[0,1]内的值。为了计算水平,在样本块期间、例如在1024个样本期间确定音频水平。对于32个样本的子块,计算均方根值,并且将结果输入指数均值滤波器。对于噪声水平,利用对楼层音频(其为所有促进通道的混合)的算法(例如噪声频谱密度)计算水平。
音频元数据由中心服务模块3收集并分配。从现实的角度看,为节省通信频带宽度,只例如每隔1024个样本周期性地分配音频元数据就足够了。音频元数据能通过利用广播或组播分配方法有效地分配。
当接收到促进通道请求时,如果一个促进通道可用,则中心服务模块3准许促进通道的分配。如果所有促进通道被占用,则所述中心服务模块3以拒绝响应进行答复。如果处于激活状态A的代表单元2不再满足条件中的任何一种条件,则它在超时周期之后请求促进通道的释放。超时周期期间防止由于讲话中小的停顿而请求释放。由于可能存在导致拒绝的请求(例如,至少一个代表单元2应总是保持激活的请求),所以总是从中心服务模块3请求促进通道委托或释放。
能在以下方程中看到第一触发条件:
X i ( k ) > γ d i r m a x p ∈ P ( κ B ) { W p , i ( κ B ) X p , m a x ( κ B ) }
其中:
k离散时间
B具有例如1024个样本的多个样本的块长度的块,以限定时间或测试周期的长度
K用于B块周期的离散时帧索引
Xp,max(KB)对于在时间周期k之前的最后几个、例如最后3至10个时间周期的代表单元p的最高音频信号水平
Xi(k)在时间周期k期间的正在请求的可能代表单元i的音频水平
γdir对于该条件的阈值系数
P在时间周期k期间处于激活状态A的代表单元2的集合
Wp,i(KB)在时间周期k期间的代表单元p与代表单元i的声学耦合系数
因此,第一触发条件测试作为正在请求的可能代表单元的代表单元i的音频信号水平是否高于每个其他的激活代表单元p与阈值系数相乘的参考测试值。由于函数max提取最高参考测试值,所以所述函数max用作预选。因此,参考测试值是在时间周期k期间代表单元p的最高音频信号水平与耦合系数的乘积,所述耦合系数是在时间周期k期间测试代表单元p与正在请求的可能代表单元i之间的耦合系数。
在语音信号由演讲者利用测试代表单元p产生的情况下,个体声学耦合系数Wp,i(KB)描述正在请求的可能代表单元i的音频信号水平Xi与测试代表单元p的音频信号水平Xi之间的比率。因此,个体声学耦合系数对于每个测试代表单元p而言能彼此不同。如果语音信号由在正在请求的可能代表单元i的麦克风4前面而不是在测试代表单元p前面的演讲者提供,则将满足第一触发条件。
在可能的实现方式中,取决于采样频率,块长度“B”是1024个样本间隔,“k”是离散时间。每个样本周期实际上评估至少第一、优选两种触发条件:首先,利用最新的样本、优选地利用指数平均更新音频水平X,接下来,进行比较。否则,例如1024个样本最坏情况延迟使系统可能错过演讲者句子的第一字母。仅在接收到新的音频元数据时(这在每个块B发生),更新测试值Wp,i(KB)Xp,max(KB)和噪声值(N)。
利用标准归一化最小平方算法估计并获得个体声学耦合系数Wp,i(KB)。其目标是使滤波系数快速收敛,以使误差最小(=残留水平)。此外,时间周期KB用于说明。
在第一步中,确定从代表单元p到代表单元i的残留水平Rp,i,由此,代表单元p是处于激活状态A的唯一代表单元2。在仅单一代表单元p激活的情形下,所有其他的代表单元2利用它们的麦克风4输入的音频信号水平和单一激活代表单元p的音频信号水平,动态调整它们对激活代表单元p的声学耦合系数估计,由此,由中心服务模块3将单一激活代表单元p的音频信号水平分配给所有代表单元2。
Rp,i(κB)=Xi(κB)-Wp,i(κB)Xp,max(κB)
在下一步骤中,更新声学耦合因子:
W p , i ( [ κ + 1 ] B ) = W p , i ( κ B ) + μ R p , i ( κ B ) X max , p ( κ B ) max ( ϵ { [ X p , max ( κ B ) ] 2 } , ϵ { [ R p , i ( κ B ) ] 2 } , t h r )
其中:
Wp,i(kB)从代表单元p到代表单元i的更新的声学耦合系数
μ 收敛速率时间常数
ε{} 指数平均函数
thr 在初始化期间防止尖峰的“底”阈值
作为起始值,可将所有声学耦合系数W设定成值1.0=0dB。
对于指数平均函数的可能实现方式限定为:
Xi(k)=βXi(k-1)+(1-β)|xi(k)|
其中,利用以下方程确定平滑系数β:
β = exp [ - 1 T exp F s ]
其中:
Texp为指数时间常数
Fs为采样频率。
可使用其他已知的实现方式。
以上描述了指数(移动)平均函数,但对于ε{}函数(确定平均功率水平),其在输入的平方下执行,并且更新速率是对于每个块周期KB而言的。让我们将ε{Xp,max(KB)2}称作Pxx,p(KB)。于是:
P x x , p ( κ B ) = βP x x , p ( [ κ - 1 ] B ) + ( 1 - β ) X p , m a x 2 ( κ B )
由于该函数的输入是经过的例如5个块的最高水平,并且该水平由音频的指数平均函数确定,所以这似乎是双倍的工作,但这种平滑对于快速收敛的NLMS算法是优选的。其他值Prr,p,i(KB)=ε{Rp,i(KB)2}有利地对算法的外部干扰有反应,例如:在仅一个代表单元激活的系统中,更新对于该代表单元的耦合系数。如果在未激活的代表单元后的演讲者开始说话,则该代表单元将发送请求。然而,对于系统将花费数十毫秒来准许该请求:同时,演讲者的讲话能利用错误输入使耦合系数更新。然而,由于大的误差/残留信号,Prr,p,i(KB)迅速上升,以防止耦合系数的快速更新。
结果,每个代表单元2保留包含对每个其他代表单元2的声学耦合系数估计的表格。在图1中用ACFi、ACF1、ACF2…ACFn指示声学耦合系数表格。
在下一方程中能看到第二触发条件、即弥散噪声条件:
Xi(k)>γdifN(κB)
其中:
γdif是对于该条件的阈值系数
N是(来自ALT的)参考(背景噪声)水平。
由于会议系统1是分布式系统,所以在通信中能出现可操纵如下的延迟和等待。
在演讲者的代表单元2被准许促进通道之前,其他代表单元2由于声学耦合而同样请求通道委托。因此,仅准许第一委托请求,随后,对某一时间量(称作“死区时间”)拒绝所有委托请求。该死区时间应足够长,使得分布式元数据包含有关演讲者的代表单元2的信息。
为了防止大量重新请求,在拒绝先前的请求之后,代表单元2在发送新的请求之前必须等待一段时间。
由于元数据每隔x个样本仅发送一次,所以最后的已知信息可能滞后。在该情况下,不能防止演讲者语音的开始部分在一个或多个代表单元2触发委托(这当耦合估计收敛于它们的终值时发生得更频繁)。为了解决这个问题,代表单元2紧接在它们的通道委托请求已获准许之后等待元数据更新:如果从新的元数据清楚委托请求被声学耦合触发,则代表单元2立即请求通道释放(即,没有超时周期)。
语音检测/识别:
在会议系统1中,代表单元2可由于干扰(笔点击、咳嗽等)而仍然请求并接收促进通道。由于通道被快速释放,所以以上情形是可接受的。代表单元2包括指示装置6,以用光或LED指示代表单元2的激活或未激活状态。然而,对于讨论,优选的是,仅通过激活代表单元2上的指示装置来向公众指示真正的演讲者。在可能的实施例中,提出将指示与通道分配分开。
具有分配的促进通道的、即处于激活状态A的代表单元2上的指示装置6一旦在其音频信号上检测到语音(音调),就被激活。为了限制处理要求,仅对最大声的促进通道进行语音(音调)检测就足够了。还优选的是,在中心服务模块3处进行语音(音调)检测,以降低对代表单元的硬件要求。
讨论系统1的可能的优点是动态地确定代表单元2之间的声学耦合。所述讨论系统1要求分配有限的信息,代表单元2能通过所述有限信息确定它们是否具有作为音频输入的真正演讲者。所述讨论系统1能应付信息交换中的信息延迟。这些改进允许会议系统1灵活并且可扩展。由于邻近的代表单元2不激活,或者仅由于当演讲者开始说话时的声学耦合而非常短地被激活,所以会议系统1(尤其地语音激活)非常稳健。会议系统1(尤其地代表单元2)自我学习,由此,在短的周期之后,对于其他演讲者,即使在邻近的装置,也容易参与讨论。由于会议系统1在不需要手动配置的情况下以小的构型和以非常大的构型工作,所以会议系统1是可扩展的。由于例如利用广播或组播分配的周期性元数据的使用,所以通信开销低。总之,会议系统1通过在代表单元2处确定声学耦合和可选择地确定说话条件来改善鲁棒性和灵活性。

Claims (11)

1.一种会议系统(1),包括:
多个代表单元(2),每个代表单元(2)具有用于从周围接收音频信号的麦克风(5);
中心服务模块(3),其操纵多个促进通道,由此,所述促进通道的音频输出促进了所述会议系统(1)的放大的音频输出,
由此,每个代表单元(2)适于将对促进通道委托的请求发送至所述中心服务模块(3),所述中心服务模块(3)适于准许所述请求,并将促进通道分配给正在请求的代表单元(2),从而将正在请求的代表单元(i)设定在激活状态(A)下,
其特征在于,
所述代表单元(2)适于通过语音激活触发所述请求,由此,在至少第一触发条件被满足的情况下触发所述请求,所述第一触发条件定义为:作为正在请求的可能代表单元(i)的其中一个代表单元(2)的音频信号水平高于对于在激活状态(A)下的每个其他代表单元(2)的个体测试值,由此,所述个体测试值是由提供至其他激活代表单元(2)的音频或语音信号产生的正在请求的可能单元(i)的估计音频信号水平。
2.根据权利要求1所述的会议系统(1),其特征在于,对于测试代表单元(p)的所述个体测试值通过使所述正在请求的可能代表单元(i)与所述测试代表单元(p)之间的个体声学耦合系数与在测试周期期间所述测试代表单元(p)的所述音频信号水平相乘、并且可选择地与阈值系数相乘来得到。
3.根据权利要求1所述的会议系统(1),其特征在于,对于测试代表单元(p)的所述个体测试值通过使所述正在请求的可能代表单元(i)与所述测试代表单元(p)之间的个体声学耦合系数与在最后几个测试周期期间所述测试代表单元(p)的所述音频信号水平的最大值相乘、并且可选择地与阈值系数相乘来得到。
4.根据前述权利要求2或3所述的会议系统(1),其特征在于,每个代表单元(2)包括系数表格(ACF)和音频信号水平表格(ALT),所述系数表格包含其他代表单元的个体ID和个体耦合系数,并且所述音频信号水平表格包含其他激活代表单元(2)的个体ID和在所述测试周期期间的所述音频信号水平。
5.根据权利要求4所述的会议系统(1),其特征在于,所述系数表格(ACF)由所述代表单元(2)管理和/或存档在所述代表单元(2)中,并且所述音频信号水平表格(ALT)由所述中心服务模块(3)提供。
6.根据权利要求2至5所述的会议系统(1),其特征在于,所述代表单元(2)适于以迭代方式为其他代表单元(2)中的每个代表单元估计所述个体声学耦合系数,由此,在每个迭代步骤中,所述个体声学耦合系数的起始值得以增大。
7.根据前述权利要求2至6中任一项所述的会议系统(1),其特征在于,基于第一测试周期(KB)的数据请求促进通道并通过将促进通道分配给所述代表单元(2)而专用于所述促进通道的所述代表单元(2)适于通过基于第二测试周期((K+1)B)的数据重新测试至少所述第一触发条件来检查请求以及从而检查分配。
8.根据权利要求2至7中任一项所述的会议系统(1),其特征在于,所述代表单元(i)适于在至少所述第一触发条件和第二触发条件被满足的情况下触发所述请求,由此,所述第二触发条件要求所述正在请求的可能代表单元(p)的所述音频信号水平在所述测试周期期间高于参考噪声水平(N)。
9.根据前述权利要求2至8中任一项所述的会议系统(1),其特征在于,所述中心服务模块(3)适于在预选死区时间期间仅准许一个请求。
10.根据前述权利要求中任一项所述的会议系统(1),其特征在于,所述代表单元(2)包括用于指示所述代表单元(2)的演讲者状态的演讲者指示装置(6),由此,在要求所述代表单元(2)处于激活状态的第一指示条件被满足的情况下并且在要求检测到语音尤其是语音音调的第二指示条件下所述演讲者指示装置(6)被激活。
11.一种用于根据前述权利要求中任一项所述的会议系统(1)中的语音激活的方法,其特征在于,在至少第一触发条件被满足的情况下所述代表单元(2)通过语音激活触发所述请求,所述第一触发条件定义为:作为正在请求的可能代表单元(i)的其中一个代表单元(2)的音频信号水平高于对于在激活状态(A)下的每个其他代表单元(2)的个体测试值,由此,所述个体测试值是由提供至其他激活代表单元(2)的音频或语音信号产生的正在请求的可能单元(i)的估计音频信号水平。
CN201280078055.3A 2012-12-27 2012-12-27 会议系统和用于会议系统中的语音激活的方法 Active CN104885437B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/076972 WO2014101944A1 (en) 2012-12-27 2012-12-27 Conference system and process for voice activation in the conference system

Publications (2)

Publication Number Publication Date
CN104885437A true CN104885437A (zh) 2015-09-02
CN104885437B CN104885437B (zh) 2018-07-27

Family

ID=47561585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280078055.3A Active CN104885437B (zh) 2012-12-27 2012-12-27 会议系统和用于会议系统中的语音激活的方法

Country Status (6)

Country Link
US (1) US9866700B2 (zh)
EP (1) EP2939407B1 (zh)
JP (1) JP6113303B2 (zh)
CN (1) CN104885437B (zh)
ES (1) ES2626054T3 (zh)
WO (1) WO2014101944A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110663258A (zh) * 2017-05-19 2020-01-07 铁三角有限公司 语音信号处理装置
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9866700B2 (en) * 2012-12-27 2018-01-09 Robert Bosch Gmbh Conference system and process for voice activation in the conference system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006304032A (ja) * 2005-04-22 2006-11-02 Yamaha Corp 拡声システム
JP2009141400A (ja) * 2007-12-03 2009-06-25 Audio Technica Corp 音声会議装置および音声会議方法
WO2011009483A1 (en) * 2009-07-22 2011-01-27 Robert Bosch Gmbh Delegate unit for a conference system, conference system, method for operating the delegate unit and computer program

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4941187A (en) * 1984-02-03 1990-07-10 Slater Robert W Intercom apparatus for integrating disparate audio sources for use in light aircraft or similar high noise environments
US5204909A (en) * 1991-09-12 1993-04-20 Cowan John A Audio processing system using delayed audio
JPH09102831A (ja) * 1995-07-31 1997-04-15 Canon Inc 通信システム及び通信装置及び通信方法
US7596129B2 (en) * 1998-03-13 2009-09-29 At&T Intellectual Property I, L.P. Home gateway systems and methods to establish communication sessions
JPH11331434A (ja) 1998-05-18 1999-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声会議端末,多地点間音声会議制御装置および音声会議端末のプログラム記録媒体
WO2001035655A2 (en) * 1999-11-08 2001-05-17 Polycom Israel Ltd. A method for controlling one or more multipoint control units with one multipoint control unit
US20020099552A1 (en) * 2001-01-25 2002-07-25 Darryl Rubin Annotating electronic information with audio clips
DE60312332T2 (de) * 2003-09-30 2008-01-10 Siemens Ag Anrufsprungsystem, verfahren und vorrichtung
US8687820B2 (en) * 2004-06-30 2014-04-01 Polycom, Inc. Stereo microphone processing for teleconferencing
NO328256B1 (no) * 2004-12-29 2010-01-18 Tandberg Telecom As Audiosystem
EP1681670A1 (en) * 2005-01-14 2006-07-19 Dialog Semiconductor GmbH Voice activation
EP1686835A1 (en) * 2005-01-26 2006-08-02 Robert Bosch Gmbh Conference system
DE602006010323D1 (de) * 2006-04-13 2009-12-24 Fraunhofer Ges Forschung Audiosignaldekorrelator
US8218785B2 (en) * 2008-05-05 2012-07-10 Sensimetrics Corporation Conversation assistant for noisy environments
JP5602726B2 (ja) * 2008-06-11 2014-10-08 ローベルト ボツシユ ゲゼルシヤフト ミツト ベシユレンクテル ハフツング 会議オーディオシステム、オーディオ信号の分配方法およびコンピュータプログラム
US20110095875A1 (en) * 2009-10-23 2011-04-28 Broadcom Corporation Adjustment of media delivery parameters based on automatically-learned user preferences
US9866700B2 (en) * 2012-12-27 2018-01-09 Robert Bosch Gmbh Conference system and process for voice activation in the conference system
US9973632B2 (en) * 2013-03-15 2018-05-15 Robert Bosch Gmbh Conference system and process for operating the conference system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006304032A (ja) * 2005-04-22 2006-11-02 Yamaha Corp 拡声システム
JP2009141400A (ja) * 2007-12-03 2009-06-25 Audio Technica Corp 音声会議装置および音声会議方法
WO2011009483A1 (en) * 2009-07-22 2011-01-27 Robert Bosch Gmbh Delegate unit for a conference system, conference system, method for operating the delegate unit and computer program
CN102474549A (zh) * 2009-07-22 2012-05-23 罗伯特·博世有限公司 会议系统的代表单元、会议系统、操作代表单元的方法和计算机程序

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110663258A (zh) * 2017-05-19 2020-01-07 铁三角有限公司 语音信号处理装置
CN110663258B (zh) * 2017-05-19 2021-08-03 铁三角有限公司 语音信号处理装置
CN111429914A (zh) * 2020-03-30 2020-07-17 招商局金融科技有限公司 麦克风控制方法、电子装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN104885437B (zh) 2018-07-27
ES2626054T3 (es) 2017-07-21
EP2939407B1 (en) 2017-02-22
JP6113303B2 (ja) 2017-04-12
JP2016503265A (ja) 2016-02-01
US9866700B2 (en) 2018-01-09
US20150334247A1 (en) 2015-11-19
EP2939407A1 (en) 2015-11-04
WO2014101944A1 (en) 2014-07-03

Similar Documents

Publication Publication Date Title
CN107910014B (zh) 回声消除的测试方法、装置及测试设备
CN107112012B (zh) 用于音频处理的方法和系统及计算机可读存储介质
US9918174B2 (en) Wireless exchange of data between devices in live events
CN107333093B (zh) 一种声音处理方法、装置、终端及计算机可读存储介质
US11095997B2 (en) Undesirable noise detection and management
CN110956976B (zh) 一种回声消除方法、装置、设备及可读存储介质
CN104580764B (zh) 电话会议系统中的超声配对信号控制
CN104885437A (zh) 会议系统和用于会议系统中的语音激活的方法
CN113203988A (zh) 声源定位方法及装置
JP6201279B2 (ja) サーバ、サーバの制御方法および制御プログラム、情報処理システム、情報処理方法、携帯端末、携帯端末の制御方法および制御プログラム
CN107979507A (zh) 一种数据传输方法、装置、设备及存储介质
CN103370741B (zh) 处理音频信号
CN111756939B (zh) 在线语音控制方法、装置及计算机设备
JP7238978B2 (ja) 評価装置、評価方法、およびプログラム
US7515703B1 (en) Method and system for determining conference call embellishment tones and transmission of same
US20220415299A1 (en) System for dynamically adjusting a soundmask signal based on realtime ambient noise parameters while maintaining echo canceller calibration performance
JP2000004495A (ja) 複数マイク自由配置による複数話者位置推定方法
US11804237B2 (en) Conference terminal and echo cancellation method for conference
CN105072553A (zh) 音响设备的扩音方法及装置
Bradley et al. Speech levels in meeting rooms and the probability of speech privacy problems
CN110798580B (zh) 远程多方语音会议的噪声去除方法、装置及电子设备
KR102505345B1 (ko) 하울링 제거 시스템과 방법 및 이를 위한 컴퓨터 프로그램
JP6126053B2 (ja) 音響品質評価装置、音響品質評価方法、およびプログラム
CN112542178B (zh) 音频数据处理方法及装置
US11741929B2 (en) Dynamic network based sound masking

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant