CN102598644B - 会议电话系统以及方法 - Google Patents
会议电话系统以及方法 Download PDFInfo
- Publication number
- CN102598644B CN102598644B CN200980162321.9A CN200980162321A CN102598644B CN 102598644 B CN102598644 B CN 102598644B CN 200980162321 A CN200980162321 A CN 200980162321A CN 102598644 B CN102598644 B CN 102598644B
- Authority
- CN
- China
- Prior art keywords
- main loudspeaker
- value
- stream
- maximum number
- inlet flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
- H04M3/569—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants using the instant speaker's algorithm
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2203/00—Aspects of automatic or semi-automatic exchanges
- H04M2203/50—Aspects of automatic or semi-automatic exchanges related to audio conference
- H04M2203/5072—Multiple active speakers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2242/00—Special services or facilities
- H04M2242/06—Lines and connections with preferential service
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/563—User guidance or feature selection
- H04M3/566—User guidance or feature selection relating to a participants right to speak
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种会议电话系统,该会议电话系统包括用于在会议电话期间接收音频信号的至少两个输入流的输入接口,每个输入流都来自另一信源。选择单元被连接到该输入接口,用于从输入流中选择多个主扬声器流,该数目小于或等于主扬声器值的最大数目,并且主扬声器流中的每一个都表示来自相应的主扬声器的话音。混合器被连接到该选择单元,用于将所选择的流混合到输出流中。该会议电话系统包括用于输出该输出流的输出接口和连接到该选择单元和输入接口的选择控制单元,用于在会议电话期间基于会议电话的动态来动态地设置主扬声器值的最大数目。
Description
技术领域
本发明涉及一种会议电话系统和方法、以及一种计算机程序产品。
背景技术
在当前的语音会议系统中,会议桥接器中的扬声器选择算法检测活跃的扬声器并且通过混合该活跃的扬声器或活跃的参与者的音频来创建输出流。活跃的流然后被传送给会议电话上的参与者。然而,活跃的扬声器的选择包括基于从活跃的扬声器所位于的电话端点接收到的语音通信的能量级别来选择通常被称为主扬声器的预定数目的最活跃的扬声器。当接收到来自主扬声器的话音时,所有其它扬声器根据扬声器选择算法被排除在外。
例如,美国专利申请公开US2007/263821A1描述了一种在多方会议电话中提供扬声器选择的方法和装置。该方法包括:处理用于至少一个新的扬声器的扬声器队列,并且监视主扬声器的数目何时小于主扬声器的预定数目。当主扬声器的预定数目小于预定数目时,在没有人为干涉的情况下,该方法自动地将来自扬声器队列的新的扬声器添加到主扬声器。
常规的扬声器选择算法故意地不允许新的扬声器加入直到主扬声器中的一个已经沉寂一段时间为止。尽管这消除了中断,但是如果主扬声器继续保持讲话,则其还阻止了新的扬声器讲话的机会。
发明内容
本发明提供了一种会议电话系统、一种会议电话方法以及一种计算机程序产品,如所附权利要求中所描述的。
在从属权利要求中阐明了本发明的特定实施例。
本发明的这些和其它方面将从下文中所描述的实施例中显而易见,并且将参考下文中所描述的实施例阐述发明的这些和其它方面。
附图说明
将参考图仅通过示例的方式描述本发明的更多的细节、方面和实施例。在图中,相同的附图标记被用来标识相同的或功能上类似的元素。图中的元素是为了简单和清楚而示出的,并且不必按比例绘制。
图1示意性地示出了会议电话系统的实施例的示例的框图。
图2示意性地示出了适合于图1的示例的选择控制单元的实施例的示例的框图。
图3示意性地示出了新的主扬声器检测器的实施例的示例的框图。
图4示意性地示出了减量估计单元的实施例的示例的框图。
图5示意性地示出了计算机可读介质的立体图。
图6示意性地示出了图示了最近过去的、遥远的过去的、以及总体过去的时间窗的图。
图7示意性地示出了图示了使用响度作为分类器将输入流分类在不同种类中的图。
图8示意性地示出了图示了使用输入流之间的响度方面的差别作为分类器将输入流分类在不同种类中的图。
具体实施方式
因为对于大部分而言可以使用为本领域的技术人员已知的电子组件和电路来实现所图示的本发明的实施例,所以将不在比对于理解和了解本发明的基本概念被认为是必要的任何更大程度上对细节进行解释,并且以便于不使本发明的教导模糊或者从本发明的教导转移。
参考图1,在其中所示的会议电话系统1的示例包括输入接口14。在会议电话期间,在接口14处接收到包含音频的两个或两个以上的输入流101-103。输入流中的每一个都起源于另一个信源10-12,例如电话或扬声器的其它通信单元。将显而易见的是,除这些输入流之外,还可以接收其它的输入流,其可以或可以不起源于相同的信源。此外,将显而易见的是,多个人可以共享相同的电话或其它的音频通信单元。在下文中术语“主扬声器”指的是被选择为可以由一个人或一个以上的人使用的“主扬声器”的信源。术语“非主扬声器”指的是可以或可以不展现满足主扬声器的标准的行为但未被选择为主扬声器的信源。术语“附加主扬声器”指的是展现了满足主扬声器的标准的行为但是仍然未被选择为主扬声器的信源。
输入流每个都包括表示来自信源的至少音频的数据或信号,并且除此之外还可以包括视频和/或数据。音频可以例如由有声的音频(例如话音)组成,并且也包括其它类型的音频,诸如背景噪声、非有声的声音、背景传闻。音频可以例如是未过滤的或已经被过滤以移除不希望有的分量,诸如噪声、非有声的声音、背景传闻或其它。
图1中所示的会议电话系统1进一步包括选择单元15,所述选择单元15被连接到输入接口14。当系统1在操作中时,选择单元15从输入流101-103中选择多个主扬声器流。所选择的数目K小于或等于主扬声器值的最大数目Kmax。如示例中所示,主扬声器值的最大数目Kmax被设置为2并且选择了等于主扬声器值的最大数目的多个输入流102、103。然而,也可以选择小于主扬声器值的最大数目的数目。
可以使用适合于选择主扬声器流的任何标准来执行所述选择。例如,在没有人为干扰的情况下,可以通过选择Kmax个最大声的流来自动地执行所述选择。在这方面中,术语“最大声的”指的是其中观测到关注的信号中的最高强度的流。关注的信号可以例如是作为音频信号的全部或一部分的音频信号,诸如其有声的部分、无背景噪声和非 有声的部分。关注的信号可以例如占用一个或多个时间段,例如,在一个或多个时间窗口期间的响度可以被用作为选择标准。
例如,可以针对每个流中的音频来计算响度数λ,并且可以选择具有Kmax个最高的响度数λ1、λ2、…、λKmax的流。在下文中被称为“ISCC2001论文”并且通过引用合并在本文中的Prasad,Venkatesha R.;Kuri,Joy;Jamadagni,H S;Dagale,Haresh;and Ravindranath,Ravi A.,"Automatic Addition and Deletion of Clients in VoIP Conferencing,"ISCC,pp.0386,Sixth IEEE Symposium on Computers and Communications(ISCC'01),2001中描述了用于计算响度数的适当的方法。
响度数λ可以例如是输入流的现在和过去的幅度的函数。例如能够从在“最近过去的”窗口Wrp期间的当前的活动性L1、“遥远的过去的”窗口Wdp内的过去的活动性L2以及“总体过去的”窗口Wop内的总体过去的活动性L3来计算流i的响度数λi。当前的活动性L1可以例如是当前过去的窗口Wrp期间的幅度的移动平均值。过去的活动性L2可以例如是遥远的过去的窗口Wdp期间的幅度的移动平均值。过去的活动性L2例如可以是遥远的过去的窗口Wdp期间的幅度的移动平均值。总体的活动性L3可以例如是遥远的过去的窗口Wap期间的幅度的移动平均值。
如图6中所图示,“最近过去的”窗口Wrp可以从时间T0处的当前点延伸到在时间T0处的当前点之前的时间T-1处的过去的点。“遥远的过去的”窗口Wdp可以例如从时间T0处的当前点延伸到在时间T-1处的过去的点之前的时间T-2处的遥远的点。“总体过去的”窗口Wop可以例如从时间T0处的当前点延伸到在时间T-2处的遥远的点之前的时间T-3处的更遥远的点。
可以例如通过执行如能够由数学公式描述的运算来计算活动性L1、L2、L3。
,其中,Xk,i是第i个输入流的第k个采样的幅度。Θ是相对于在输入流中找到的最大幅度max(X(k))运算的二进制运算,并且可以例如通过执行如能够由数学公式描述的运算来计算:
,在这个等式(2)中,值0.1是阈值,其可以被设置为适合于具体实施方式的任何值并且可以例如选自0.1和0.2的组以及0.1与0.2之间的所有中间的点。
响度数λ例如可以例如是活动性L1、L2、L3的加权和,并且例如通过执行如能够由数学公式描述的运算来计算:
λ=α1*L1+α2*L2+α3*L3 (3)
其中,α1、α2、α3是具有合适的值的常数。已经找到合适的值为例如α1=0.6、α2=0.3、α3=0.3,但是也可以使用其它的值。
主扬声器流可以以另一方式来选择,并且例如基于输入流的话音的内容来选择,例如以US 2007/263821中所描述的方式或任何其它适当的方式。
在图1中所示的示例中,混合器16被连接到选择单元15。在操作中,混合器16将所选择的流混合为输出流110。如所示,输出接口17被连接到混合器16以便于接收输出流110。经由输出接口17输出流110被输出到连接到会议电话系统1的一个或多个通信装置,在这个示例中连接到构成信源10-12的通信装置。因此,经由所示的通信装置,参与会议电话的人既能够说也能够听其它的参与者。将显而易见的是,输出流110也可以被输出到仅允许参与者听的其它通信单元,例如具有在“静音”上或从其中输入流未被选择为主扬声器流的扬声器装置的通信装置。例如在具有大量的参与者与有限数目的扬声器的会议电话中,输出流可以被广播到网络中给所有的参与者。
在所示的示例中,输出接口117将输出流110分成多个流111-113。然而,替代地,输出接口117可以输出输出流110,然后通过电信网络中的另一节点将输出流110进一步地分配给相关通信单元。
在图1的示例中,示出了连接到选择单元14和输入接口15的选择控制单元18。选择控制单元18在会议电话期间基于会议的动态来动态地设置主扬声器值的最大数目Kmax。因此,能够添加新的主扬声器,从而避免了在那个时间点为主扬声器的一个或多个参与者阻塞来自正尝试在电话中讲话的会议电话中的其它参与者的输入流。
选择控制单元18可以被实现成以适合于具体实施方式的任何方式基于会议的动态来设置主扬声器值的最大数目Kmax。例如,选择控制单元18可以将主扬声器值的最大数目Kmax设置成等于其响度超过预定阈值的输入流的数目或者任何其它适当的方式。
参考图2,选择控制单元18可以包括比较器181。如所示,存储器单元303被连接到比较器181并且比较器进一步被连接到输入接口14。在存储器303中,存储了主扬声器值的最大数目Kmax。
比较器181能够比较输入流101-103并且从输入流101-103中选择主扬声器流。在下文中被称为“ITRE2003论文”、通过引用合并在本文中的Prasad,Venkatesha R.;Jamadagni,HS;and Shankar,HN:“On the Problem of Specifying the Number of Floors for a Voice-Only Conference on Packet Networks”,International Conference on Information Technology:Research and Education,2003.ITRE2003,11-13August,New Jersey,USA,22-26中描述了用于选择主扬声器流的适当的技术。比较器181可以例如选择响度数λ超过表示主扬声器流的预定阈值直到最大值Kmax的输入流。如果在阈值之上的输入流的数目超过如上文解释的Kmax,则比较器181可以例如比较输入流以选择具有最高的响 度数的Kmax个数目的输入流。比较器181可以定期地重复所述比较,并且从而可以避免即使当对应的输入流不再包含语音时,主流保持被选择。
在所示的示例中,比较器181经由相应的计算器188-190被连接到输入接口14,所述相应的计算器188-190被布置成根据表示音频的响度的相应的输入流的参数针对输入流101-103中的每一个计算响度数λ,例如如上文所解释的。在所示的示例中,单独的计算器为每个输入流101-103而存在并且计算器188-190被连接到输入接口14。对于计算器188-190中的每一个而言,语音检测器185-187与到输入接口14的输入端连接。语音检测器185-187能够检测输入流101-103中的语音。当检测到语音时,语音检测器185-187启用相应的计算器188-190,并且当未检测到语音时,禁用相应的计算器188-190或以其他方式确保其输出最低的响度数。从而,能够通过比较器181仅仅潜在地选择从其中接收到有声信号的那些输入流。可以以诸如本领域内已知的适合于检测语音的任何方式来实现语音检测器185-187,并且为了简洁起见不进行更详细的描述。在下文中被称为“ISCC 2002论文”并且通过引用合并在本文中的例如Prasad,Venkatesha R.;Sangwan,Abhijeet;Jamadagni,HS;Chiranth,MC and Sah,Rahul“Comparison of Voice Activity Detection Algorithms for VoIP”,Seventh International Symposium on Computers and Communications,2002.ISCC 2002,1-4July,Taormina-Giardini Naxos,Italy,pp.530-535中描述了适当的实施方式。
选择控制单元18可以例如包括第一逻辑单元301和第二逻辑单元302。在所示的示例中,逻辑单元301、302与到接口14的它们的相应的输入端连接。逻辑单元301、302与其中存储了主扬声器值的最大数目Kmax的存储单元303的它们的输出端连接。
如参考图3和4在下文中更详细地解释的,当满足主扬声器增加 标准时,第一逻辑单元301可以增加主扬声器值的最大数目Kmax,反之当满足主扬声器降低标准时,第二逻辑单元302可以降低主扬声器值的最大数目。
第一逻辑单元301可以例如被连接到新的扬声器检测器180。在所示的示例中,新的扬声器检测器将第一逻辑单元301连接到输入接口14。然而,将显而易见的是在第一逻辑单元301与输入接口14之间可以存在其它的单元。
新的主扬声器检测器180能够从输入流中检测附加的主扬声器流,即附加到被选择为主扬声器流的输入流。如果检测器180检测到附加的主扬声器流,则检测器180将附加的主扬声器通知输出到第一逻辑单元301。第一逻辑单元301然后例如响应于该通知而确定是否增加主扬声器值的最大数目。例如,当主扬声器的当前数目低于主扬声器值的最大数目Kmax时,第一逻辑单元301可以照原来的样子维持主扬声器值的最大数目,并且当主扬声器的当前数目等于主扬声器值的最大数目时,第一逻辑单元301可以将值Kmax递增1。
新的主扬声器检测器180能够以适合于具体实施方式的任何方式来检测附加的主扬声器流。为此,新的主扬声器检测器180能够将输入流的一个或多个参数与适合于检测附加的主扬声器流的一个或多个标准相比较。
参数可以例如是响度。参考图3中所示的示例,新的主扬声器检测器180可以例如包括连接到输入接口14的一个或多个计算器188-190。计算器根据表示音频的响度的相应的输入流的参数针对输入流101-103中的每一个来计算响度值λ1、λ2、λ3。在所示的示例中,存在与到新的主扬声器检测器180的相应的检测器输入端182-183的计算器输入端连接的相应计算器188-190。在检测器输入端182-183处可以接收输入流101-103。
在所示的示例中,新的主扬声器检测器180进一步包括语音检测器185-187,所述语音检测器185-187与到检测器输入端182-183的它们的输入端连接并且与到计算器188-190的相应的控制输入端的它们的输出端连接。语音检测器185-187将输入流的一个或多个参数与适合于检测输入流中的语音的标准相比较。当在之前不包括语音的输入流检测到语音时,新的主扬声器检测器180启用对应的计算器。从而,可以确保仅包括语音的输入流能够被指派为主扬声器,并且例如具有由于噪声或非有声的音频(例如,音乐)而导致高的音频幅度的输入流保持非主的,并且因此能够提高会议电话的总体质量。尽管在图3的示例中语音检测器185-187被示出用于输入流101-103中的每一个,但是将显而易见的是语音检测器185-187可以替代地仅仅适用于输入流中的一些,诸如其非主的扬声器流。
所示的新的主扬声器检测器180进一步包括连接到计算器的分类器191。分类器191至少基于与一个或多个类别M1-M6、N1-N7内相应的非主流i相对应的响度值λi来对输入流101-103的非主流进行分类。在所示的示例中,分类器191对两个集合M1-M6和N1-N7的相应的类别内的输入流进行分类。第一集合M1-M6内的分类是基于响度值λ的,然而第二集合N1-N7内的分类是基于差动响度值Δλi的,所述差动响度值Δλi是响度值λi与在最后一个主扬声器被选择的点上选择的最后一个主扬声器的响度值λa之间的差。图7示出了作为响度值λi的函数的类别M1-M6的图。图 8示出了作为差动响度值Δλi的函数的类别N1-N7的图。垂直轴指示权重因子WM、WN,其分别是响度值λi和差动响度值Δλi的函数。如所示,上下限T1-T5确定输入流与相关类别M1-M6的从属关系。上下限P1-P6确定输入流与相关类别N1-N7的从属关系。
例如,对于T2的响度值λi而言,输入流i将被分类在具有WM=1的类别M2内。对于T3的响度值λi而言,输入流将被分类在具有WM=1的类别M3内。对于T2与T3之间的响度值λi而言,例如λi=A,输入 流将被分类在具有如由连续线限定的用于M2的权重因子Wm2(A)和如由虚线限定的用于M3的权重因子Wm3(A)的类别M2与M3内。
所示的新的主扬声器检测器180进一步包括连接到分类器191的检测器逻辑单元192。当在操作中时,检测器逻辑单元192基于分类来估计一个或一个以上的规则,并且针对规则中的每一个来确定估计值。例如,检测器逻辑单元192可以估计以下的规则R0-R19,其中i指的是输入流i:
R0:如果(i∈M2&i∈N1)则D=1或者
R1:如果(i∈M2&i∈N2)则D=1或者
R2:如果(i∈M2&i∈N3)则D=1或者
R3:如果(i∈M3&i∈N1)则D=1或者
R4:如果(i∈M3&i∈N2)则D=1或者
R5:如果(i∈M3&i∈N3)则D=1或者
R6:如果(i∈M3&i∈N4)则D=1或者
R7:如果(i∈M3&i∈N5)则D=1或者
R8:如果(i∈M4&i∈N1)则D=1或者
R9:如果(i∈M4&i∈N2)则D=1或者
R10:如果(i∈M4&i∈N3)则D=1或者
R11:如果(i∈M4&i∈N4)则D=1或者
R12:如果(i∈M4&i∈N5)则D=1或者
R13:如果(i∈M5&i∈N1)则D=1或者
R14:如果(i∈M5&i∈N2)则D=1或者
R15:如果(i∈M5&i∈N3)则D=1或者
R16:如果(i∈M5&i∈N4)则D=1或者
R17:如果(i∈M5&i∈N5)则D=1或者
R18:如果(i∈M5&i∈N6)则D=1或者
R19:如果i∈M6则D=1。
检测器逻辑单元192可以例如通过执行如能够通过Eq=Dq*(WM(q)+WN(q))描述的计算来为这些规则中的每一个计算估计值E,在Eq=Dq*(WM(q)+WN(q))中WM(q)和WN(q)表示用于在规则q中使用的类别Mq与Nq的权重因子。例如对于R18而言,假设如图7和8中所图示λi=A、Δλi=B,则i∈M2并且i∈N3,结果将是E18=D18*(WM2(A)+WN3(B))。
所示的新的主扬声器检测器180进一步包括连接到检测器逻辑单元192的加法器193和连接到加法器193的比较器194。加法器193从检测器逻辑单元192接收估计值并且将估计值E1、E2、…、Ej相加以获得和值Σ。比较器194然后将该和值Σ与阈值Tr相比较,并且当和值Σ超过阈值Tr时在检测器输出端195处输出主扬声器值的最大数目增加通知。
往回参考图2,第二逻辑单元302可以被连接到减量估计单元200。该减量估计单元200可以被布置成将主扬声器流中的一个或一个以上的一个或一个以上的参数与主扬声器值的预定最大数目降低标准相比较,并且当参数满足主扬声器值的预定最大数目降低标准时,将主扬声器的最大数目降低通知输出到第二逻辑单元302。响应于该通知,第二逻辑单元302能够降低存储在存储器303中的主扬声器的最大数目。
在图4的示例中,减量估计单元200包括连接到输入接口14的语音检测器204-206。当在操作中时,语音检测器204-206检测主扬声器流中的语音。
第二逻辑单元302进一步包括连接到输入接口14的响度比较器211。该响度比较器211将主扬声器流中的一个或一个以上的中的至少语音的强度与响度阈值相比较。图4的示例包括相应的计算器207-209,所述相应的计算器207-209被布置成根据表示音频的响度的相应的输 入流的参数为输入流中的每一个来计算响度值λ,例如如上文所解释的那样。在所示的示例中,单独的计算器为每个输入流而存在,并且计算器被连接到输入接口14。对于计算器207-209中的每一个而言,语音检测器204-206与到输入接口14的输入端连接。语音检测器204-206能够检测输入流中的语音,并且当检测到语音时启用相应的计算器207-209,以及当未检测到语音时禁用相应的计算器207-209,或者以其他方式确保其输出在阈值Tr以下的响度数。
当在主扬声器流中的一个或一个以上中未检测到语音时,和/或当针对主扬声器流中的一个或一个以上通过响度比较器211确定强度在响度阈值Tr以下时,减量估计单元200将通知输出到第二逻辑单元302。响应于该通知,第二逻辑单元302然后降低主扬声器值的最大数目Kmax。为了生成该通知,所示的示例包括或门213,其与到比较器211的第一输入端口连接并且与到语音检测器的第二输入端口连接。当通过响度比较器211确定主扬声器流中的一个或一个以上的强度在响度阈值Tr以下时,第一输入端口通过响度比较器211被断言。当语音检测器204-206中的一个或多个未检测到语音时,第二输入端口被断言。当断言输入端口中的至少一个时,或门213以二进制1的形式输出通知,并且当没有输入端口被断言时,什么也不输出(以二进制0的形式)。
图4中所示的减量估计单元200进一步包括选择器210、212,选择器210、212分别连接到计算器207-209和被选择为到比较器213的输入端的最后一个主扬声器流的语音检测器204-206。因此,在这个示例中仅最后一个主扬声器流的参数经历估计。然而,减量估计单元200也可以替代地估计其它的主扬声器流,并且例如包括用于主扬声器流中的每一个的专用比较器和语音检测器。
本发明也可以以用于在计算机系统上运行、当在诸如计算机系统的可编程装置上运行时至少包括用于执行根据本发明的方法的步骤的 代码部分或使可编程装置能够执行根据本发明的设备或系统的功能的计算机程序来加以实现。
计算机程序是诸如专用程序和/或操作系统的一系列指令。计算机程序可以例如包括以下中的一个或多个:子例程、函数、过程、对象方法、对象实施方式、可执行的应用、小程序、小服务程序、源代码、目标代码、共享库/动态装载库和/或针对在计算机系统上执行所设计的其它序列的指令。
计算机程序可以被内部地存储在计算机可读存储介质上,例如如图5中所示,或经由计算机可读传输介质传送到计算机系统。计算机系统中的全部或一些可以被设置在临时地、可移除地或远程地耦合到信息处理系统的计算机可读介质上。计算机可读介质可以例如是放置在用于被读取的容器中的计算机可读介质,并且包括例如但是没有限制以下各项中的任何数目:包括磁盘和磁带存储介质的磁存储介质;诸如紧致盘介质(例如,CD-ROM、CD-R等)和数字视频盘存储介质的光学存储介质;诸如FLASH存储器、EEPROM、EPROM、ROM的包括基于半导体的存储器单元的非易失性存储器存储介质;铁磁体数字存储器;MRAM;包括寄存器、缓冲器或高速缓存、主存储器、RAM等的易失性存储介质。计算机可读介质还可以是包括计算机网络、点对点电信装置以及载波传输介质等等的数据传输介质。
计算机处理通常包括执行(运行)程序或程序的一部分、当前程序值和状态信息以及被操作系统使用以管理处理的执行的资源。操作系统(OS)是管理计算机的资源的共享并且向程序员提供用来访问那些资源的接口的软件。操作系统处理系统数据和用户输入,并且通过分配和管理任务和内部的系统资源作为服务给系统的用户和程序来作出响应。
计算机系统可以例如包括至少一个处理单元、关联存储器以及多 个输入/输出(I/O)设备。当执行计算机程序时,计算机系统根据计算机程序来处理信息并且经由I/O设备来产生合成的输出信息。
在前述说明书中,已经参考本发明的实施例的特定示例对本发明进行了描述。然而,将明显的是,在不背离如所附权利要求中陈述的本发明的更宽广的精神和范围的情况下,可以在其中做出各种修改和改变。
例如,代替图7和8中所图示的线性函数,可以使用诸如抛物线或双曲线的其它函数。同样地,可以使用不同数目的类别M、N和/或输入流。
同样地,如本文中所讨论的连接可以是适合于例如经由中间设备从相应的节点、单元或设备传输信号或者将信息传输到相应的节点、单元或设备的任何类型的连接。因此,除非另外暗示或规定,否则连接可以例如是直接连接或间接连接。可以根据为单个连接、多个连接、单向连接或双向连接来图示或描述连接。然而,不同的实施例可以随连接的实施方式变化。例如,可以使用单独的单向连接而不是双向连接并且反之亦然。同样地,可以用串行地或以时分复用的方式传输多个信号的单个连接来代替多个连接。同样地,携带多个信号的单个连接可以被分开为携带这些信号的子集的各种不同的连接。因此,存在用于传输信号的许多选项。
另外,本文中所描述的每个信号都可以被设计为正或负逻辑。在负逻辑信号的情况下,信号是低态有效,其中逻辑上真状态对应于逻辑电平零。在正逻辑信号的情况下,信号是高态有效,其中逻辑上真状态对应于逻辑电平一。注意的是,本文中所描述的信号中的任何一个都能够被设计为负或正逻辑信号。因此,在替代实施例中,被描述为正逻辑信号的那些信号可以被实现为负逻辑信号,并且被描述为负逻辑信号的那些信号可以被实现为正逻辑信号。
另外,当涉及分别将信号、状态位或类似装置翻译为其逻辑上真或逻辑上假状态时,在本文中使用了术语“断言”或“设置”和“否定”(或“解除断言”或“清除”)。如果逻辑上真状态是逻辑电平一,则逻辑上假状态是逻辑电平零。并且如果逻辑上真状态是逻辑电平零,则逻辑上假状态是逻辑电平一。
本领域的技术人员将进一步认识到逻辑块之间的边界仅仅是说明性的,并且替代实施例可以合并逻辑块或电路元件,或者将功能的替代分解强加在各种逻辑块或电路元件上。因此,将要理解的是,本文中所描绘的架构仅仅是示例性的,并且实际上能够实施实现相同的功能的许多其它架构。例如,图2-4中所示的语音检测器和计算器可以被不同的单元共享。
同样地例如,在一个实施例中,所图示的示例可以被实现为位于在单个集成电路上或相同的设备内的电路。例如,会议电话系统可以被实现为适当的程控处理器,诸如通用微处理器或数字信号处理器。替代地,示例可以以适当的方式被实现为任何数目的单独的集成电路或彼此互连的单独的设备。
同样地例如,示例或其部分可以被诸如以任何适当类型的硬件描述语言实现为物理电路的或可转换为物理电路的逻辑表达式的表示。
然而,其它修改、变化以及替代也是可以的。因此,说明书和图应当在说明性的而不是在限制的意义上考虑。
在权利要求中,放在括弧之间的任何参考符号将不被解释为限制权利要求。词语‘包括’不排除其它元素或步骤以及在权利要求中列举的那些的存在。另外,如本文中所使用的术语“一”或“一个”被定义为一个或一个以上。同样地,即使当相同的权利要求包括介绍性 短语“一个或多个”或“至少一个”和诸如“一”或“一个”的不定冠词时,权利要求中的诸如“至少一个”和“一个或多个”的介绍性短语的使用不应该被解释成暗示通过不定冠词“一”或“一个”的另一权利要求元素的引入将包含这样引入的权利要求元素的任何特定的权利要求限制到包含仅一个这样的元素的发明。相同的情况适用于定冠词的使用。除非另外规定,否则诸如“第一”和“第二”的术语被用来任意地区分这样的术语描述的元素。因此,这些术语未必旨在指示这样的元素的短暂的或其它的优先化。在相互不同的权利要求中列举了特定措施的简单事实不指示这些措施的组合不能够被用来使处于优势。
Claims (4)
1.一种会议电话系统,包括:
输入接口,所述输入接口用于在会议电话期间接收音频信号的至少两个输入流,所述输入流中的每一个来自另一个信源;
连接至所述输入接口的选择单元,所述选择单元用于从所述输入流中选择多个主扬声器流,所述主扬声器流的数目小于或等于主扬声器值的最大数目,并且所述主扬声器流中的每一个表示来自相应的主扬声器的话音;
连接到所述选择单元的混合器,所述混合器用于将所选择的流混合为输出流;
输出接口,所述输出接口用于输出所述输出流;以及
连接到所述选择单元和所述输入接口的选择控制单元,所述选择控制单元用于在所述会议电话期间基于所述会议电话的动态来动态地设置主扬声器值的所述最大数目,
其中,所述选择控制单元包括:
第一逻辑单元,所述第一逻辑单元用于当满足主扬声器增加标准时,增加主扬声器值的所述最大数目;以及
第二逻辑单元,所述第二逻辑单元用于当满足主扬声器降低标准时,降低主扬声器值的所述最大数目,
所述会议电话系统进一步包括连接到所述输入接口的新的主扬声器检测器,用于从所述输入流中检测附加的主扬声器流;并且
其中,所述第一逻辑单元连接到所述新的主扬声器检测器,并且被布置成当所述第一逻辑单元在操作中时,当所述数目等于主扬声器值的所述最大数目并且所述新的主扬声器检测器检测到附加的主扬声器流时,增加主扬声器值的所述最大数目,
其中,所述新的主扬声器检测器包括:
连接到所述输入接口的计算器,所述计算器用于根据表示所述音频信号的响度的相应的输入流的参数对所述输入流中的每一个计算响度值;
连接到所述计算器的分类器,所述分类器用于至少基于与非主流相对应的响度值对所述输入流的所述非主流进行分类;以及
连接到所述分类器的检测器逻辑单元,所述检测器逻辑单元用于基于所述分类来估计至少一个规则并且针对所述规则中的每一个来确定估计值;
加法器,所述加法器用于将所述估计值相加以获得和值;以及
连接到所述加法器的比较器,所述比较器用于将所述和值与阈值相比较,并且当所述和值超过所述阈值时,输出主扬声器值的最大数目增加信号。
2.根据权利要求1所述的会议电话系统,包括连接到所述输入接口的减量估计单元,所述减量估计单元用于将所述主扬声器流中的至少一个的至少一个参数与主扬声器值的预定最大数目降低标准相比较;并且
其中,所述第二逻辑单元连接到所述减量估计单元,并且被布置成当在操作中时,当所述参数满足主扬声器值的预定最大数目降低标准时,降低主扬声器值的所述最大数目。
3.根据权利要求2所述的会议电话系统,其中,
所述减量估计单元包括:
连接到所述输入接口的语音检测器,所述语音检测器用于检测所述主扬声器流中的语音;以及
连接到所述输入接口的响度比较器,所述响度比较器用于将所述主扬声器流中的至少一个中的语音的强度与响度阈值相比较;
并且其中所述第二逻辑单元被布置成当在所述主扬声器流中的至少一个中未检测到语音时,和/或当所述主扬声器流中的至少一个被所述响度比较器确定所述强度在所述响度阈值之下时,降低主扬声器值的所述最大数目。
4.一种会议呼叫方法,包括:
在会议电话期间接收音频信号的至少两个输入流,所述输入流中的每一个来自另一个信源;
从所述输入流中选择多个主扬声器流,所述主扬声器流的数目小于或等于主扬声器值的最大数目,并且所述主扬声器流中的每一个表示来自相应的主扬声器的话音;
将所选择的流混合到输出流中;
输出所述输出流;
在所述会议电话期间,基于所述会议电话的动态来动态地设置主扬声器值的所述最大数目;
当满足主扬声器增加标准时,增加主扬声器值的所述最大数目;
当满足主扬声器降低标准时,降低主扬声器值的所述最大数目;
从所述输入流中检测附加的主扬声器流;
当所述数目等于主扬声器值的所述最大数目并且检测到附加的主扬声器流时,增加主扬声器值的所述最大数目,
根据表示所述音频信号的响度的相应的输入流的参数对所述输入流中的每一个计算响度值;
至少基于与非主流相对应的响度值对所述输入流的非主流进行分类;
基于所述分类来估计至少一个规则;
针对所述规则中的每一个来确定估计值;
将所述估计值相加以获得和值;
将所述和值与阈值相比较;以及
当所述和值超过所述阈值时,输出主扬声器值的最大数目增加信号。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2009/054943 WO2011055170A1 (en) | 2009-11-06 | 2009-11-06 | Conference call system, method, and computer program product |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102598644A CN102598644A (zh) | 2012-07-18 |
CN102598644B true CN102598644B (zh) | 2015-05-27 |
Family
ID=43969610
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200980162321.9A Active CN102598644B (zh) | 2009-11-06 | 2009-11-06 | 会议电话系统以及方法 |
Country Status (5)
Country | Link |
---|---|
US (2) | US8619963B2 (zh) |
EP (1) | EP2497258A4 (zh) |
JP (1) | JP5511106B2 (zh) |
CN (1) | CN102598644B (zh) |
WO (1) | WO2011055170A1 (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8074581B2 (en) | 2007-10-12 | 2011-12-13 | Steelcase Inc. | Conference table assembly |
US10631632B2 (en) | 2008-10-13 | 2020-04-28 | Steelcase Inc. | Egalitarian control apparatus and method for sharing information in a collaborative workspace |
US20140361954A1 (en) | 2013-06-07 | 2014-12-11 | Lewis Epstein | Personal control apparatus and method for sharing information in a collaboration workspace |
US10884607B1 (en) | 2009-05-29 | 2021-01-05 | Steelcase Inc. | Personal control apparatus and method for sharing information in a collaborative workspace |
WO2015130508A2 (en) * | 2014-02-28 | 2015-09-03 | Dolby Laboratories Licensing Corporation | Perceptually continuous mixing in a teleconference |
BE1022611A9 (nl) * | 2014-10-19 | 2016-10-06 | Televic Conference Nv | Toestel voor audio input/output |
US10264213B1 (en) | 2016-12-15 | 2019-04-16 | Steelcase Inc. | Content amplification system and method |
US10057426B2 (en) * | 2016-12-16 | 2018-08-21 | Red Hat, Inc. | Speaker priority for conference calls |
EP3949368B1 (en) | 2019-04-03 | 2023-11-01 | Dolby Laboratories Licensing Corporation | Scalable voice scene media server |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101253755A (zh) * | 2005-06-30 | 2008-08-27 | 讯宝科技公司 | 音频数据流同步 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4388717A (en) * | 1981-01-14 | 1983-06-14 | International Telephone And Telegraph Corporation | Conference circuit for PCM system |
DE3148886C1 (de) * | 1981-12-10 | 1983-08-11 | Standard Elektrik Lorenz Ag, 7000 Stuttgart | Verfahren und Schaltungsanordnung zum Herstellen einer Konferenzverbindung |
US4499578A (en) * | 1982-05-27 | 1985-02-12 | At&T Bell Laboratories | Method and apparatus for controlling signal level in a digital conference arrangement |
CA1191630A (en) * | 1982-09-27 | 1985-08-06 | Bruce D. Shuh | Pcm conference circuit |
US4466094A (en) * | 1982-12-27 | 1984-08-14 | Gte Automatic Electric Inc. | Data capture arrangement for a conference circuit |
US4757493A (en) * | 1987-06-01 | 1988-07-12 | Motorola Inc. | Multi-party telephone conferencing apparatus |
US4845499A (en) * | 1987-11-02 | 1989-07-04 | Ag Communication Systems Corporation | Method for generating PCM logarithmic values from linear values |
JPH10145764A (ja) * | 1996-11-05 | 1998-05-29 | Fujitsu Ltd | 話者検出方法および多地点テレビ会議装置 |
JP2000175170A (ja) * | 1998-12-04 | 2000-06-23 | Nec Corp | 多地点テレビ会議システム及びその通信方法 |
KR100321791B1 (ko) | 1999-03-04 | 2002-02-02 | 송문섭 | 무선가입자망 가입자정합장치의 다자간 통화 장치 |
DE19918801A1 (de) | 1999-04-26 | 2000-11-02 | Thomson Brandt Gmbh | Gerät zum Lesen oder Beschreiben optischer Aufzeichnungsträger |
JP3546941B2 (ja) | 1999-05-24 | 2004-07-28 | 日本電気株式会社 | 大規模マルチキャストデータ伝送方式 |
US6728358B2 (en) * | 2001-01-25 | 2004-04-27 | Paltalk Holdings, Inc. | Efficient buffer allocation for current and predicted active speakers in voice conferencing systems |
US6804340B2 (en) * | 2001-05-03 | 2004-10-12 | Raytheon Company | Teleconferencing system |
US7292543B2 (en) * | 2002-04-17 | 2007-11-06 | Texas Instruments Incorporated | Speaker tracking on a multi-core in a packet based conferencing system |
US7330541B1 (en) * | 2003-05-22 | 2008-02-12 | Cisco Technology, Inc. | Automated conference moderation |
US7865180B2 (en) * | 2003-06-23 | 2011-01-04 | Palm, Inc. | Automated telephone conferencing method and system |
US7190775B2 (en) * | 2003-10-29 | 2007-03-13 | Broadcom Corporation | High quality audio conferencing with adaptive beamforming |
US7778206B2 (en) | 2005-01-06 | 2010-08-17 | Cisco Technology, Inc. | Method and system for providing a conference service using speaker selection |
WO2007003683A1 (en) * | 2005-06-30 | 2007-01-11 | Nokia Corporation | System for conference call and corresponding devices, method and program products |
KR20070080017A (ko) | 2006-02-06 | 2007-08-09 | 엘지전자 주식회사 | 다자간 통화를 주관하는 단말기 및 다자간 통화 제공방법 |
US8971511B2 (en) * | 2006-03-31 | 2015-03-03 | Cisco Technology, Inc. | Method and apparatus for enhancing speaker selection |
WO2008011902A1 (de) * | 2006-07-28 | 2008-01-31 | Siemens Aktiengesellschaft | Verfahren zum durchführen einer audiokonferenz, audiokonferenzeinrichtung und umschalteverfahren zwischen kodierern |
JP4716962B2 (ja) * | 2006-09-21 | 2011-07-06 | 沖電気工業株式会社 | 会議システム、会議サーバ及び会議システムの配信音声制御方法 |
JP2008306541A (ja) * | 2007-06-08 | 2008-12-18 | Yamaha Corp | 会議通信制御装置 |
US8428939B2 (en) * | 2007-08-07 | 2013-04-23 | Nec Corporation | Voice mixing device, noise suppression method and program therefor |
US8289362B2 (en) * | 2007-09-26 | 2012-10-16 | Cisco Technology, Inc. | Audio directionality control for a multi-display switched video conferencing system |
US8436888B1 (en) * | 2008-02-20 | 2013-05-07 | Cisco Technology, Inc. | Detection of a lecturer in a videoconference |
US8411835B2 (en) * | 2008-02-28 | 2013-04-02 | At&T Intellectual Property I, L.P. | Methods and apparatus to manage conference calls |
US9143618B2 (en) * | 2008-12-29 | 2015-09-22 | Shoretel, Inc. | Distributed audio conferencing architecture with optimum resource utilization and seamless scalability |
US9154730B2 (en) * | 2009-10-16 | 2015-10-06 | Hewlett-Packard Development Company, L.P. | System and method for determining the active talkers in a video conference |
-
2009
- 2009-11-06 CN CN200980162321.9A patent/CN102598644B/zh active Active
- 2009-11-06 EP EP09851060.5A patent/EP2497258A4/en not_active Ceased
- 2009-11-06 JP JP2012537451A patent/JP5511106B2/ja active Active
- 2009-11-06 US US13/501,472 patent/US8619963B2/en active Active
- 2009-11-06 WO PCT/IB2009/054943 patent/WO2011055170A1/en active Application Filing
-
2013
- 2013-12-30 US US14/143,053 patent/US9094526B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101253755A (zh) * | 2005-06-30 | 2008-08-27 | 讯宝科技公司 | 音频数据流同步 |
Non-Patent Citations (1)
Title |
---|
R.V.Prasad,H.S.Jamadagni and H.N.Shankar.Number of floors for a voice-only conference on packet networks-a conjecture.《IEE Proceedings:Communications》.2004,全文. * |
Also Published As
Publication number | Publication date |
---|---|
JP2013509841A (ja) | 2013-03-14 |
US20140112464A1 (en) | 2014-04-24 |
US8619963B2 (en) | 2013-12-31 |
US9094526B2 (en) | 2015-07-28 |
EP2497258A4 (en) | 2013-05-01 |
JP5511106B2 (ja) | 2014-06-04 |
US20120207295A1 (en) | 2012-08-16 |
WO2011055170A1 (en) | 2011-05-12 |
CN102598644A (zh) | 2012-07-18 |
EP2497258A1 (en) | 2012-09-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102598644B (zh) | 会议电话系统以及方法 | |
EP2829048B1 (en) | Placement of sound signals in a 2d or 3d audio conference | |
CN102461139B (zh) | 增强的通信桥接器 | |
US9246962B2 (en) | Conference mixing using turbo-VAD | |
US9961208B2 (en) | Schemes for emphasizing talkers in a 2D or 3D conference scene | |
US9420109B2 (en) | Clustering of audio streams in a 2D / 3D conference scene | |
CN111628992B (zh) | 一种多人通话控制方法、装置、电子设备及存储介质 | |
US7945006B2 (en) | Data-driven method and apparatus for real-time mixing of multichannel signals in a media server | |
CN109819129B (zh) | 一种基于声音评价的会议舒适噪音混音系统及其方法 | |
CN104469032A (zh) | 混音处理方法及系统 | |
CN111741177B (zh) | 在线会议的混音方法、装置、设备和介质 | |
US20100061536A1 (en) | Method for carrying out a voice conference and voice conference system | |
Yum et al. | Video bandwidth allocation for multimedia teleconferences | |
US11800017B1 (en) | Encoding a subset of audio input for broadcasting conferenced communications | |
US10237413B2 (en) | Methods for the encoding of participants in a conference | |
CN103369292A (zh) | 一种呼叫处理方法及网关 | |
CN117459507A (zh) | 即时通信方法、系统及相关装置 | |
US20230421620A1 (en) | Method and system for handling a teleconference | |
CN114550748A (zh) | 音频信号混合处理方法、装置、设备和存储介质 | |
CN118158138A (zh) | 数据分发控制方法、装置、服务器及存储介质 | |
CN112751978A (zh) | 扩音控制方法及移动终端 | |
JPS6010958A (ja) | デイジタル式会議通話装置 | |
JPH023348B2 (zh) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Texas in the United States Patentee after: NXP America Co Ltd Address before: Texas in the United States Patentee before: Fisical Semiconductor Inc. |
|
CP01 | Change in the name or title of a patent holder |