CN102160359B

CN102160359B - 控制系统的方法和信号处理系统

Info

Publication number: CN102160359B
Application number: CN200980136673.7A
Authority: CN
Inventors: A·S·哈马
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2008-09-18
Filing date: 2009-09-11
Publication date: 2015-07-08
Anticipated expiration: 2029-09-11
Also published as: WO2010032182A2; WO2010032182A3; CN102160359A; EP2342884A2; TR201901706T4; EP2342884B1; JP2012503401A; JP5499038B2; US20110191109A1; US8731940B2

Abstract

控制系统的方法包括：通过用户环境中的输入设备（14-16）获得表示由用户传输的信息的至少一个信号，其中来自第一源（1,2）的信号在该环境中以可感知的形式可获得；至少估计预期在来自所述第一源（1,2）的信息和来自所述用户的信息之间的转换发生的时间点；以及相对于所估计的时间定时所述系统功能的执行。

Description

控制系统的方法和信号处理系统

技术领域

本发明涉及控制系统的方法，包括通过用户环境中的输入设备获得代表由用户传输的信息的至少一个信号。本发明还涉及信号处理系统，包括到用户环境中的至少一个输入设备的接口。本发明还涉及计算机程序。

背景技术

EP 1526706A2描述了一种组通信系统结构，其包括可用来将来自N个源的数字音频混合为N个或更多输出的音频混合器，其中当针对每一个输出混合时音频可单独地被控制。该组通信系统结构包括用来分析用于会话特性的数据的层（floor）分析模块。层分析模块的结果可被用来自动确定会话组成员资格（membership）的建立。层分析模块然后通过为音频混合器指定混合参数集来实现会话层（conversational floor）。层分析模块可包括一个或多个分析模块，例如“话轮转换分析”模块、“响应动作分析”模块和/或“参考动作分析”模块。在一个实施例中，支持集中在视频会议情况中的视频。即，因为会话层在视频会议期间的参与者之间建立，所以会话层的成员具有与另一个会话层的成员不同的视频表示。在另一个实施例中，将该方法扩展到共享通信环境中，在该环境中并非所有用户必须处于远程位置并与个人输入设备（例如麦克风）和个人输出设备（例如耳机）相关联。例如，可以不让用户佩戴个人的麦克风，而是物理环境（例如在家庭或办公室建筑内的房间）可用跟踪各个用户的传感器和由多个麦克风组成的定向波束形成阵列来扩展。在该情况下，每个被跟踪的用户的发声可被捕获为单独的音频流，而不需使用个人佩戴的麦克风。作为另一个实例，单个的麦克风可被用来捕获相应于多个用户的音频流。即使当被捕获为单个音频流时，已知的发言者识别技术可被用来检测多个用户的会话特性（例如语音活动）。

Brdiczka, O.等人于2005年10月4-6日发表于Proc.ICMI的“Automatic detection of interaction groups”公开了一种基于会话话轮转换（conversational turn-taking）在各组内部（inside）被同步的假设，检测交互组配置的方法。检测器基于构建在会话假设上的隐马尔可夫模型（HMM）。检测器的输入是包含哪个个体在说话或没在说话的信息的语音（speech）活动向量。组内语音贡献（contribution）的同步使得能够由建立在会话假设上的HMM检测可能的组配置。

已知系统的一个问题是它不适合用于控制设备的操作。对组配置中的变化的检测发生在事后，并且这样的检测仅限于用作控制策略所基于的输入。它主要的用途是更新用户的联系人列表。

US2006/0206329A1公开了一种用于管理机器和用户之间的交互对话的方法。在一个实施例中，机器和用户之间的交互通过确定取决于用户的可能语音开始的至少一个可能性值而被管理。响应可能性函数表示用户将在时间t真正开始说语义项N的可能性。响应可能性函数还可以被用来将语音开始的在前预测馈送到话音活动检测器（VAD）算法。结果，VAD可随着时间的进展连续地改变它的参数。因此VAD对在被估计具有低在前开始可能性的时间点发生的明显中断要求更严格，并且在中断被预期的情况下不那么严格。

发明内容

希望提供上述类型的方法、系统和计算机程序，它们适合于以对于用户来说不显眼并且适合于用户活动的方式来控制设备。

这通过根据本发明的、在权利要求1中限定的方法得以实现。

该方法允许在用户环境中的系统提供适合于用户和系统间交互的不同阶段的功能性。特别地，某些功能可以在用户正为类似会话的交互做贡献时执行，而某些功能可以在这样的贡献阶段之间的间隔中执行。因为从源到用户和从用户到源的信息流之间的转换发生得相对频繁，所以该方法更适用于系统功能性的连续控制。因为转换被估计，所以它适用于在类似会话的交互期间控制系统，而不限于在这样的交互已停止后执行。因为该方法从用户对来自第一源的信息的响应而非明确的用户输入取得它的提示（cue），所以它是不显眼的。注意到功能的定时涉及下列至少一个：该功能是否得以完全执行或该功能何时以某些设置来执行。在后一种情况中，“定时”涉及不同设置之间的转换。

所述方法包括从第一源获得信号，并且通过在会话话轮转换模型的基础上相对于彼此分析来自用户的信息流和携带在来自第一源的信号中的信息流来执行估计。

类似会话的交互以可预测的方式构造，其基本上包括在信息流之间同步的交替活动和静默的时段。通过在会话话轮转换模型的基础上相对于彼此分析来自用户的信息流和携带在来自第一源的信号中的信息流，系统的功能执行的开始也可以被同步。这可以在过去的交互的相对较短间隔的基础上完成。

在一个实施例中，其中来自至少一个输入设备和来自第一源的信号至少包括音频成分，该方法包括相对于彼此随时间分析音频信息流。

与例如视频信息相比，高于特定阈值音量的音频信息将相应于源对会话的贡献而突发到来。这使得确定在两个或更多个音频信号的源之间的类似会话的交互的存在相对容易。不需要语音识别，而在视频信息的基础上确定类似会话的交互通常需要图像分析来检测类似会话的交互。应注意，视听信号的分析在该实施例中未被排除。与文本消息相比，音频信息更经得起（amenable）分析以检测相应于会话话轮转换的类型的交互。文本消息通常也需要至少分析主题标目以确定它们是否与特定的讨论（例如在电子论坛上主办的讨论）有关。通常仅在向这样的论坛贴帖的短暂流（temporal flow）的基础上检测会话是困难的。

在本实施例的变型中，信息流的分析包括向表示由用户传输的信息的至少一个信号应用话音（voice）活动算法。

一个效果是用于确定类似会话的交互的存在的后续分析可能简单得多。该后续分析可以基于针对多个连续时间间隔的每一个指示该间隔是否包含来自交互中特定参与者的对类似会话的交互的贡献的数据，或者指示包含的可能性（likelihood）的数据。

在一个实施例中，来自第一源的信号通过至少一个电信网络从具有到电信系统的开放连接的远程电信终端获得，该电信系统包括到用户环境中的至少输入设备的接口。

将该方法应用于通信的居间（mediated）形式是相对容易的。特别地，已清楚来自第一源的信号携带来自不同于输入设备环境中的用户的另一方或多方的信息。因此，不那么需要将单个信号分割成携带源自各个不同用户的信息的多个部分。这减少了使该方法足以响应系统的实时或近乎实时的控制所需的努力。另一个优点是，在这样的电信系统中，所有交互都是类似会话的类型。在当前未使用的开放连接的情况下，仅需要将它们与噪声区分。

在一个实施例中，其中电信系统与许多输入设备接口以获得表示由用户传输的信息的信号，并且与许多再生设备接口以以可感知的形式再生（reproduce）来自第一源的信号，使得该系统相对于估计的时间定时用于定位用户的功能的执行。

一个效果是允许用户四处移动，而不需要永久地跟踪该用户。只有当预期该用户使用电话系统通信时，他的位置才将被确定，因为于是可以预期他或她接近输入设备之一。因此，定位方法可仅依赖于输入设备，且不需要是无处不在的。

在该实施例的一个变型中，在估计用户传输信息的间隔期间至少部分地在来自输入设备的信号的基础上使得该用户被定位。

该变型可主要或仅基于输入设备的已知位置。例如，在音频信息的情况下，来自多个输入设备的信号的相对强度可以被确定。因为这是在预期信息由一个特定用户传输的间隔期间完成的，所以该方法更精确（或者相反地，它可以不那么复杂且可产生与更复杂的定位方法相同精确度的结果）。在其他间隔期间，可能仅存在背景噪声，或者可以真正地存在携带由相同环境中其他用户传输的信息的信号。

该方法的一个实施例包括延迟在用户环境中的设备上再现（rendering）输出的功能，直到相对于估计的时间确定的时间为止。

因此，在多媒体环境中，用户不被与他或她参加的类似会话的交互不相关的其他类型的信息干扰。这样的中断被定时以在最适当的时刻发生。例如，电子邮件已到达的指示可以被延迟，直到用户已停止说话为止，更精确地，直到预期该用户已停止说话为止。

该方法的一个实施例包括仅当在预期转换发生的时间点之后的间隔内没有从第一源和用户中的至少一个传输信息时，才使得系统在相对于估计的时间确定的时间处执行功能。

因此，该方法快速地检测类似会话的交互的结束，并且然后可以继续使用户环境中的系统执行延迟的功能。这增加了用户使用系统的效力。

该方法的一个实施例包括在至少估计预期来自第一源的信息和来自用户的信息之间的转换发生的时间点之前，

- 使用用于检测相应于输入设备环境中的用户和第一源之间会话话轮转换的类型的交互的至少一个标准，随时间分析来自第一源的信号中携带的信息流和来自输入设备之一的信号中携带的至少一个信息流。

该实施例尤其可被用来区分每个首先被检测到的多个类似会话的交互。随后，这些交互的单独每一个的结构可被分析以定时系统功能的执行。特别地，与定位相同环境中的多个用户中的每一个的定位方法相结合，该方法单独地响应于每个用户，并且增加单个用户在他们共享的环境中（例如家庭或办公室）可以使用该系统或这些系统的效力。

根据本发明的另一个方面，提供根据权利要求10的信号处理系统。

在一个实施例中，信号处理系统被配置为执行根据本发明的方法。

根据另一个方面，根据本发明的计算机程序包括当合并在机器可读介质中时能够使得具有信息处理能力的系统执行根据本发明的方法的指令集。

附图说明

将参考附图进一步详细地说明本发明，在附图中：

图1示意性地图示了包括两个远程终端的通信网络中的环境（ambient）电话系统；

图2示意性地图示了环境电话系统中单个电话设备的功能组件；

图3示意性地图示了环境电话系统中主电话或代理电话的功能组件；

图4示意性地图示了在表示来自处于活动的（active）会话中的两个用户的语音信号的两个信道中的语音活动；

图5是流程图，图示了控制在用户和远程电信终端的用户之间传输的信息的基础上使用环境电话系统定位用户的方法的执行的方法；以及

图6是流程图，图示了控制在用户和具有音频用户接口的数据处理系统之间传输的信息的基础上使用环境电话系统定位用户的方法的执行的方法。

具体实施方式

以实例的方式，在图1中示出连接到电信网络3的两个远程终端1、2。具有3个空间5-7的建筑物4形成了具有到网络3的至少一个连接的本地环境。

网络3是广域网，并且例如可包括蜂窝电话网络、POTS网络或宽带互联网。通信可通过直接连接进行，但优选地基于数据分组。在下文中，将假设通信是基于话音的且具有可选的视频图像，例如视频会议应用就是这样的情况。相同的原理也在个体间的信息通信的其他方法中找到应用，包括文本消息传递、在公告板上张贴消息等。在那些其他实例中，如在该实例中一样，基于相应于各个终端的用户之间会话话轮转换的类型的交互模型随时间分析从远程终端（一个或多个）1、2和从建筑物4中的真实或虚拟本地终端传输的信息。被确定在进行中的类似会话的交互的结构被用来控制系统功能的执行，并且可选地控制建筑物4中其他设备的功能的执行。关于所检测的会话结构的信息还被环境电话系统用于控制音频再现和捕获。

网络连接日益基于其中不计通话分钟的统一收费订购模型。因此，普遍具有非常长的通话，或具有不再或开放或关闭而是以许多不同方式部分地开放的通话。因此，将有许多情况，其中存在向若干远程终端1、2开放的连接，而没有用户用来传输信息的连接。例如，用户可登录到对等覆盖网络，甚至无需接近他的计算机。

在图示的实施例中，环境电话系统由各个联网的、优选地使用无线网络连接的电话单元构成。然而，在此略述的原理同样应用于在其中多个麦克风和扩音器连接到相同电话系统的系统，例如家庭对讲机系统或有线电话系统。在此略述的方法由在该实例中的环境电话系统实现，从而区分呼叫者和用户，呼叫者用来指代远程终端1、2的用户，用户用来指代建筑物4内的个体。

主电话单元8包括到电信网络3的接口，并在图3中单独地图示。在图示的实例中，存在到因特网、普通老式电话系统和到蜂窝电话网络的接口9-11。在可替代的实施例中可使用较少和其他类型的接口。在其他单独电话单元12、13通过主电话单元8与远程终端1、2通信的意义下，主电话单元8也可以被认为是代理电话单元。单独电话单元12中的第一个在图2中详细地图示，其他的是相同的。主电话单元8包括图1中图示的环境电话系统中的单独电话单元。

每个单独电话单元12、13和主电话单元8与至少一个麦克风14-16和至少一个扬声器17-19接口。在图示的实施例中，第二单独电话单元13和主电话单元8中所包括的单独电话单元还与各自的照相机20、21和显示设备22、23接口。输出信号可从第二单独电话单元13提供至外部照明设备24和娱乐设备25，例如收音机或电视机。这些连接的一个或多个也可通过无线网络或者用于家庭自动化的一些网络来完成。

参考图2，为到由单独电话单元12操作的远程呼叫者的每个连接提供单独的呼叫者单元26。接口27包括解码器和输入缓冲器。在图示的实例中，接口27包括RTP（实时分组协议）套接字接口（socket interface），该套接接口包括G.722解码器和输入缓冲器。它从IP（因特网协议）套接字（未示出）接收RTP数据。

再现单元28使经解码的音频数据能够由扬声器17再现。它至少部分地在控制单元29的控制下操作，控制单元29还实现几何模型，并且反过来从主电话单元8接收例如依照SIP（会话发起协议）协议并通过IP分组作为TCP（传输控制协议）携带的、消息形式的控制信号。延迟线30被提供用于向输入信号处理单元31提供参考信号。参考信号使输入信号处理单元31能够执行声学回声消除（acoustic echo cancellation）。输入信号处理单元31还执行自动增益控制，并可执行其他信号处理功能以提供携带来自用户的音频信息的信号。输入信号处理单元31还从控制单元29接收控制信号。输入信号处理单元向G.722解码器和输出RTP套接字32以及向语音活动检测（SAD）系统33提供携带音频信息的信号。

典型的SAD系统33使用从短音频片段计算多个特性特征并使用这些来确定声音片段是否是语音、非语音或静默的算法。可以实现任何类型的语音活动检测（也称为话音活动检测）算法。

在以下文献中给出了实例：

Bhou-Gazale, S.和Assaleh, K., “A robust endpoint detection of speech for noisy environments with application to automatic speech recognition”, Proc. ICASSP 2002, Orlando，Florida, 2002年5月；

Davis, A.等, “Statistical voice activity detection using low/variance spectrum estimation and an adaptive threshold”, IEEE Trans. on audio, speech and language processing, 14(2), 2006年, 412-424页；和

Huang, L.和Yang, C., “A novel approach to robust speech detection in car environments”, IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 3(5-9), 2000年, 1751-1754页。

注意到SAD系统33的功能性还可以仅在主电话单元8中实现，主电话单元8接收经由G.722解码器和输出RTP套接字32提供的信号。该功能性还可以作为在输入信号处理单元31中实现的语音增强算法和回声消除的部分而实现。语音活动检测的输出通常是二进制值。例如，它也可以是置信度值（confidence value）。预定持续时间间隔的语音活动检测的结果通过建筑物4中的网络被发送至主电话单元8。

参考图3，主电话单元8为连接对其开放的每个外部呼叫者（在该情况下相应于远程终端1、2）创建呼叫实例34。呼叫实例34使用语音增强功能35来提供携带被传输至单独电话单元12、13中的一个或多个的音频信息的信号。该信号也经受语音活动检测36。在特别是输出到扬声器17-19中的一个或多个之前，语音增强功能35的输出和携带音频信息并与呼叫实例34相关联的其他信号均被提交给剩余的AEC 37。

会话活动检测单元38接收来自第一单独电话单元12中的SAD系统33和其他单独电话单元中的类似系统这两者的输出、以及来自应用到从呼叫实例34与其相关联的远程终端1、2传输的信息的语音活动检测功能36的输出。会话活动检测单元38的输出是代表在使用关联远程终端1、2的呼叫者和包括一个或多个单独电话单元12、13的环境中的本地用户之间存在类似会话的交互的时间概率的值。如将解释的那样，这些输出被提供给主控制单元39以用于控制环境电话系统自身或其外部的设备，例如娱乐设备25或外部照明设备24等。

参考图4，会话话轮转换的模型得以图示。该模型被用来控制环境电话系统，并且可选地控制其他设备。图4示出两个音频信息流40、41，一个来自远程终端1、2之一，另一个来自单独电话单元12、13之一或主电话单元8的用户。后一个流41实际上可通过使用例如在WO2007/086042中描述的分割技术，来将音频信号分割为与向电话单元8、12、13之一提供音频信息的若干用户之一相关联的片段而获得。流40、41包括如由SAD系统33和SAD功能36确定的静默时段42、43和语音时段44、45。

参考图5，环境电话系统功能性的控制包括检测正在进行的会话的步骤46。在图示的实施例中，该检测包括使用用于检测相应于建筑物4中用户和所关注的远程终端1、2的用户之间的会话话轮转换的类型的交互的至少一个标准，来分析来自远程终端1、2之一的信号中携带的音频信息流和到电话单元8、12、13之一的音频输入信号中的音频信息流。在可替代的实施例中，该步骤46可由在在前的用户输入（例如以建立到远程终端1、2的连接）的基础上确定会话存在的步骤来代替。也就是说基于用户已请求建立连接的事实和/或基于这样的连接当前事实上是开放的事实，假设会话的存在。然而，在其中连接可在延长的时间期间开放而不处于有效（active）使用的系统中，检测会话的步骤46增加了资源使用效率。

相应于会话话轮转换的交互的类型的检测基于许多原理：

1. 在会话中，对于会话的大多数，在任一时间只有一个说话者（talker）是活动的；

2. 说话者轮流发言，使得活动/静默说话者的信道交替；

3. 在两个信道中连续的静默意味着在参与者之间没有活动的会话话轮转换；

4. 在一个信道中的非交替语音活动意味着在信道间没有会话活动，但是例如在由相同远程终端1、2选出的两个呼叫者之间存在会话。

5. 如果在语音时段44、45和静默时段42、43之间的话轮转换没在信道之间同步，则在正在讨论的信道之间没有会话话轮转换。这就是为什么要相对于彼此地随时间分析流40、41的原因。

用于检测会话话轮转换的可能算法如下：

令n是音频帧索引，pl(n)是信道l中的帧n包含如由SAD系统33或SAD功能36确定的语音的可能性。在一个简单的示例中，pl(n)的值可以为0（无语音）或1（语音）。有4个初始化为零的状态变量，Presence1、Presence2、Conflict、Silence。还有另外的3个如下被初始化的状态变量：

g1 = 0.9；

g2 = 0.99；和

g3 = 0.995。

该算法以伪代码运行如下：

1. 确定信道1和2中当前帧n的VAD状态，并估计：

if p1(n)>0 AND p2(n)==0,

Presence1 := g1*Presence1+(1-g1);

Presence2 := g2*Presence2;

Conflict := g2*Conflict;

Silence := g3*Silence;

end

if p2(n)>0 AND p1(n)==0,

Presence2 := g1*Presence2+(l-g1);

Presence1 := g2* Presence1;

Conflict := g2*Conflict;

Silence := g3*Silence;

end

if p2(n)>0 AND p1(n)>0,

Presence1 := g2* Presence1+(1-g2);

Presence2 := g2*Presence2+(1-g2);

Conflict := g1*Conflict+(1-g1);

Silence := g3*Silence;

end

if p2(n)==0 AND pl(n)==0,

Presence1 := g3* Presence1;

Presence2 := g3*Presence2;

Conflict := g3*Conflict;

Silence := g3*Silence+(1-g3);

end

Conversation(n)=Presencel+Presence2-Conflict-Silence;

2. n:=n+1 到步骤1.

当Conversation(n)的当前值超过某个阈值时，会话得以检测。因此，该算法随着时间估计信息，因为它是向后看的（backward-looking），状态变量保证Conversation的当前值基于在前的音频帧的估计。同时，因为它是连续发展的对会话是否存在的确定，所以它适合作为用于控制设备的输出信号的基础。

以上略述的基本方法可以各种方式得以增强，这尤其取决于可获得的计算资源。例如，除了状态变量Presence1、Presence2、Conflict、Silence之外或作为它们的可替代物，可以使用在较长观察时段（若干音频帧）上计算的状态变量。这些状态变量包括在两个或多个信号中语音活动检测值的若干分钟上计算的相互关系或相互信息度量。

在自然会话中，接听的参与者通常以简短言语（“是”、“好”、“真的？”、“嗯”等）的形式向说话者提供反馈。这通常被称为反向信道（backchannel）语音活动。基于这些言语是简短的（< 1s）并且由相当长的静默分隔开的事实，在来自远程终端1、2之一和来自单独电话单元12、13之一或主电话单元8的用户的音频信息流40、41内可分离地检测所述反馈。反向信道活动检测可被用作附加的状态变量，或者它可被用来修改例如状态变量Conflict，因为仅当重叠的语音活动的时间片段不表示来自其他说话者的反向信道活动时才检测到冲突。

从话轮转换的时间精细结构（temporal fine-structure）可导出另一个特征。例如，在第二音频信息流41中的语音活动时段45的结束和第一音频信息流40中语音活动后继时段44的开始之间的时间点之间的时间差（反之亦然）可用作会话话轮转换的质量的度量。在类似会话的交互情况下，随着若干发言者改变测量的该时间差与非会话交互相比具有稍微正的均值和低的方差。在后一种情况中，时间差具有均值零和大的方差。

为了提高检测发言者变化的精确性，可使用音频信息内容的分析来扩充语音活动检测。特别地，对于音频信息流40、41，可分析音调（pitch）。在许多语言中，在口头言语结束前的上升音调指示对另一个说话者的问题。如果这后面是另一个说话者的语音活动，可能在小的暂停之后，则这种类型的变化可被标记为问题-回答结构，该结构可表征为用于检测类似会话的交互的会话模型中的特征（状态变量）。

注意到以上详细描述的算法基于使用一阶积分器（first-order integrator）确定的许多状态变量的动态时间进展。各种不同的线性和非线性过滤和积分算法可被用作可替代方案。

替代使用特征的线性组合来形成表示会话活动可能性的特征Conversation，会话的检测可基于不是线性检测（或回归）模型的其他模型，包括基于判别分析、支持向量机和神经网络的各种类型的数据分类方法。

代替二进制变量，特征Conversation还可以是具有范围在0和1之间的值的连续可能性变量。

最终，替代使用用于时间进展（g1、g2、g3）的固定参数和检测逻辑（步骤2），可以使用单独的技术来最优化用于不同用户和呼叫者或不同环境（context）的参数。例如，可以针对每对系统的会话伙伴或每个本地用户和识别的规则的远程呼叫者单独地调谐会话检测器。类似地，取决于传输正被分析的音频信息的信号是否来自第一或第二单独电话单元12、13或来自主电话单元8，参数和/或检测逻辑可不同。

会话检测和分析的方法通常十分难以实时地实现。然而，在诸如电信系统之类的居间环境中，它们的实现方式变得在较低计算成本下是可行的，因为已经清楚每个音频信息流来自哪里。这与在安装了麦克风的房间中的人群中进行会话检测的系统形成了相反，因为那里所有声音都被捕获，并且必须首先被归因于房间中不同的人。

在涉及例如建筑物4的本地环境中的用户1和使用例如第一远程终端1的呼叫者的会话的检测之后，环境电话系统在会话话轮转换模型的基础上相对于彼此分析例如归因于用户1的第一信息流40和例如归因于远程呼叫者的第二音频信息流41，从而预测预期在来自本地用户的信号中从静默时段42到语音时段44的转换何时发生（步骤47）。该分析可仅基于话音活动检测以定位语音时段44、45和静默时段42、43。它可通过分析音频信息流40、41的至少部分的内容而得以扩充。特别地，远程呼叫者话音中在静默时段之前的上升音调的检测、疑问从句的指示物可被用作来自本地用户的语音时段45即将跟随的指示物。

基本上此时，或不久以后，但是至少在并且仅在预期来自用户1的语音的时段44内，使得若干系统功能得以执行。

在一个示范性的步骤48中，该步骤是可选的，用户1的状态例如通过网络3被传输到其他系统。这可以帮助避免中断。在视频会议实施例中，该通知可被用来在显示设备22上和在远程呼叫者的显示设备上加亮下一个发言者。

如果用户1位于第二单独电话单元13所在的空间6中，则照明设备24被控制（步骤49）以增加照明等级。同样地，这在视频会议应用中将是有用的。

也可能例如增加麦克风14-16的灵敏度，降低说话者17-19的音量和/或采取类似的措施以提高传送到远程呼叫者的声音的质量。这样的措施也使回声消除更容易执行。

在任何情况下，预测的转换选择性地被用来激活（步骤50）优选地基于音频的定位方法。也就是说，在预期音频信息从本地用户传输的间隔期间至少部分地在来自麦克风14-16的信号的基础上使那个用户被定位。特别地，该特定用户贡献的预期的开始不同于另一个本地用户对相同或不同类似会话的交互的贡献的开始。这有助于增加定位方法的精确度。区分来自本地用户的下一个贡献和来自远程呼叫者的贡献的开始意味着，在处理来自麦克风14-16的输入信号以移除背景噪声的过程中不必花费太多的努力。

原则上任何已知类型的基于音频的定位都可以得以执行。在一个简单的实施例中，用户可与接收最强麦克风信号的电话单元8、12、13相关联。在另一个实施例中，可使用三角测量来提供更准确的定位。附带地，注意到用户位置的跟踪不需要排他地由基于音频的方法组成。

在图5的方法中，如果在紧跟预期到来自用户的语音时段44的转换发生的时间点的间隔内没有信息从用户1传输，则使一个或多个其他系统功能得以执行（步骤51）。特别地，该时间点被取为中断用户的适宜点。某些动作的实行因此延迟至这样的时间点。在该步骤51中触发的动作的实例包括将已请求参加电话会议的另一个呼叫者引入正在进行的会话或再现与会话完全不相关的消息或其他输出。例如，该系统可使数据处理系统延迟提供已通过另一个通信设备（未在图1中示出）接收呼叫、文本消息、电子邮件或图像的指示。作为另一个实例，来自包括电话单元8、12、13的建筑物4中的设备的错误消息或注意消息可被延迟，直到该步骤51被触发为止。

在图示的实施例中，环境电话系统还至少预测（步骤52）预期到来自远程呼叫者的语音时段45的转换发生的时间点。

然后它在类似于相同名字的在前步骤48的步骤中例如通过网络3将本地用户状态的变化传输（步骤53）到其他系统。

如果用户位于第二单独电话单元13所在的空间6中，则照明设备24受到控制（步骤54）以降低照明等级。该步骤54通常表示控制环境电话系统外部的设备的类似步骤的所有方式，其中使这样的外部设备功能执行的调适（adaptation）在相对于从居间会话中的一个参与者到另一个参与者的贡献间的转换的预测时间来确定的时间处开始。

此外，如果在紧跟预期到来自远程呼叫者的语音时段44的转换发生的时间点的间隔内没有信息从外部呼叫者传输，则使一个或多个另外的系统功能得以执行（步骤55）。

图5给出了电信系统中类似会话的交互的一个实例，其中该交互实际上在两个或更多人之间进行。相同的原理可应用于任意分布式语音接口系统，例如那些在家庭支撑和舒适应用、老人看护应用和口语对话系统中使用的分布式语音接口系统。在该情况下，至少一个信息流来自于非人的源。因此，在电话单元8、12、13设有分布式语音接口系统和用于控制建筑物4中的诸如娱乐设备25之类的设备的装置的场合，可执行如图6中所示的方法。

在第一步骤56中，分析从用户到系统和从系统到用户的信息流以确定类似会话的交互是否正在发生。该系统提供输出（步骤57），例如邀请用户提供口头输入的形式的可听输出。然后做关于用户可能何时开始提供口头输入的预测（步骤58）。在相对于该预测的时间点确定的时间点（例如确切相同的时间点或者某个稍微靠后的时间点），基于音频的定位方法的执行得以启动（步骤59）。此外，触发该系统（步骤60）以仅向在相对于在在前的步骤58中预测的时间点确定的间隔内接收的音频信息应用自动语音识别。一个效果是该系统不需要分析由麦克风14-16拾取的所有声音输入。

因此，系统的功能的执行在相对于在类似会话的交互的结构的知识的基础上预测的时间点确定的时间处启动。特别地，在分布式语音换能器的系统中定位用户的精确度得以提高。

应注意上述实施例说明而不是限制了本发明，并且本领域技术人员将能够设计许多替换实施例，而不脱离附加权利要求的范围。在权利要求中，放置在括号之间的任何附图标记不应当被解释为限制权利要求。词“包括”不排除除在权利要求中列出的那些元件或步骤以外的元件或步骤的存在。元件前的词“一”或“一个”不排除多个这样的元件的存在。在互不相同的从属权利要求中叙述某些措施这一起码事实并不表示这些措施的组合不能有益地使用。

尽管将用户和单个远程呼叫者或本地数据处理系统之间的类似会话的交互用作实例，但在此略述的方法在涉及三个或更多参与者之间的话轮转换的会话中同样有用。模式检测可用来预测在该交互中这三者中的哪个将跟随这三者中的另一个。可替代地，只有预期到另一发言者的转换发生的时间点可得以预测。于是取决于其他条件的满足，例如检测到的下一个话音活动必须是本地的或者前一个发言者必须不是本地用户，可以在相对于所预测的时间确定的时间处进行功能的执行。

在实例中，功能执行的启动相应于功能执行的触发。它还可以相应于例如利用不同加权的基于音频的定位方法的执行的启动。在该情况下，使用符合预期语音间隔的音频帧确定的位置被给予比使用其他音频帧确定的位置更多的权重。因此，可修改图5的方法，使得连续地执行定位用户的步骤50，但是所估计的位置取决于它们是使用在来自本地用户的语音时段45或静默时段43期间获得的音频信息估计的可能性而加权。

Claims

1.控制系统的方法，包括：

- 通过用户环境中的输入设备（14-16）获得代表由用户传输的信息的至少一个信号；和

- 获得来自第一源（1,2）的在该环境中以可感知的形式可获得的信号，其特征在于:

- 通过在会话话轮转换的模型的基础上相对于彼此分析来自所述用户的在所述至少一个信号中携带的信息流和来自所述第一源（1,2）的信号中携带的信息流，至少估计预期在来自所述第一源（1,2）的信息流和来自所述用户的信息流之间的转换发生的时间点；和

- 相对于估计的时间来定时所述系统功能的执行。

2.根据权利要求1的方法，其中

- 来自所述至少一个输入设备和来自所述第一源（1,2）的信号至少包括音频成分，并且其中所述方法包括相对于彼此随着时间分析音频信息流。

3.根据权利要求1的方法，其中信息流的分析包括对代表由用户传输的信息的所述至少一个信号应用话音活动算法。

4.根据权利要求1的方法，其中来自所述第一源（1,2）的信号通过至少一个电信网络（3）从具有到电信系统（8,12,13）的开放连接的远程电信终端获得，所述电信系统（8,12,13）包括到所述用户环境中至少所述输入设备（14-16）的接口（31）。

5.根据权利要求4的方法，其中所述电信系统与许多输入设备（14-16）接口以便获得表示由所述用户传输的信息的信号，并且与许多再生设备（17-19）接口以便以可感知的形式再生来自所述第一源（1,2）的所述信号，其中使该系统相对于所估计的时间来定时用于定位用户的功能的执行。

6.根据权利要求5的方法，其中在估计用户传输信息的间隔期间至少部分地在来自输入设备（14-16）的信号的基础上使得所述用户被定位。

7.根据权利要求1的方法，包括延迟在所述用户环境中的设备（25）上再现输出的功能直到相对于所估计的时间确定的时间为止。

8.根据权利要求1的方法，包括仅当在紧跟预期所述转换发生的时间点的间隔内没有信息从所述第一源（1,2）和所述用户之一传输时，才使所述系统在相对于估计的时间确定的时间执行功能。

9.根据权利要求1的方法，包括，

- 在至少估计预期来自所述第一源（1,2）的信息流和来自所述用户的信息流之间的转换发生的时间点之前，

- 使用用于检测相应于在所述输入设备（14-16）的环境中的用户和所述第一源（1,2）之间的会话话轮转换的类型的交互的至少一个标准，随时间分析来自所述第一源（1,2）的信号中携带的信息流和来自所述输入设备（14-16）之一的信号中携带的至少一个信息流。

10.信号处理系统，包括：

- 到用户环境中至少一个输入设备（14-16）的接口（31），其中所述接口（31）用于获得表示由所述用户传输的信息的至少一个信号，

其中所述信号处理系统被配置为从第一源（1,2）获得在该环境中以可感知的形式可获得的信号，其特征在于：

- 处理装置（8），用于通过在会话话轮转换的模型的基础上相对于彼此分析来自所述用户的在所述至少一个信号中携带的信息流和来自所述第一源（1,2）的信号中携带的信息流，至少估计预期来自所述第一源（1,2）的信息流和来自所述用户的信息流之间的转换发生的时间点，并且在于

所述信号处理系统被设置为相对于估计的时间来定时系统功能的执行。

11.根据权利要求10的信号处理系统，被配置为执行根据权利要求1-9中任意一项的方法。

12.用于控制系统的设备，包括：

- 用于通过用户环境中的输入设备（14-16）获得代表由用户传输的信息的至少一个信号的装置；和

- 用于获得来自第一源（1,2）的在该环境中以可感知的形式可获得的信号的装置，其特征在于:

- 用于通过在会话话轮转换的模型的基础上相对于彼此分析来自所述用户的在所述至少一个信号中携带的信息流和来自所述第一源（1,2）的信号中携带的信息流，至少估计预期在来自所述第一源（1,2）的信息流和来自所述用户的信息流之间的转换发生的时间点的装置；和

- 用于相对于估计的时间来定时所述系统功能的执行的装置。