CN1190775C

CN1190775C - 具有公共回声消除措施的多装置声频－视频系统

Info

Publication number: CN1190775C
Application number: CNB018024017A
Authority: CN
Inventors: P·A·P·考夫霍茨
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2000-08-15
Filing date: 2001-08-02
Publication date: 2005-02-23
Anticipated expiration: 2021-08-02
Also published as: JP2004506944A; EP1312078A1; KR20020040850A; CN1388956A; US20020021799A1; WO2002015169A1

Abstract

一种多装置声频-视频系统，其包括有用户语音识别设施和回声消除设施。尤其是，存在多个且功能分离的这样的语音识别设施和回声消除设施。现在，回声消除设施组合它们的力量，用于通过它们中的一个或多个来消除一个或多个互为唯一的可消除语音实体，且组合这些被消除的实体作为不为系统识别的整体。

Description

具有公共回声消除措施的多装置声频-视频系统

技术领域

本发明涉及一种用于操作多装置声频-视频系统的方法，所述系统包括有语音识别和回声消除的设施。

背景技术

目前，语音识别技术已经得到广泛应用，包括应用在一般市场的消费系统中。回声消除在这方面还处于这样一种工作水平：个别的装置不能识别那些不断复制自身的语音。可是人或其他的外部使用者不得不接收该装置产生的全频谱的声音。因此，将回声消除措施内部作用在该装置上，藉此由该装置自身发出的声音就会有效地得到阻隔而不予考虑。目前，系统由各种各样的装置组成，其中每一种装置都必须识别使用者发出的一些语音条目，但是，无法预先确定哪些条目不能识别的。尤其，当组成特定系统的各种各样的装置来自不同的制造商时使该问题更加恶化而难以解决。换言之，组合到一起的装置就别想能作为一个组合整体工作。来源于同一制造商的装置或来源于不同制造商的装置可能包含不同的声音源。

发明内容

因此，除了其他许多目的之外，本发明的一个目的是提供一种用于操作多装置系统的方法，其中设计的回声消除基于各种各样的装置，但却能够使其作为一个综合系统工作。

因此，依照本发明的一个方面，本发明涉及一种用于操作包括多个装置的声频-视频系统的方法，所述系统包含与用户进行交互作用的用户语音识别设施和用于避免对作为用户语音由系统输出的话音进行识别的回声消除设施，其特征在于，利用从功能上分开的语音识别设施和回声消除设施，并且，存在多个语音识别设施和/或回声消除设施，利用一个或多个所述的回声消除设施来消除由所述系统输出的一个或多个各自的可消除声频信号，组合这些已进行消除处理的声频信号并馈送一个组合的已进行消除处理的声频信号至所述的语音识别设施，以便从总体上不识别所述系统的所述可消除声频信号。

本发明还涉及一种声频-视频系统，它包括多个装置，所述系统包括语音识别设施和用于避免对作为用户语音由系统输出的语音进行识别的回声消除设施，其特征在于，系统包括从功能上分开的语音识别设施和回声消除设施，并且，存在多个这样的语音识别设施和/或回声消除设施，回声消除设施被配置用来消除由所述系统输出的一个或多个各自的可消除声频信号，以及组合装置，用来组合这些已进行消除处理的声频信号并馈送一个组合的已进行消除处理的声频信号至所述语音识别设施，以便从总体上不识别所述系统的所述可消除声频信号。

本发明还涉及一种语音增强装置，用于根据本发明的声频-视频系统中，所述语音增强装置具有语音识别设施和用于避免对作为用户语音由系统输出的语音进行识别的回声消除设施，其特征在于，所述语音增强装置在所述相互连接的语音识别与回声消除设施之间具有语音输入/输出部件，用来与另外一台这样的语音增强装置相连接。

附图说明

在下文中将参照结合优选实施例的描述更具体地论述本发明的各种技术特征和优点，且尤其参照结合下述附图：

图1，与本发明一起使用的一种通用的语音增强装置；

图2，多装置语音增强系统，其具有分布式的自动语音识别(ASR)和分布式的自动回声消除(AEC)；

图3，同上，其具有分布式的ASR和一个星形配置的集中式的AEC；

图4，同上，其具有分布式的ASR和集中式的AEC；

图5，同上，其具有集中式的ASR和集中式的AEC；

图6，同上，其具有集中式的ASR和分布式的AEC；

图7，同上，其在一个改进的结构中具有分布式的ASR和分布式AEC。

具体实施方式

图1描述了与本发明一起使用的一种通用的语音增强装置20。为了简明，已经减少了原有的用户控制功能。没有任何明确的或暗含的限制，这样的功能指声频的或声频视颜的调谐器、声频播放器、声频的或声频视频的记录器或者声频的或声频视频的编辑器。相反，该附图的细节已经限制于控制功能。通常，使用者控制输入直接用双向线对46中的输入线表示，且这样的控制可机械地通过用户键盘之类的设备、或者通过红外线(IR)信号传输等实现远程控制。通过灯或其它视觉显示指示器、通过文本显示、蜂鸣器以及其它方式输出控制信号通知。而且，控制信号通知可通过线对46与其它连接的声频-视频装置进行交换。

附图标记30表示通用的语音增强装置的用户功能，该装置接收来自线46的外部控制，且随意地产生在输出56上的声频信号和在线38上的声频信号，输出56上的声频信号用于通常用途诸如广播声频信号，线38上的声频信号用于其它目的，将在下文进行论述。后者通过附加机构32发送到扬声器48。部件22表示一个声音控制的用户接口，其可产生反馈信号通过线34到达附加机构32，通过附加机构32从输出到扬声器48的信号中减去反馈声音信号。另外，部件22可产生非声频输出信号到接口46，用于外部使用，或者用于控制装置30。

操作者的对该装置的语音输入可用麦克风(mic)28实现。以这种方式接收的语音信号可以通过线对42中的输出线输出。作为一种方案，还可使线对42中的输入线接收的语音信号与自动回声抵消器部件26进行通讯。后者将沿着双向通道40的输出通道输出一个语音信号。这个语音信号与麦克风28接收的语音信号高度一致，但是，该装置来自麦克风28任何语音信号经由图1中所示的部件48输出在很大程度上都削弱了。这样的语音信号通过图中所示的专用通道60接收。如此这样对该装置自身语音输出进行过校正的语音信号既可以通过双向语音通道40的输出通道输出，也可以发送到语音识别部件24的输入端。后者还可以选择接收沿着双向语音通道40的输入通道接收的外部传输语音信号。部件24对这样接收到的语音信号的识别没有限制可以因循。识别结果可作为文本沿着双向通道对44的输出通道输出，或者传送到声音控制的用户接口(VCUI)模块22。后者还可选择接收沿着双向通道对44的输入通道而来的外部输入文本。VCUI模块可产生进一步的控制信号，如前面所论述过的那样，或者产生声频信号输出馈送给扬声器音箱48，或者输出视频显示(为简洁在前面还没有论述过)。而且，VCUI模块可生成可选择的禁止信号，通过线36送达任意的或全部的模块24、26、28、48，以级联体系结构形式应用。其应用将在下面论述。

在不同的实施例中，图1装置中的一些部件可以省却。特别是，线对44是随意的，线对42中的线输出可以省却，同时一些其它的部件在下文所示的实施例中不是必需的。但是，在线对42中线上的麦克风在图6、7中(尤其与连线100比较)用处非常重要。

图2显示了一种多装置语音增强系统，其具有分布式自动语音识别(ASR)和分布式自动回声消除(AEC)。该系统显示为声频装置(Audio set)和电视机(TV)的组合，但是包括使用两个以上装置的多装置系统可以配置成各种其它形式。在后面所有的附图中，使用了诸如立体声声频装置的双通道平行设备或者诸如用于环绕声以及其它复杂再现技术的多通道设备，不再对附图中的各个通道进行分别标示。现在，每个装置将都需要用于声音控制的用户接口VCUI的其自身的软件层。但是，由于这样的功能隶属在各个独立装置中，当所有的装置同时运作时语音控制实际上是失败的。对立体声应用的强力补救方法是总共具有四个通道、每个装置有两个通道，且在每个装置中分别执行回声消除。假设还需要一个麦克风通道，则在该装置内部需要至少五个通道。如果进一步增加通道数目，则问题会按指数级数地增加。而且，该装置必须具有足够的处理能力以执行至少四倍的回声消除。而且不同的装置必须彼此连接。显然，这样陈述的解决方案需要集中硬件和软件，因此昂贵和容易出错和出故障。

在这方面，图3显示了增加带有星形结构互连模式的图2构造。所需条件是网络互连、声频输出、以及多通道自动回声消除。注意，假如多于两个装置组成该系统则所需条件将按指数规律增加，或者假如声频通道数目增加则将提高声音表达效果，例如音效超过高保真品质。人们公认在许多情况下这样的技术设施证明是多余的。

现在，有一个更加简单的解决方案，它只使用单个的扬声器，只使用单个装置来输出所有的系统中任意装置产生的声音。

另外的附图描述了依照本发明的系统的各种不同的非限制性的实施例。在这方面，图4显示了具有分布式的ASR和集中式的AEC的这样一种系统。现在，只需要对单个的n-通道声频信号进行回声消除，其中n为任意有实际意义的整数值。连线十分简单，例如将TV声频输出连接到声频装置中常见的辅助声频输入。此外无论如何，经过AEC之后声频信号必须传送到其他装置的“线输入”以识别出纯净信号。实际上在每个装置中都有语音接口(UI)。另外，还有另外的输入通道可用于需要复式传声器的将来波束形成技术以及关联的额外输入通道。该附图中描述的系统是将盒式磁带录像机(VCR)接通到电视机的情形。这种方法的所需条件是：在回声消除之后的声频输出，在自动语音识别之前的声频输入，禁用AEC，禁用麦克风，双通道声频输出。注意在VCR框中的子系统AEC、mic、以及扬声器s是不可使用的，通过图1装置中选择的组块结合在VCR中，并且它们用浅印刷体表示。

图5描述了具有集中式的ASR和集中式的AEC的系统，其可以简化为利用语音控制块。可用顶置盒方式实现。该构造具有图4结构所有的优点。而且，只需要单个的语音识别器机构。用户环境中最明显的优点是，在单个房间中固有地缺少复式识别器，还有，提高对各种不同装置控制的可能性以及可能扩充为更强大有效的系统。为了简便，该图限定为只有两个装置，每个都带有2-通道AEC。其所需条件是：每个装置都有双向控制链路，这有助于通过诸如HAVi网络这样的网络来有效使用；声频输出；且可能的话，要有给另一个声频装置用的另外的声频输入。声频装置和电视装置中，在图1中描述过的所有部件除了声频装置的扬声器之外，都将禁止使用，如所示将它们从图中删除了。

现在，在图5所示的装置结构中，连接装置中的一个仍然通过双通道输出播放声频信号，其通常依赖于声频装置自身来实现。这将迫使用户将其它所有的装置直接连接到单个的声频输出装置。对于分布式的AEC，这种选择可认为是仅对语音控制块(SCB)做较小的修改，其将允许不同的语音增强声频装置各自都能播放它们各自的声频信号。以分布式的方式对所有的装置进行声音回声消除处理，且因此，对每一个单独装置顺次地进行声音回声消除处理。

技术上，现在我们利用两个或多个各自带有两个通道的ASR-AEC装置就可以实现两个或多个声频通道消除回声的目的。例如，语音增强声频装置和语音增强电视装置各自都可以有它们自己的声频输出，但是各种不同的立体声通道将依次进行回声消除。在中心语音控制块(SCB)使用最终的与纯净的语音信号以控制各种不同的装置。现在，各种不同的语音信号存在失真的问题。而且，由顺次执行各个步骤导致的延迟也会引起一些问题。

在这方面，图6显示了另一个系统实施例，其包括声频装置、电视机、及语音控制块，具有集中式的ASR和分布式的AEC，因此减少了上述的各种缺点。特定所需条件现在包括有：在回声消除之后的声频输出；禁用ASR；禁用AEC；禁用麦克风；线输入；以及对各个装置的双向控制链路，其也可以通过网络实现。如图所示，在声频装置中ASR已经被选为禁用。而且，在电视机中，ASR与麦克风已经被选为禁用。还有，在语音控制块装置中，麦克风与AEC已经被选为禁用。如图所示，在这个装置构造中，声频装置和电视机装置两者都可以使用它们的扬声器。

特别是，语音控制块只可以用一些连接的装置替代，在那里将纯净语音信号向后传送到其它所有的装置。这实际上导致产生了类似于图2选择的系统，尽管可能不是显而易见的选择，然而却会是非常实用的。从装配的观点来看，关键思路是引入稳固耐用的自动语音识别技术，而不需要直接连接所有的装置，且不必使用专门的声频装置用于输出声音。这实际上导致产生了图7的方案，其在一个改进的结构中的具有分布式的ASR和分布式AEC。这个方案具有下述功能需求：在自动回声消除之后的声频输出，禁用麦克风和线输入。如图所示，电视机其自身的麦克风选为禁用。

Claims

1.一种用于操作包括多个装置的声频-视频系统的方法，所述系统包含与用户进行交互作用的用户语音识别设施和用于避免对作为用户语音由系统输出的语音进行识别的回声消除设施，

其特征在于，利用从功能上分开的语音识别设施和回声消除设施，并且，存在多个语音识别设施和/或回声消除设施，利用一个或多个所述的回声消除设施来消除由所述系统输出的一个或多个各自的可消除声频信号，组合这些已进行消除处理的声频信号并馈送一个组合的已进行消除处理的声频信号至所述的语音识别设施，以便从总体上不识别所述系统的所述可消除声频信号。

2.一种如权利要求1所述的方法，其中通过串联排列不同的回声消除设施来进行这种组合。

3.一种如权利要求2所述的方法，且以集中方式从串联装置馈送所述组合的已进行消除处理的信号。

4.一种如权利要求2所述的方法，且以分布的方式从串联装置馈送所述组合的已进行消除处理的信号。

5.一种如权利要求1所述的方法，其中通过集中所述系统中的所述回声消除设施并且以分布的方式从所述回声消除设施向不同的语音识别设施进行所述馈送来执行所述组合操作。

6.一种如权利要求1所述的方法，其中通过将所述回声消除设施和语音识别设施集中在一个共同的控制设施中来执行所述组合操作。

7.一种如权利要求1所述的方法，其中通过将不同的回声消除设施配置在一个集中的控制装置中并且并行地从所述回声消除设施向不同的语音识别设施进行所述馈送来执行所述组合操作。

8.一种声频-视频系统，它包括多个装置，所述系统包括语音识别设施和用于避免对作为用户语音由系统输出的语音进行识别的回声消除设施，其特征在于，系统包括从功能上分开的语音识别设施和回声消除设施，并且，存在多个这样的语音识别设施和/或回声消除设施，回声消除设施被配置用来消除由所述系统输出的一个或多个各自的可消除声频信号，以及组合装置，用来组合这些已进行消除处理的声频信号并馈送一个组合的已进行消除处理的声频信号至所述语音识别设施，以便从总体上不识别所述系统的所述可消除声频信号。

9.一种如权利要求8所述的系统，其特征在于，所述组合装置包括一个串联装置，用于串行地配置不同的回声消除设施。

10.一种如权利要求9所述的系统，其特征在于，所述系统配置用来以集中方式从所述串联装置馈送所述组合的已进行消除处理的信号到语音识别设施。

11.一种如权利要求9所述的系统，其特征在于，所述系统配置用来以分布的方式从所述串联装置馈送所述组合的已进行消除处理的信号到不同的语音识别设施。

12.一种如权利要求8所述的系统，其特征在于，所述组合装置将所述回声消除设施集中在一个控制装置中且被配置用来以分布的方式馈送所述组合的已进行消除处理的信号给不同的的语音识别设施。

13.一种如权利要求8所述的系统，其特征在于，所述组合装置被配置用来将所述回声消除设施与语音识别设施集中在一个共同的控制设施中。

14.一种如权利要求8所述的系统，其特征在于，所述组合装置被配置用来集中不同的回声消除设施且并行地从回声消除设施馈送所述组合的已进行消除处理的信号给不同的的语音识别设施。

15.一种语音增强装置，用于权利要求8所述的系统，所述语音增强装置具有语音识别设施和用于避免对作为用户语音由系统输出的语音进行识别的回声消除设施，其特征在于，所述语音增强装置在所述相互连接的语音识别与回声消除设施之间具有语音输入/输出部件，用来与另外一台这样的语音增强装置相连接。

16.一种如权利要求15所述的语音增强装置，其特征在于，所述装置具有控制装置，用于选择性地禁用一个或多个所述语音识别设施、所述回声消除设施以及语音增强装置的声频输出设施。

17.一种如权利要求15所述的语音增强装置，其特征在于，所述装置具有麦克风输出部件和另一控制部件，该另一控制部件用于选择性地控制一个或多个所述语音识别设施、所述回声消除设施以及所述麦克风输出部件。