CN1591566A

CN1591566A - 用于音频－视频系统的语音识别系统的设备及方法

Info

Publication number: CN1591566A
Application number: CNA2004100637266A
Authority: CN
Inventors: 申钟根; 金宗彧; 柳昌东; 陈珉浩; 金相均
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2003-07-07
Filing date: 2004-07-07
Publication date: 2005-03-09
Anticipated expiration: 2024-07-07
Also published as: EP1496499A2; US20050033572A1; EP1496499A3; KR100556365B1; KR20050005868A; US8046223B2; CN100345184C

Abstract

为改进AV系统的语音识别系统的精确性，本发明包括具有多个滤波器的反射的声音消除器，设置反射的声音消除器接收包括反射的AV系统音频，用户的语音，以及噪声的输入声音信号，并且设置其根据用户的声音信息从输入声音中消除反射的音频；系统还包括语音检测器，其从从反射的声音消除器中输出的信号中检测用户的语音，并且基于检测到的用户语音获得用户的语音信息；该系统还包括语音识别单元，其比较检测到的用户语音和属于至少一个模型的语音图形。

Description

用于音频-视频系统的语音识别系统的设备及方法

相关申请的交叉引用

本申请要求于2003年7月7日提交的韩国申请P2003-45765的权益，并且将其在这里完全包括并引入作为参考。

技术领域

本发明涉及感知有声输入，具体的说，涉及一种在AV系统中感知用户的有声输入的设备和方法。

背景技术

通常，比如TV和收音机的电子家用电器装备有操纵这种家用电器的遥控器。而且，很长时间以来，一直有一个不便，即遥控器必须在用户的手边。如果用户丢失了遥控器，他们将不得不亲自操纵家用电器。另外，对于残疾人和老年人来说，甚至通过遥控器操纵他们的家用电器都是不方便的。因为这些原因，开发了语音识别系统并且将其应用到很多电子家用电器。

语音识别系统使得人们可以仅通过人们的声音表达来和机器及计算机通信。即使语音识别系统已经被应用到很多领域并且给人们带来了很多方便，它还没有成功的用在AV(音频视频)系统中。对于用户来说，有很多除了来自AV器具的，来自AV器具周围和AV器具远处的噪声，这个事实使得语音识别系统变得不那么可靠和精确。因此，在AV系统中实现语音识别系统仍然有很多需要解决的问题，

发明内容

因此，本发明提供了一种在AV系统中的语音识别系统的设备及方法，其能够基本上避免因为现有技术的限制和缺点而产生的一个或多个问题。

本发明的一个目的是提供在其中反射的声音和噪声存在的情况下的一种语音识别系统的设备及方法。

本发明的其它优点、目的和特征将在随后的说明中部分地描述，经过以下检验或从本发明的实践中学习，上述优点、目的和特征对于本领域的普通技术人员来说是显而易见的。本发明的目的和其它优点可以如所附权利要求书及说明书和附图中所特别指出的来实现和获得。

为实现根据本发明的目标的这些目的和其它优点，如在这里广泛的和具体的描述的，用于音频-视频(AV)系统的语音识别系统包括具有多个滤波器的反射的声音消除器，设置其接收包括反射的AV系统音频，用户的语音，以及噪声的输入声音信号，并且设置其根据用户的声音信息从输入声音中消除反射的音频；系统还包括语音检测器，其中从反射的声音消除器中输出的信号中检测用户的语音，并且基于检测到的用户语音获得用户的语音信息；该系统还包括语音识别单元，其比较检测到的用户语音和属于至少一个模型的语音图形。

反射的声音消除器包括将原始的AV系统音频划分为具有不同频率范围的第一组信号的第一滤波器组，将输入声音划分为具有不同频率范围的第二组信号的第二滤波器组；使用第一组信号从第二组信号中消除反射的AV系统音频的多个自适性滤波器；组合从多个自适性滤波器输出的信号的第三滤波器组。

根据检测到的用户语音的特性信息，反射的声音消除器进一步包括滤波器的阻带频率，通带频率，以及反射的声音的消除速率中的至少一个。语音识别单元将第一概率和第二概率与参考值比较，并且根据比较第一概率和第二概率与参考值的结果识别用户的语音。

语音识别单元计算用户语音和在第一模型中的预先确定的语音图形匹配的多个概率，并且从多个概率中选择最高的概率作为第一概率。另外，语音识别单元计算用户语音和在第二模型中的语音图形匹配的多个概率，并且从多个概率中选择最高的概率作为第二概率。第一模型包括对应于预先确定的字的语音图形，并且第二模型将不对应于预先确定的字的语音图形累积。

在本发明的另一方面中，用于识别音频-视频(AV)系统的语音的方法包括接收包括反射的AV系统音频，用户的语音，以及噪声的输入信号；通过将输入信号经过多个滤波器，根据用户的语音信息从输入信号中消除反射的AV系统音频；从第一信号中检测用户的语音并且基于检测到的用户语音获得用户的语音信息；以及比较检测到的用户语音和属于至少一个模型的语音图形。

控制多个滤波器的步骤包括在从用户语音的开始点到结束点的间隔过程中固定多个滤波器的参数。参数包括多个滤波器的阻带频率，通带频率，以及反射的声音的消除速率中的至少一个。

比较检测到的用户语音和来自至少一个模型的语音图形的步骤包括计算用户语音和在第一模型中的语音图形匹配的第一概率，以及计算用户语音和在第二模型中的语音图形匹配的第二概率。该步骤还包括确定第一概率和第二概率的比率和比较确定的比率和参考值，以及根据第一概率和第二概率的比率识别用户的语音。

在本发明的另一方面中，用于音频-视频(AV)系统的语音识别系统包括从接收的声音中检测用户语音的语音检测器；以及计算用户语音和在第一模型中的一个语音图形匹配的第一概率以及用户语音和在第二模型中的一个语音图形匹配的第二概率，并且根据第一概率和第二概率的比率识别用户的语音的语音识别单元。

应该理解本发明的前面的一般性描述和下面的详细描述都是示例性的和说明性的，并且意在提供如权利要求所述的本方面的进一步理解。

附图说明：

附图是为了能进一步了解本发明而包含的，并且被纳入本说明书中构成本说明书的一部分，这些附图示出了本发明的实施例，并用于与本说明书一起对本发明的原理进行说明。，

图1是包括根据本发明的语音识别系统的TV的实例；

图2是一方框图，示出了根据本发明的在AV系统中的语音识别系统；

图3是示出了根据本发明的反射的声音消除器的详细示意图；

图4是一流程图，示出了根据本发明的在AV系统中的语音识别系统；

图5是一实例图，示出了通过根据本方面的语音识别系统的用户的解码音频信号。

具体实施方式

下面将详细说明附图中示出的本发明的优选实施例。在任何可能的地方，在所有附图中使用相同的参考数字来表示相同或相似的部分。

图1示出了包括根据本发明的语音识别系统的音频-视频(AV)系统的实例。参考图1，TV10包括语音识别装置20，其接收反射的声音，噪声和用户的语音。反射的声音是由墙壁或远处的物体反射的TV10的声音。放置语音识别装置20的最好方式是在TV10的前侧。

图2是一方框图，示出了根据本发明的在AV系统中的语音识别系统20。参考图2，TV10包括接收TV的反射的声音，噪声，和用户的语音并将它们转换为频率信号的麦克风(在图2中没有示出)。语音识别系统20包括反射的声音消除器21，其从麦克风接收频率信号并且仅输出对应于用户语音的声音输出。识别微小的噪声相对容易，但是难以识别反射的声音。因此，如图3所示，本方面包括第一，第二和第三无限冲激响应滤波器组(IIR滤波器组)211，212，213，其分别是为了有效的分隔并消除所述反射的声音。

第一滤波器组211包括M个频道滤波器(H₀，H₁，H₂，…H_M-1)，将从广播信号解码出来的音频信号划分为不同的频率范围(子带)。第二滤波器组212也包括M个频道滤波器(H₀，H₁，H₂，…H_M-1)，将从TV的反射的声音，噪声，以及用户的语音转换的音频信号划分为不同的频率范围(子带)。每一信道H₀，H₁，H₂，…H_M-1根据频率范围通过信号。

反射的声音消除器21进一步包括自适性滤波器单元215，其包括滤波器(W₀，W₁，W₂，…W_M-1)，并从第一滤波器组211和第二滤波器组212接收划分的信号。W₀，W₁，W₂，…W_M-1中的每一个分别在和第一滤波器组211和第二滤波器组212相同的频率范围接收信号。例如，滤波器W₀从第一滤波器组211的频道滤波器(H₀)接收信号并且从第二滤波器组212的频道滤波器(H₀)接收信号。自适性滤波器(W₀，W₁，W₂，…W_M-1)比较来自第一滤波器组211和第二滤波器组212的两个输出信号，并且确定两个信号的频率和幅度是否相同或相似。自适性滤波器(W₀，W₁，W₂，…W_M-1)检测来自第二滤波器组212的信号是否和来自第一滤波器组211的信号基本相同。如果来自第二滤波器组212的信号和来自第一滤波器组211的信号基本相同，则认为信号是TV的反射的声音信号。之后自适性滤波器(W₀，W₁，W₂，…W_M-1)从来自第一滤波器组212的信号中消除该信号。作为结果，自适性滤波器单元215将除了反射的TV声音信号之外的划分的信号输出。第三滤波器组213从自适性滤波器单元215接收划分的信号并将其组合。组合的信号包括用户的语音，并且可以包括噪声和剩余的反射的声音信号。因此，本发明可以包括噪声消除器(没有示出)，其基于阈值从第三滤波器组213中滤去信号。

语音识别系统20进一步包括语音检测器22，其从反射的声音消除器21接收信号并且从接收的信号中检测用户的语音。语音检测器22基于用户的语音获得用户的语音信息。例如，为确定用户的语音的间隔，语音检测器检测语音的开始和结束，并且检测用户的语音的频率范围，幅度，以及波形。现在，语音检测器22将用户的语音信息发送到反射的声音消除器21和语音识别单元23。

语音识别系统20还包括存储器24，其存储语音图形，具有语音图形的静态数据的概率模型。当在语音检测器22检测到用户的语音时，语音识别单元23比较用户的语音和在存储器24中存储的语音图形。之后确定每一存储的语音和用户的语音匹配的概率(相似性级别)。基于概率，确定用户的语音是否是对应于在存储器24中存储的语音的特定语音图形，并且它是什么语音图形。在TV10中的控制器11按照用户的语音要求操纵TV10。

图4是一流程图，示出了在AV系统中的语音识别系统。当用户说出用户的语音，比如“音量减小”时，则由麦克风接收用户的语音并且传送到反射的声音消除器21。但是，反射的TV声音和噪声也和用户的语音一起被传送到反射的声音消除器21。

将传送的用户语音，TV的反射的声音，以及噪声划分为不同的频率范围，并且由自适性滤波器(W₀，W₁，W₂,…W_M-1)消除已划分的反射的TV的声音，并由噪声消除器消除噪声(S30)。反射的声音消除器(21)，根据子带滤波方法，使用IIR滤波器组211，212，213来消除反射的TV声音。

语音检测器22从反射的声音消除器21接收除了消除反射的声音和噪声之外的所有信号。如图5所示，为了检测用户的语音，将信号正弦曲线波形解析为帧(S31)。语音检测器22还指出信号的开始和结束点，并确定频率范围和幅度，等等。语音检测器22比较用户语音的能量(也就是，幅度)和预先确定的参考值。例如，其中输入到语音检测器22的信号能量大于第一阈值的点是开始点，并且其中输入到语音检测器22的信号能量大于第二阈值的点是结束点。

当确定了用户语音的开始点时，自适性滤波器单元215停止自适应。但是当确定用户语音的结束点时重新开始自适应。调节立即预知当反射时TV声音的路径，并且根据改变了的反射的声音路径更改滤波参数，比如自适性滤波器(W₀，W₁，W₂，…W_M-1)的阻带频率，或通过频率。反射的声音路径的一个实例根据用户的移动改变。

但是，当反射的声音消除器21一起接收反射的声音和用户的语音时，自适性滤波器(W₀，W₁，W₂，…W_M-1)的滤波参数应该固定，因为难以知道准确的滤波参数。仅当接收反射的声音本身时，自适性滤波器(W₀，W₁，W₂，…W_M-1)的滤波参数可以根据反射的声音路径改变。

语音识别单元23确定用户语音和至少一个对应于预先确定的字的存储的语音图形匹配的第一概率。它还确定不和对应于没有预先确定的字的一个语音图形匹配的第二概率(S32)。为了确定第一概率，首先将用户语音和在第一模型中存储的每一语音图形，比如“改变频道”、“音量增大”和“音量减小”比较。计算存储的语音图形和用户语音匹配的概率(也就是，相似性)。特别的，第一模型是隐藏马尔可夫模型(HMM)，其包括对应于预先确定的字的语音图形。语音识别单元23在计算出的概率中确定最高概率作为第一概率。为确定第二概率，语音识别单元23使用第二模型，特别的，累积对应于没有预先确定的字的语音图形的填充符模型。比较用户语音和存储在第二模型中的每一语音图形，并且计算在第二模型中存储的语音图形和用户语音匹配的概率。语音识别单元23认为在计算出的概率中的最高概率是第二概率。之后确定第一和第二概率(前者/后者)的比率并且将比率和第一参考值及第二参考值比较(S33，S35)。应该注意，第一参考值用于0.5％的故障百分比，并且第二参考值用于5％的故障百分比。从实验中获得第一和第二参考值。

如果第一和第二概率的比率大于或等于第一参考值，语音识别单元23识别传送的用户语音。例如，语音识别单元23确保对应于来自第一模型的第一概率的语音图形，并且将对应于该语音图形的指令发送到控制器11。之后控制器11基于用户的语音图形操纵TV10。

如果第一和第二概率的比率小于第一参考值并且大于第二参考值，语音识别单元23不自动识别传送的用户语音，而是显示最好的对应于用户语音的字。例如，语音识别单元23要求控制11确保对应于来自第一模型的第一概率的语言图形(S36)。之后控制器11显示确保的语音图形(也就是，音量下降)，并且等待接收用户的确认。如果用户说，“是”，“好的”，或“选择”作为确认(S37)，则控制器11将TV10的音量减小(S38)。如果用户通过说“不”或“取消”拒绝确认，则控制器11在TV10上删除显示的语音图形“音量减小”。

如果第一和第二概率的比率小于第二参考值，语音识别单元23既不尝试识别用户的语音，也不发送任意信号到控制器11(S39)。因此，控制器11不响应用户的语音。

因为它基于用户语音和一个存储的语音图形匹配和不匹配的两个概率的比率检测用户的语音，本发明使得语音识别系统，即使存在有反射的声音和噪声，也可以精确的执行功能。本发明不仅可以应用于电子家用电气，也可以应用于翻译装置，手持电器，玩具，等。

对于本领域普通技术人员来说，在不脱离本发明的精神和范围的情况下，很明显可以作为多种修改和变更。这样，本发明意在覆盖在附加的权利要求及其等效物范围内提供的本发明的修改和变更。

Claims

1.一种用于产生音频的音频-视频(AV)系统的语音识别系统，该语音识别系统包括：

反射的声音消除器，具有多个滤波器，设置反射的声音消除器接收包括反射的AV系统音频、用户的语音、以及噪声的输入声音信号，并且设置其根据用户的声音信息从输入声音中消除反射的音频；

语音检测器，从反射的声音消除器中输出的信号中检测用户的语音，并且基于检测到的用户语音获得用户的语音信息；

语音识别单元，其比较检测到的用户语音和属于至少一个模型的语音图形。

2.如权利要求1所述的语音识别系统，其中反射的声音消除器包括：

第一滤波器组，将原始的AV系统音频划分为具有不同频率范围的第一组信号；

第二滤波器组，将输入声音划分为具有不同频率范围的第二组信号；

多个自适性滤波器，使用第一组信号从第二组信号中消除反射的AV系统音频；以及

第三滤波器，组合从多个自适性滤波器输出的信号。

3.如权利要求1所述的语音识别系统，进一步包括噪声消除器，设置其从反射的声音消除器输出的信号中消除噪声和反射的AV系统音频中没有消除的部分。

4.如权利要求1所述的语音识别系统，其中根据用户的语音信息，反射的声音消除器调节滤波器的截止频率、通带频率以及反射的音频的消除速率中的至少一个。

5.如权利要求1所述的语音识别系统，其中用户的语音信息包括用户语音的开始时间和结束时间。

6.如权利要求5所述的语音识别系统，其中用户的语音信息进一步包括用户语音的频率范围、幅度、以及波形。

7.如权利要求1所述的语音识别系统，其中语音识别单元计算用户语音和属于第一模型的至少一个语音图形匹配的第一概率，以及用户语音和属于第二模型的一个语音图形匹配的第二概率。

8.如权利要求7所述的语音识别系统，其中语音识别单元确定是否根据第一概率和第二概率的比率识别用户的语音。

9.如权利要求7所述的语音识别系统，其中预先确定属于第一模型的语音信号图形。

10.如权利要求7所述的语音识别系统，其中累积并且不预先确定属于第二模型的语音信号图形。

11.如权利要求7所述的语音识别系统，其中该语音识别单元将第一概率和第二概率的比率与参考值比较，并且基于比较的结果识别用户的语音。

12.如权利要求7所述的语音识别系统，其中语音识别单元计算用户语音和在第一模型中的语音图形匹配的多个概率，并且从多个概率中选择最高的概率作为第一概率。

13.如权利要求7所述的语音识别系统，其中语音识别单元计算用户语音和在第二模型中的语音图形匹配的多个概率，并且从多个概率中选择最高的概率作为第二概率。

14.一种用于识别产生音频的音频-视频(AV)系统的语音的方法，该方法包括：

接收包括反射的AV系统音频、用户的语音以及噪声的输入信号；

通过将输入信号经过多个滤波器，根据用户的语音信息，从输入信号中消除反射的AV系统音频；

从第一信号中检测用户的语音并且基于检测到的用户语音获得用户的语音信息；以及

比较检测到的用户语音和属于至少一个模型的语音图形。

15.如权利要求14所述的方法，其中消除反射的AV系统音频包括在从用户语音的开始点到结束点的间隔过程中固定多个滤波器的参数。

16.如权利要求15所述的方法，其中该参数包括多个滤波器的截止频率、通带频率，以及反射的声音消除速率中的至少一个。

17.如权利要求14所述的方法，进一步包括从通过多个滤波器的信号中消除噪声和反射的AV系统音频中没有消除的部分。

18.如权利要求14所述的方法，其中消除反射的AV系统音频包括基于用户的语音信息控制多个滤波器的截止频率、通带频率以及反射的声音的消除速率中的至少一个。

19.如权利要求14所述的方法，其中比较用户的语音信号和来自至少一个模型的语音信号图形包括计算用户语音和在第一模型中的语音图形匹配的第一概率，以及计算用户语音和在第二模型中的语音图形匹配的第二概率。

20.如权利要求19所述的方法，其中还包括确定第一概率和第二概率的比率。

21.如权利要求20所述的方法，进一步包括比较确定的比率和参考值，以及基于比较结果识别用户的语音。

22.如权利要求19所述的方法，其中第一模型包括对应于预先确定的字的语音图形。

23.如权利要求19所述的方法，其中第二模型累积不对应于预先确定的字的语音图形。

24.一种用于音频-视频(AV)系统的语音识别系统，该语音识别系统包括：

语音检测器，从接收的声音中检测用户语音；以及

语音识别单元，计算用户语音和在第一模型中的一个语音图形匹配的第一概率以及用户语音和在第二模型中的一个语音图形匹配的第二概率，并且根据第一概率和第二概率的比率识别用户的语音。

25.如权利要求24所述的设备，其中第一模型包括对应于预先确定的字的语音图形。

26.如权利要求24所述的设备，其中第二模型累积不对应于预先确定的字的语音图形。

27.如权利要求24所述的设备，其中语音识别单元将第一概率和第二概率的比率与参考值比较，并且基于将第一概率和第二概率的比率与参考值比较的结果识别用户的语音。

28.一种识别音频-视频(AV)系统的语音的方法，该方法包括：

从接收的声音输出的信号中检测用户的语音；

计算用户语音和在第一模型中的一个语音图形匹配的第一概率以及用户语音和在第二模型中的一个语音图形匹配的第二概率；以及

根据第一概率和第二概率的比率识别用户的语音。

29.如权利要求28所述的方法，其中第一模型包括对应于预先确定的字的语音图形。

30.如权利要求28所述的方法，其中第二模型累积不对应于预先确定的字的语音图形。

31.如权利要求28所述的方法，其中计算第一概率包括：

计算用户语音和在第一模型中的语音图形匹配的多个概率；以及

从多个概率中选择最高的概率作为第一概率。

32.如权利要求28所述的方法，其中计算第二概率包括：

计算用户语音和在第二模型中的语音图形匹配的多个概率；以及

从多个概率中选择最高的概率作为第二概率。

33.如权利要求28所述的方法，其中识别用户语音包括：

将第一概率和第二概率的比率与第一参考值和第二参考值比较；以及

基于比较结果确定是否识别用户的语音。

34.如权利要求33所述的方法，其中确定是否识别用户的语音包括如果第一概率和第二概率的比率等于或大于第一参考值就识别用户的语音。

35.如权利要求33所述的方法，其中确定是否识别用户的语音包括，如果第一概率和第二概率的比率小于第一参考值和大于第二参考值就显示与用户语音相对应的字。

36.如权利要求36所述的方法，其中确定是否识别用户的语音包括如果第一概率和第二概率的比率小于第二参考值就不识别用户的语音。