CN1591566A - 用于音频-视频系统的语音识别系统的设备及方法 - Google Patents
用于音频-视频系统的语音识别系统的设备及方法 Download PDFInfo
- Publication number
- CN1591566A CN1591566A CNA2004100637266A CN200410063726A CN1591566A CN 1591566 A CN1591566 A CN 1591566A CN A2004100637266 A CNA2004100637266 A CN A2004100637266A CN 200410063726 A CN200410063726 A CN 200410063726A CN 1591566 A CN1591566 A CN 1591566A
- Authority
- CN
- China
- Prior art keywords
- speech
- probability
- user
- voice
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 34
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 230000008878 coupling Effects 0.000 claims description 24
- 238000010168 coupling process Methods 0.000 claims description 24
- 238000005859 coupling reaction Methods 0.000 claims description 24
- 230000003044 adaptive effect Effects 0.000 claims description 15
- 230000008030 elimination Effects 0.000 claims description 7
- 238000003379 elimination reaction Methods 0.000 claims description 7
- 238000009825 accumulation Methods 0.000 claims description 6
- 230000008676 import Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000011514 reflex Effects 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Details Of Television Systems (AREA)
- Selective Calling Equipment (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
为改进AV系统的语音识别系统的精确性,本发明包括具有多个滤波器的反射的声音消除器,设置反射的声音消除器接收包括反射的AV系统音频,用户的语音,以及噪声的输入声音信号,并且设置其根据用户的声音信息从输入声音中消除反射的音频;系统还包括语音检测器,其从从反射的声音消除器中输出的信号中检测用户的语音,并且基于检测到的用户语音获得用户的语音信息;该系统还包括语音识别单元,其比较检测到的用户语音和属于至少一个模型的语音图形。
Description
相关申请的交叉引用
本申请要求于2003年7月7日提交的韩国申请P2003-45765的权益,并且将其在这里完全包括并引入作为参考。
技术领域
本发明涉及感知有声输入,具体的说,涉及一种在AV系统中感知用户的有声输入的设备和方法。
背景技术
通常,比如TV和收音机的电子家用电器装备有操纵这种家用电器的遥控器。而且,很长时间以来,一直有一个不便,即遥控器必须在用户的手边。如果用户丢失了遥控器,他们将不得不亲自操纵家用电器。另外,对于残疾人和老年人来说,甚至通过遥控器操纵他们的家用电器都是不方便的。因为这些原因,开发了语音识别系统并且将其应用到很多电子家用电器。
语音识别系统使得人们可以仅通过人们的声音表达来和机器及计算机通信。即使语音识别系统已经被应用到很多领域并且给人们带来了很多方便,它还没有成功的用在AV(音频视频)系统中。对于用户来说,有很多除了来自AV器具的,来自AV器具周围和AV器具远处的噪声,这个事实使得语音识别系统变得不那么可靠和精确。因此,在AV系统中实现语音识别系统仍然有很多需要解决的问题,
发明内容
因此,本发明提供了一种在AV系统中的语音识别系统的设备及方法,其能够基本上避免因为现有技术的限制和缺点而产生的一个或多个问题。
本发明的一个目的是提供在其中反射的声音和噪声存在的情况下的一种语音识别系统的设备及方法。
本发明的其它优点、目的和特征将在随后的说明中部分地描述,经过以下检验或从本发明的实践中学习,上述优点、目的和特征对于本领域的普通技术人员来说是显而易见的。本发明的目的和其它优点可以如所附权利要求书及说明书和附图中所特别指出的来实现和获得。
为实现根据本发明的目标的这些目的和其它优点,如在这里广泛的和具体的描述的,用于音频-视频(AV)系统的语音识别系统包括具有多个滤波器的反射的声音消除器,设置其接收包括反射的AV系统音频,用户的语音,以及噪声的输入声音信号,并且设置其根据用户的声音信息从输入声音中消除反射的音频;系统还包括语音检测器,其中从反射的声音消除器中输出的信号中检测用户的语音,并且基于检测到的用户语音获得用户的语音信息;该系统还包括语音识别单元,其比较检测到的用户语音和属于至少一个模型的语音图形。
反射的声音消除器包括将原始的AV系统音频划分为具有不同频率范围的第一组信号的第一滤波器组,将输入声音划分为具有不同频率范围的第二组信号的第二滤波器组;使用第一组信号从第二组信号中消除反射的AV系统音频的多个自适性滤波器;组合从多个自适性滤波器输出的信号的第三滤波器组。
根据检测到的用户语音的特性信息,反射的声音消除器进一步包括滤波器的阻带频率,通带频率,以及反射的声音的消除速率中的至少一个。语音识别单元将第一概率和第二概率与参考值比较,并且根据比较第一概率和第二概率与参考值的结果识别用户的语音。
语音识别单元计算用户语音和在第一模型中的预先确定的语音图形匹配的多个概率,并且从多个概率中选择最高的概率作为第一概率。另外,语音识别单元计算用户语音和在第二模型中的语音图形匹配的多个概率,并且从多个概率中选择最高的概率作为第二概率。第一模型包括对应于预先确定的字的语音图形,并且第二模型将不对应于预先确定的字的语音图形累积。
在本发明的另一方面中,用于识别音频-视频(AV)系统的语音的方法包括接收包括反射的AV系统音频,用户的语音,以及噪声的输入信号;通过将输入信号经过多个滤波器,根据用户的语音信息从输入信号中消除反射的AV系统音频;从第一信号中检测用户的语音并且基于检测到的用户语音获得用户的语音信息;以及比较检测到的用户语音和属于至少一个模型的语音图形。
控制多个滤波器的步骤包括在从用户语音的开始点到结束点的间隔过程中固定多个滤波器的参数。参数包括多个滤波器的阻带频率,通带频率,以及反射的声音的消除速率中的至少一个。
比较检测到的用户语音和来自至少一个模型的语音图形的步骤包括计算用户语音和在第一模型中的语音图形匹配的第一概率,以及计算用户语音和在第二模型中的语音图形匹配的第二概率。该步骤还包括确定第一概率和第二概率的比率和比较确定的比率和参考值,以及根据第一概率和第二概率的比率识别用户的语音。
在本发明的另一方面中,用于音频-视频(AV)系统的语音识别系统包括从接收的声音中检测用户语音的语音检测器;以及计算用户语音和在第一模型中的一个语音图形匹配的第一概率以及用户语音和在第二模型中的一个语音图形匹配的第二概率,并且根据第一概率和第二概率的比率识别用户的语音的语音识别单元。
应该理解本发明的前面的一般性描述和下面的详细描述都是示例性的和说明性的,并且意在提供如权利要求所述的本方面的进一步理解。
附图说明:
附图是为了能进一步了解本发明而包含的,并且被纳入本说明书中构成本说明书的一部分,这些附图示出了本发明的实施例,并用于与本说明书一起对本发明的原理进行说明。,
图1是包括根据本发明的语音识别系统的TV的实例;
图2是一方框图,示出了根据本发明的在AV系统中的语音识别系统;
图3是示出了根据本发明的反射的声音消除器的详细示意图;
图4是一流程图,示出了根据本发明的在AV系统中的语音识别系统;
图5是一实例图,示出了通过根据本方面的语音识别系统的用户的解码音频信号。
具体实施方式
下面将详细说明附图中示出的本发明的优选实施例。在任何可能的地方,在所有附图中使用相同的参考数字来表示相同或相似的部分。
图1示出了包括根据本发明的语音识别系统的音频-视频(AV)系统的实例。参考图1,TV10包括语音识别装置20,其接收反射的声音,噪声和用户的语音。反射的声音是由墙壁或远处的物体反射的TV10的声音。放置语音识别装置20的最好方式是在TV10的前侧。
图2是一方框图,示出了根据本发明的在AV系统中的语音识别系统20。参考图2,TV10包括接收TV的反射的声音,噪声,和用户的语音并将它们转换为频率信号的麦克风(在图2中没有示出)。语音识别系统20包括反射的声音消除器21,其从麦克风接收频率信号并且仅输出对应于用户语音的声音输出。识别微小的噪声相对容易,但是难以识别反射的声音。因此,如图3所示,本方面包括第一,第二和第三无限冲激响应滤波器组(IIR滤波器组)211,212,213,其分别是为了有效的分隔并消除所述反射的声音。
第一滤波器组211包括M个频道滤波器(H0,H1,H2,…HM-1),将从广播信号解码出来的音频信号划分为不同的频率范围(子带)。第二滤波器组212也包括M个频道滤波器(H0,H1,H2,…HM-1),将从TV的反射的声音,噪声,以及用户的语音转换的音频信号划分为不同的频率范围(子带)。每一信道H0,H1,H2,…HM-1根据频率范围通过信号。
反射的声音消除器21进一步包括自适性滤波器单元215,其包括滤波器(W0,W1,W2,…WM-1),并从第一滤波器组211和第二滤波器组212接收划分的信号。W0,W1,W2,…WM-1中的每一个分别在和第一滤波器组211和第二滤波器组212相同的频率范围接收信号。例如,滤波器W0从第一滤波器组211的频道滤波器(H0)接收信号并且从第二滤波器组212的频道滤波器(H0)接收信号。自适性滤波器(W0,W1,W2,…WM-1)比较来自第一滤波器组211和第二滤波器组212的两个输出信号,并且确定两个信号的频率和幅度是否相同或相似。自适性滤波器(W0,W1,W2,…WM-1)检测来自第二滤波器组212的信号是否和来自第一滤波器组211的信号基本相同。如果来自第二滤波器组212的信号和来自第一滤波器组211的信号基本相同,则认为信号是TV的反射的声音信号。之后自适性滤波器(W0,W1,W2,…WM-1)从来自第一滤波器组212的信号中消除该信号。作为结果,自适性滤波器单元215将除了反射的TV声音信号之外的划分的信号输出。第三滤波器组213从自适性滤波器单元215接收划分的信号并将其组合。组合的信号包括用户的语音,并且可以包括噪声和剩余的反射的声音信号。因此,本发明可以包括噪声消除器(没有示出),其基于阈值从第三滤波器组213中滤去信号。
语音识别系统20进一步包括语音检测器22,其从反射的声音消除器21接收信号并且从接收的信号中检测用户的语音。语音检测器22基于用户的语音获得用户的语音信息。例如,为确定用户的语音的间隔,语音检测器检测语音的开始和结束,并且检测用户的语音的频率范围,幅度,以及波形。现在,语音检测器22将用户的语音信息发送到反射的声音消除器21和语音识别单元23。
语音识别系统20还包括存储器24,其存储语音图形,具有语音图形的静态数据的概率模型。当在语音检测器22检测到用户的语音时,语音识别单元23比较用户的语音和在存储器24中存储的语音图形。之后确定每一存储的语音和用户的语音匹配的概率(相似性级别)。基于概率,确定用户的语音是否是对应于在存储器24中存储的语音的特定语音图形,并且它是什么语音图形。在TV10中的控制器11按照用户的语音要求操纵TV10。
图4是一流程图,示出了在AV系统中的语音识别系统。当用户说出用户的语音,比如“音量减小”时,则由麦克风接收用户的语音并且传送到反射的声音消除器21。但是,反射的TV声音和噪声也和用户的语音一起被传送到反射的声音消除器21。
将传送的用户语音,TV的反射的声音,以及噪声划分为不同的频率范围,并且由自适性滤波器(W0,W1,W2,…WM-1)消除已划分的反射的TV的声音,并由噪声消除器消除噪声(S30)。反射的声音消除器(21),根据子带滤波方法,使用IIR滤波器组211,212,213来消除反射的TV声音。
语音检测器22从反射的声音消除器21接收除了消除反射的声音和噪声之外的所有信号。如图5所示,为了检测用户的语音,将信号正弦曲线波形解析为帧(S31)。语音检测器22还指出信号的开始和结束点,并确定频率范围和幅度,等等。语音检测器22比较用户语音的能量(也就是,幅度)和预先确定的参考值。例如,其中输入到语音检测器22的信号能量大于第一阈值的点是开始点,并且其中输入到语音检测器22的信号能量大于第二阈值的点是结束点。
当确定了用户语音的开始点时,自适性滤波器单元215停止自适应。但是当确定用户语音的结束点时重新开始自适应。调节立即预知当反射时TV声音的路径,并且根据改变了的反射的声音路径更改滤波参数,比如自适性滤波器(W0,W1,W2,…WM-1)的阻带频率,或通过频率。反射的声音路径的一个实例根据用户的移动改变。
但是,当反射的声音消除器21一起接收反射的声音和用户的语音时,自适性滤波器(W0,W1,W2,…WM-1)的滤波参数应该固定,因为难以知道准确的滤波参数。仅当接收反射的声音本身时,自适性滤波器(W0,W1,W2,…WM-1)的滤波参数可以根据反射的声音路径改变。
语音识别单元23确定用户语音和至少一个对应于预先确定的字的存储的语音图形匹配的第一概率。它还确定不和对应于没有预先确定的字的一个语音图形匹配的第二概率(S32)。为了确定第一概率,首先将用户语音和在第一模型中存储的每一语音图形,比如“改变频道”、“音量增大”和“音量减小”比较。计算存储的语音图形和用户语音匹配的概率(也就是,相似性)。特别的,第一模型是隐藏马尔可夫模型(HMM),其包括对应于预先确定的字的语音图形。语音识别单元23在计算出的概率中确定最高概率作为第一概率。为确定第二概率,语音识别单元23使用第二模型,特别的,累积对应于没有预先确定的字的语音图形的填充符模型。比较用户语音和存储在第二模型中的每一语音图形,并且计算在第二模型中存储的语音图形和用户语音匹配的概率。语音识别单元23认为在计算出的概率中的最高概率是第二概率。之后确定第一和第二概率(前者/后者)的比率并且将比率和第一参考值及第二参考值比较(S33,S35)。应该注意,第一参考值用于0.5%的故障百分比,并且第二参考值用于5%的故障百分比。从实验中获得第一和第二参考值。
如果第一和第二概率的比率大于或等于第一参考值,语音识别单元23识别传送的用户语音。例如,语音识别单元23确保对应于来自第一模型的第一概率的语音图形,并且将对应于该语音图形的指令发送到控制器11。之后控制器11基于用户的语音图形操纵TV10。
如果第一和第二概率的比率小于第一参考值并且大于第二参考值,语音识别单元23不自动识别传送的用户语音,而是显示最好的对应于用户语音的字。例如,语音识别单元23要求控制11确保对应于来自第一模型的第一概率的语言图形(S36)。之后控制器11显示确保的语音图形(也就是,音量下降),并且等待接收用户的确认。如果用户说,“是”,“好的”,或“选择”作为确认(S37),则控制器11将TV10的音量减小(S38)。如果用户通过说“不”或“取消”拒绝确认,则控制器11在TV10上删除显示的语音图形“音量减小”。
如果第一和第二概率的比率小于第二参考值,语音识别单元23既不尝试识别用户的语音,也不发送任意信号到控制器11(S39)。因此,控制器11不响应用户的语音。
因为它基于用户语音和一个存储的语音图形匹配和不匹配的两个概率的比率检测用户的语音,本发明使得语音识别系统,即使存在有反射的声音和噪声,也可以精确的执行功能。本发明不仅可以应用于电子家用电气,也可以应用于翻译装置,手持电器,玩具,等。
对于本领域普通技术人员来说,在不脱离本发明的精神和范围的情况下,很明显可以作为多种修改和变更。这样,本发明意在覆盖在附加的权利要求及其等效物范围内提供的本发明的修改和变更。
Claims (36)
1.一种用于产生音频的音频-视频(AV)系统的语音识别系统,该语音识别系统包括:
反射的声音消除器,具有多个滤波器,设置反射的声音消除器接收包括反射的AV系统音频、用户的语音、以及噪声的输入声音信号,并且设置其根据用户的声音信息从输入声音中消除反射的音频;
语音检测器,从反射的声音消除器中输出的信号中检测用户的语音,并且基于检测到的用户语音获得用户的语音信息;
语音识别单元,其比较检测到的用户语音和属于至少一个模型的语音图形。
2.如权利要求1所述的语音识别系统,其中反射的声音消除器包括:
第一滤波器组,将原始的AV系统音频划分为具有不同频率范围的第一组信号;
第二滤波器组,将输入声音划分为具有不同频率范围的第二组信号;
多个自适性滤波器,使用第一组信号从第二组信号中消除反射的AV系统音频;以及
第三滤波器,组合从多个自适性滤波器输出的信号。
3.如权利要求1所述的语音识别系统,进一步包括噪声消除器,设置其从反射的声音消除器输出的信号中消除噪声和反射的AV系统音频中没有消除的部分。
4.如权利要求1所述的语音识别系统,其中根据用户的语音信息,反射的声音消除器调节滤波器的截止频率、通带频率以及反射的音频的消除速率中的至少一个。
5.如权利要求1所述的语音识别系统,其中用户的语音信息包括用户语音的开始时间和结束时间。
6.如权利要求5所述的语音识别系统,其中用户的语音信息进一步包括用户语音的频率范围、幅度、以及波形。
7.如权利要求1所述的语音识别系统,其中语音识别单元计算用户语音和属于第一模型的至少一个语音图形匹配的第一概率,以及用户语音和属于第二模型的一个语音图形匹配的第二概率。
8.如权利要求7所述的语音识别系统,其中语音识别单元确定是否根据第一概率和第二概率的比率识别用户的语音。
9.如权利要求7所述的语音识别系统,其中预先确定属于第一模型的语音信号图形。
10.如权利要求7所述的语音识别系统,其中累积并且不预先确定属于第二模型的语音信号图形。
11.如权利要求7所述的语音识别系统,其中该语音识别单元将第一概率和第二概率的比率与参考值比较,并且基于比较的结果识别用户的语音。
12.如权利要求7所述的语音识别系统,其中语音识别单元计算用户语音和在第一模型中的语音图形匹配的多个概率,并且从多个概率中选择最高的概率作为第一概率。
13.如权利要求7所述的语音识别系统,其中语音识别单元计算用户语音和在第二模型中的语音图形匹配的多个概率,并且从多个概率中选择最高的概率作为第二概率。
14.一种用于识别产生音频的音频-视频(AV)系统的语音的方法,该方法包括:
接收包括反射的AV系统音频、用户的语音以及噪声的输入信号;
通过将输入信号经过多个滤波器,根据用户的语音信息,从输入信号中消除反射的AV系统音频;
从第一信号中检测用户的语音并且基于检测到的用户语音获得用户的语音信息;以及
比较检测到的用户语音和属于至少一个模型的语音图形。
15.如权利要求14所述的方法,其中消除反射的AV系统音频包括在从用户语音的开始点到结束点的间隔过程中固定多个滤波器的参数。
16.如权利要求15所述的方法,其中该参数包括多个滤波器的截止频率、通带频率,以及反射的声音消除速率中的至少一个。
17.如权利要求14所述的方法,进一步包括从通过多个滤波器的信号中消除噪声和反射的AV系统音频中没有消除的部分。
18.如权利要求14所述的方法,其中消除反射的AV系统音频包括基于用户的语音信息控制多个滤波器的截止频率、通带频率以及反射的声音的消除速率中的至少一个。
19.如权利要求14所述的方法,其中比较用户的语音信号和来自至少一个模型的语音信号图形包括计算用户语音和在第一模型中的语音图形匹配的第一概率,以及计算用户语音和在第二模型中的语音图形匹配的第二概率。
20.如权利要求19所述的方法,其中还包括确定第一概率和第二概率的比率。
21.如权利要求20所述的方法,进一步包括比较确定的比率和参考值,以及基于比较结果识别用户的语音。
22.如权利要求19所述的方法,其中第一模型包括对应于预先确定的字的语音图形。
23.如权利要求19所述的方法,其中第二模型累积不对应于预先确定的字的语音图形。
24.一种用于音频-视频(AV)系统的语音识别系统,该语音识别系统包括:
语音检测器,从接收的声音中检测用户语音;以及
语音识别单元,计算用户语音和在第一模型中的一个语音图形匹配的第一概率以及用户语音和在第二模型中的一个语音图形匹配的第二概率,并且根据第一概率和第二概率的比率识别用户的语音。
25.如权利要求24所述的设备,其中第一模型包括对应于预先确定的字的语音图形。
26.如权利要求24所述的设备,其中第二模型累积不对应于预先确定的字的语音图形。
27.如权利要求24所述的设备,其中语音识别单元将第一概率和第二概率的比率与参考值比较,并且基于将第一概率和第二概率的比率与参考值比较的结果识别用户的语音。
28.一种识别音频-视频(AV)系统的语音的方法,该方法包括:
从接收的声音输出的信号中检测用户的语音;
计算用户语音和在第一模型中的一个语音图形匹配的第一概率以及用户语音和在第二模型中的一个语音图形匹配的第二概率;以及
根据第一概率和第二概率的比率识别用户的语音。
29.如权利要求28所述的方法,其中第一模型包括对应于预先确定的字的语音图形。
30.如权利要求28所述的方法,其中第二模型累积不对应于预先确定的字的语音图形。
31.如权利要求28所述的方法,其中计算第一概率包括:
计算用户语音和在第一模型中的语音图形匹配的多个概率;以及
从多个概率中选择最高的概率作为第一概率。
32.如权利要求28所述的方法,其中计算第二概率包括:
计算用户语音和在第二模型中的语音图形匹配的多个概率;以及
从多个概率中选择最高的概率作为第二概率。
33.如权利要求28所述的方法,其中识别用户语音包括:
将第一概率和第二概率的比率与第一参考值和第二参考值比较;以及
基于比较结果确定是否识别用户的语音。
34.如权利要求33所述的方法,其中确定是否识别用户的语音包括如果第一概率和第二概率的比率等于或大于第一参考值就识别用户的语音。
35.如权利要求33所述的方法,其中确定是否识别用户的语音包括,如果第一概率和第二概率的比率小于第一参考值和大于第二参考值就显示与用户语音相对应的字。
36.如权利要求36所述的方法,其中确定是否识别用户的语音包括如果第一概率和第二概率的比率小于第二参考值就不识别用户的语音。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020030045765A KR100556365B1 (ko) | 2003-07-07 | 2003-07-07 | 음성 인식장치 및 방법 |
KR45765/2003 | 2003-07-07 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1591566A true CN1591566A (zh) | 2005-03-09 |
CN100345184C CN100345184C (zh) | 2007-10-24 |
Family
ID=33448354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2004100637266A Expired - Fee Related CN100345184C (zh) | 2003-07-07 | 2004-07-07 | 用于音频-视频系统的语音识别系统的设备及方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8046223B2 (zh) |
EP (1) | EP1496499A3 (zh) |
KR (1) | KR100556365B1 (zh) |
CN (1) | CN100345184C (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8046223B2 (en) | 2003-07-07 | 2011-10-25 | Lg Electronics Inc. | Apparatus and method of voice recognition system for AV system |
CN105554609A (zh) * | 2015-12-26 | 2016-05-04 | 北海鸿旺电子科技有限公司 | 通过语音输入进行功能切换的方法及耳机 |
CN105988049A (zh) * | 2015-02-28 | 2016-10-05 | 惠州市德赛西威汽车电子股份有限公司 | 一种噪声抑制的调试方法 |
CN115552515A (zh) * | 2020-09-03 | 2022-12-30 | 谷歌有限责任公司 | 用于热词/关键词检测的用户中介 |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080061901A (ko) * | 2006-12-28 | 2008-07-03 | 주식회사 유진로봇 | 로봇의 입출력 장치에 의한 효율적인 음성인식 방법 및시스템 |
KR101086304B1 (ko) | 2009-11-30 | 2011-11-23 | 한국과학기술연구원 | 로봇 플랫폼에 의해 발생한 반사파 제거 신호처리 장치 및 방법 |
DK2879726T3 (en) | 2012-07-31 | 2015-12-07 | Geistlich Pharma Ag | HYDROPHILIC PHOSPHATE GROUP CONTAINING DEHYDRATED PARTLY CLEANED BONE REPLACEMENT MATERIAL |
KR102216048B1 (ko) | 2014-05-20 | 2021-02-15 | 삼성전자주식회사 | 음성 명령 인식 장치 및 방법 |
US9508343B2 (en) * | 2014-05-27 | 2016-11-29 | International Business Machines Corporation | Voice focus enabled by predetermined triggers |
US10482877B2 (en) | 2015-08-28 | 2019-11-19 | Hewlett-Packard Development Company, L.P. | Remote sensor voice recognition |
US10958747B2 (en) * | 2017-08-24 | 2021-03-23 | Google Llc | Digital component transmission |
KR20200017160A (ko) | 2018-08-08 | 2020-02-18 | 주식회사 케이티 | 음성을 인식하는 장치, 방법 및 컴퓨터 판독 가능 매체 |
USD915360S1 (en) * | 2018-08-27 | 2021-04-06 | Lg Electronics Inc. | Voice recognition device for television |
US11849291B2 (en) * | 2021-05-17 | 2023-12-19 | Apple Inc. | Spatially informed acoustic echo cancelation |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5512939A (en) * | 1994-04-06 | 1996-04-30 | At&T Corp. | Low bit rate audio-visual communication system having integrated perceptual speech and video coding |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US6016473A (en) * | 1998-04-07 | 2000-01-18 | Dolby; Ray M. | Low bit-rate spatial coding method and system |
US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
US6571210B2 (en) * | 1998-11-13 | 2003-05-27 | Microsoft Corporation | Confidence measure system using a near-miss pattern |
KR100587260B1 (ko) | 1998-11-13 | 2006-09-22 | 엘지전자 주식회사 | 음향 기기의 음성인식장치 |
EP1110315B1 (en) * | 1999-06-24 | 2008-03-26 | Koninklijke Philips Electronics N.V. | Acoustic echo and noise cancellation |
DE10002321C2 (de) * | 2000-01-20 | 2002-11-14 | Micronas Munich Gmbh | Sprachgesteuerte Vorrichtung und System mit einer derartigen sprachgesteuerten Vorrichtung |
US20020039425A1 (en) | 2000-07-19 | 2002-04-04 | Burnett Gregory C. | Method and apparatus for removing noise from electronic signals |
EP1312078A1 (en) | 2000-08-15 | 2003-05-21 | Koninklijke Philips Electronics N.V. | Multi-device audio-video with common echo canceling |
US6968064B1 (en) * | 2000-09-29 | 2005-11-22 | Forgent Networks, Inc. | Adaptive thresholds in acoustic echo canceller for use during double talk |
WO2002060057A1 (en) * | 2001-01-23 | 2002-08-01 | Koninklijke Philips Electronics N.V. | Asymmetric multichannel filter |
KR100368289B1 (ko) * | 2001-02-20 | 2003-01-24 | (주)성우테크노 | 음성인식장치를 위한 음성명령식별기 |
US6985859B2 (en) * | 2001-03-28 | 2006-01-10 | Matsushita Electric Industrial Co., Ltd. | Robust word-spotting system using an intelligibility criterion for reliable keyword detection under adverse and unknown noisy environments |
JP2003308091A (ja) * | 2002-04-17 | 2003-10-31 | Pioneer Electronic Corp | 音声認識装置、音声認識方法および音声認識プログラム |
KR100556365B1 (ko) | 2003-07-07 | 2006-03-03 | 엘지전자 주식회사 | 음성 인식장치 및 방법 |
-
2003
- 2003-07-07 KR KR1020030045765A patent/KR100556365B1/ko active IP Right Grant
-
2004
- 2004-07-06 US US10/883,775 patent/US8046223B2/en not_active Expired - Fee Related
- 2004-07-06 EP EP04015881A patent/EP1496499A3/en not_active Ceased
- 2004-07-07 CN CNB2004100637266A patent/CN100345184C/zh not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8046223B2 (en) | 2003-07-07 | 2011-10-25 | Lg Electronics Inc. | Apparatus and method of voice recognition system for AV system |
CN105988049A (zh) * | 2015-02-28 | 2016-10-05 | 惠州市德赛西威汽车电子股份有限公司 | 一种噪声抑制的调试方法 |
CN105988049B (zh) * | 2015-02-28 | 2019-02-19 | 惠州市德赛西威汽车电子股份有限公司 | 一种噪声抑制的调试方法 |
CN105554609A (zh) * | 2015-12-26 | 2016-05-04 | 北海鸿旺电子科技有限公司 | 通过语音输入进行功能切换的方法及耳机 |
CN115552515A (zh) * | 2020-09-03 | 2022-12-30 | 谷歌有限责任公司 | 用于热词/关键词检测的用户中介 |
Also Published As
Publication number | Publication date |
---|---|
EP1496499A2 (en) | 2005-01-12 |
US20050033572A1 (en) | 2005-02-10 |
EP1496499A3 (en) | 2005-02-02 |
KR100556365B1 (ko) | 2006-03-03 |
KR20050005868A (ko) | 2005-01-15 |
US8046223B2 (en) | 2011-10-25 |
CN100345184C (zh) | 2007-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100345184C (zh) | 用于音频-视频系统的语音识别系统的设备及方法 | |
CA2011775C (en) | Method of detecting acoustic signal | |
CN107454508B (zh) | 麦克风阵列的电视机及电视系统 | |
CN107004409B (zh) | 利用运行范围归一化的神经网络语音活动检测 | |
CN1160698C (zh) | 噪声信号中语音的端点定位 | |
CN1064772C (zh) | 语音活动性检测器 | |
US20060053009A1 (en) | Distributed speech recognition system and method | |
CN105308985B (zh) | 一种声反馈消除模块、用于抑制不期望的啸叫声音的方法及音频系统 | |
CN103259898B (zh) | 自适应调节频响的方法及终端 | |
US20060106601A1 (en) | Noise elimination method, apparatus and medium thereof | |
US5864804A (en) | Voice recognition system | |
US20020103636A1 (en) | Frequency-domain post-filtering voice-activity detector | |
US8423357B2 (en) | System and method for biometric acoustic noise reduction | |
US11521635B1 (en) | Systems and methods for noise cancellation | |
CN1419795A (zh) | 校准麦克风的设备和方法 | |
CN112102851A (zh) | 语音端点检测方法、装置、设备及计算机可读存储介质 | |
EP4074066A1 (en) | Methods for reducing error in environmental noise compensation systems | |
CN114464205B (zh) | 基于啸叫检测的音频处理方法及电子设备 | |
CN107452398B (zh) | 回声获取方法、电子设备及计算机可读存储介质 | |
KR20110034360A (ko) | 사용자 음성을 이용한 위치 추적 장치 및 그 방법 | |
CN111341351A (zh) | 基于自注意力机制的语音活动检测方法、装置及存储介质 | |
CN108540680B (zh) | 讲话状态的切换方法及装置、通话系统 | |
CN1776807A (zh) | 声音辨识系统及具有该系统的安全装置 | |
CN112165558B (zh) | 一种双讲状态检测方法、装置、存储介质及终端设备 | |
WO2003021571A1 (en) | Speech detection system and method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20071024 Termination date: 20160707 |
|
CF01 | Termination of patent right due to non-payment of annual fee |