CN110738990A - 识别语音的方法和装置 - Google Patents
识别语音的方法和装置 Download PDFInfo
- Publication number
- CN110738990A CN110738990A CN201810796701.9A CN201810796701A CN110738990A CN 110738990 A CN110738990 A CN 110738990A CN 201810796701 A CN201810796701 A CN 201810796701A CN 110738990 A CN110738990 A CN 110738990A
- Authority
- CN
- China
- Prior art keywords
- current frame
- signals
- signal
- time
- interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000009467 reduction Effects 0.000 claims abstract description 41
- 230000005236 sound signal Effects 0.000 claims abstract description 39
- 238000000926 separation method Methods 0.000 claims description 24
- 238000001228 spectrum Methods 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 claims description 9
- 230000001419 dependent effect Effects 0.000 claims 1
- 101100042610 Arabidopsis thaliana SIGB gene Proteins 0.000 description 22
- 101100294408 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) MOT2 gene Proteins 0.000 description 14
- 101150117326 sigA gene Proteins 0.000 description 14
- 101100421503 Arabidopsis thaliana SIGA gene Proteins 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012880 independent component analysis Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Circuit For Audible Band Transducer (AREA)
- Image Analysis (AREA)
Abstract
公开了一种识别语音的方法和装置,该方法包括:将输入的声音信号分离为至少两个分离信号;生成在当前帧时的降噪信号;对在当前帧时的每个关注信号执行初步识别;以及根据在当前帧时的每个关注信号在当前帧时的识别得分执行识别判决。本公开的方法和装置将阵列信号处理和语音识别深度地融合在一起并采用多路识别,使得即使在信噪比很低的情况下也能够获得很好的识别率。
Description
技术领域
本公开总体上涉及语音识别的技术领域,并且具体地涉及一种识别语音的方法和装置。
背景技术
在嘈杂的环境中,例如在存在电视干扰的情况下,远场语音识别的识别率将大大降低,进而影响远场语音交互。
可以通过麦克风阵列进行空间滤波,输出单路语音并送入语音识别器进行识别。然而,空间滤波通常依赖于声源定位,而在信噪比较低的情况下,声源定位本身的准确度将显著地降低。
发明内容
一方面,本公开提供了一种识别语音的方法,该方法包括:将输入的声音信号分离为至少两个分离信号;基于在前述声音信号的当前帧时从前述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号,生成在当前帧时的降噪信号;对在当前帧时的多个关注信号中的每个关注信号执行初步识别,在当前帧时的多个关注信号包括前述至少两个分离信号和在当前帧时的降噪信号,并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分;以及根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分执行识别判决。
另一方面,本公开提供了一种计算机可读取的非易失性存储介质,在其上存储有程序指令,前述程序指令可以在被执行时执行上述方法。
另一方面,本公开提供了一种识别语音的装置,该装置可以包括一个或多个处理器,前述一个或多个处理器被配置为在启动时至少执行上述方法。
另一方面,本公开提供了一种识别语音的装置,该装置可以包括:分离器,被配置为将输入的声音信号分离为至少两个分离信号;信号生成器,被配置为基于在前述声音信号的当前帧时从前述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号来生成在当前帧时的降噪信号;识别器,被配置为对在当前帧时的多个关注信号中的每个关注信号执行初步识别,在当前帧时的多个关注信号包括前述至少两个分离信号和在当前帧时的降噪信号,并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分;以及判决器,被配置为根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分来执行识别判决。
根据本公开的实施例的识别语音的方法和装置将阵列信号处理和语音识别深度地融合在一起并采用多路识别,使得即使在信噪比很低的情况下也能够获得很好的识别率。
附图说明
图1示出根据本公开的实施例的识别语音的方法的示例。
图2示出根据本公开的实施例的声音信号分离的示例。
图3示出根据本公开的实施例的识别语音的方法的另一个示例。
图4示出根据本公开的实施例的识别语音的方法的另一个示例。
图5示出根据本公开的实施例的识别语音的装置的示例。
具体实施方式
下面结合附图来描述根据本公开的实施例的用于识别语音的方法和装置的示例。
如图1所示,根据本公开的实施例的示例方法100可以包括步骤S110(分离声音信号)、S120(生成降噪信号)、S130(初步识别)和S140(识别判决)。
在步骤S110中,可以将输入的声音信号分离为至少两个分离信号。
在一个实施例中,可以通过诸如麦克风阵列这样的拾音器或拾音电路实时地获取外界声音,并通过诸如模数转换器这样的转换器或转换电路转换为例如数字信号,从而获得输入声音信号。在另外的实施例中,可以通过其他适当的方式获得输入的声音信号。本公开不局限于获取输入声音信号的特定方式或特定装置。
然后,在一个实施例中,可以通过例如盲源分离或独立分量分析等信号分离技术将输入的声音信号分离为至少两个分离信号。在另外的实施例中,可以通过例如波束形成技术将输入的声音信号分离为至少两个分离信号。在另外的实施例中,还可以采用其他适当的信号分离技术将输入的声音信号分离为至少两个分离信号。
例如,如图2所示,可以将输入的声音信号IN_SIG分离为分离信号SIG1、SIG2、……、SIGn(n为大于或等于2的自然数)。应当理解,图2仅仅示出信号的示意图,而不是声音信号和相应分离信号的实际波形。
另外,如图2所示,输入的声音信号IN_SIG可以包括一个或多个帧f0、f1、f2、f3、f4、f5、f6、f7、f8等。在本文中,“当前帧”表示与当前时间段(例如,采样时间段)相对应的信号部分或当前时间正在处理的信号部分。例如,当前帧f3可以表示声音信号IN_SIG和/或每个分离信号SIGi(1≤i≤n)在与f3相对应的时间段的信号部分。相应地,当前帧f3的前一帧(或者简称为“前一帧”)表示在时间上紧接在当前帧f3之前的帧f2,当前帧f3的后一帧(或者简称为“后一帧”)表示在时间上紧接在当前帧f3之后的帧f4,并且当前帧f3的先前帧(或者简称为“先前帧”)表时在时间上先于当前帧f3的一个或多个帧(可以是连续的,也可以是不连接的,可以是紧接在当前帧f3之前的,也可以不是紧接在当前帧f3之前的)。
然后,在步骤S120中,可以基于在声音信号的当前帧时从在步骤S110中分离出的至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号,生成在当前帧时的降噪信号。
在一个实施例中,在当前帧时从前述至少两个分离信号中选择出的主分离信号在前一帧时的识别得分可以大于或等于任何其他分离信号在前一帧时的识别得分。例如,如果SIG1至SIGn中的SIG2在帧f3时的识别得分大于或等于SIG1至SIGn中的其他任何分离信号的识别得分,则在帧f4开始时,可以将SIG2选择为在帧f4时的主分离信号,并将SIG1至SIGn中的其他任何分离信号中的一个或多个作为在帧f4时的副分离信号。
信号的识别得分表示例如针对该信号的识别结果与声音信号IN_SIG或声音信号IN_SIG代表的实际内容的接近程度,识别得分越高,接近程度越高。关于各个分离信号在各个帧时的识别得分将在下文更详细地描述。
然后,在一个实施例中,可以分析每个分离信号SIGi以获得每个分离信号SIGi的频谱和功率谱。例如,可以通过适时傅立叶分析来获得每个分离信号SIGi的频谱,并且可以基于每个分离信号SIGi的频谱进一步地获得每个分离信号SIGi的功率谱。
进一步地,可以根据所选择的主分离信号的功率谱和所选择的一个或多个副分离信号的功率谱确定降噪因子或增益。
在一个实施例中,可以先确定功率比,然后根据主副信号功率比来计算出或获得降噪因子或增益。例如,功率比可以是根据所选择的主分离信号的功率谱和所选择的一个或多个副分离信号中的一个副分离信号的功率谱获得的功率比。在另外的示例中,功率比可以是根据所选择的主分离信号的功率谱和所选择的所有副分离信号的平均功率谱获得的功率比。在另外的示例中,功率比可以是根据所选择的主分离信号的功率谱和所选择的所有副分离信号中的多个副分离信号的平均功率谱获得的功率比。
在一个实施例中,可以将降噪因子或增益g确定为例如g=a/(1+a),其中,a为先前所获得的功率比。在另外的实施例中,可以采用其他方式根据功率比来确定降噪因子或增益g,使得功率比越大,降噪因子或增益g越大。
然后,可以根据降噪因子或增益g和主分离信号的频谱来获得当前帧时的降噪信号。在一个实施例中,可以将降噪因子或增益g与主分离信号的频谱相乘,并进一步地通过合成变换来获得当前帧时的降噪信号。在另外的实施例中,可以根据降噪因子或增益g和主分离信号的频谱,通过任何适当的降噪技术来获得当前帧时的降噪信号(在下文标记为SIG_DN)。
然后,可以至少将前述的至少两个分离信号SIG1至SIGn以及当前帧时的降噪信号SIG_DN作为当前帧时的多个(例如,n+1个)关注信号,并继续到步骤S130,以根据在当前帧时的多个关注信号中的每个关注信号执行初步识别,其中,在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分。
在一个实施例中,可以记录例如前一帧时每个分离信号的识别得分,以例至少在下一帧时使用。例如,在帧f3时,可以至少记录每个分离信号SIGi在该帧f3时的相应的识别得分;然后,可以在帧f4时,根据帧f3时记录的识别得分,从分离信号SIGi中选择在帧f4时的主分离信号,进而获得在帧f4时的降噪信号。
在步骤S130中,在一个实施例中,对于包括分离信号SIG1至SIGn以及当前帧时的降噪信号SIG_DN的多个关注信号中的每个关注信号,可以通过声学模型确定在当前帧时的声学得分。
在不同的实施例中,声学模型可以是基于诸如隐马尔科夫模型(HMM)、深度神经网络(DNN)等构建的任何适当的声学模型SND。本公开不局限于任何特定的声学模型。相应地,每个关注信号的声学得分S_SNDj(例如,1≤j≤n+1)可以形式化地表示为S_SNDj=SND(ISj|θSND),其中,ISj表示关注信号,例如可以是任何一个分离信号SIGi或当前帧时的降噪信号SIG_DN;θSND表示声学模型SND的例如经过事先训练或在线训练的模型参数。
然后,对于每个关注信号ISj,可以根据该关注信号ISj在当前帧时的声学得分S_SNDj,对该关注信号ISj执行解码。根据不同的实施例,可以采用诸如维特比解码和动态规划解码这样的任何适当的解码技术执行解码。例如,对于可能包括一个或多个预定词的命令词,可以采用一个或多个例如基于深度学习网络或隐马尔科夫模型的命令词模型对关注信号ISj进行识别和打分。
在一个实施例中,在当前帧时针对每个关注信号ISj执行解码所获得的解码的结果可以包括每个关注信号ISj的相应的解码得分S_DECj,该解码得分S_DECj越高可以表示对应的关注信号ISj的解码的结果越有可能接近于声音信号IN_SIG所有表达的实际语义。
在一个实施例中,步骤S130可以包括确定在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果与包括一个或多个预定词的预定语句相匹配的置信度。在该实施例中,在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分可以取决于在当前帧时所确定的置信度。
例如,在唤醒词或命令词识别的情况下,解码得分S_DECj可以对应于或基于相应的关注信号ISj在当前帧时的解码的结果与包括一个或多个预定词的预定语句相匹配的置信度或程度,并且可以根据该置信度来确定关注信号ISj在当前帧时的识别得分S_IDj,例如将该置信度作为关注信号ISj在当前帧时的识别得分S_IDj。
在另一个实施例中,步骤S130还可以包括对在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果执行自然语言处理。在该实施例中,在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分可以取决于在当前帧时的自然语言处理得分。
例如,在通用语音识别的情况下,可以进一步地针对每个关注信号ISj在当前帧时的解码的结果执行自然语言处理,并获得关注信号ISj在当前帧时的自然语言处理得分S_NLPj。例如,可以将相应的自然语言处理得分S_NLPj作为关注信号ISj在当前帧时的识别得分S_IDj,或者基于相应的自然语言处理得分来确定关注信号ISj在当前帧时的识别得分S_IDj。
如前文所述,可以记录每个关注信号ISj在当前帧时的识别得分,以供在下一帧时使用。
然后,示例方法100可以继续到步骤S140,以根据在当前帧时的每个关注信号ISj在当前帧时的识别得分执行识别判决。
例如,在识别包括一个预定词的唤醒词的情况下,或者在识别包括一个或多个预定词的命令词的情况下,或者在通用语音识别的情况下,可以将在当前帧时的所有关注信号{ISj,1≤j≤n+1}中的满足一个或多个预定条件的关注信号ISk(1≤k≤n+1)在当前帧时的初步识别的结果确定为在当前帧时针对声音信号IN_SIG的识别结果。
根据不同的实施例,在步骤S140中可以考虑的一个或多个预定条件可以包括但不限于例如以下条件中的一个或多个:
-关注信号ISk在当前帧时的识别得分S_IDk大于或等于在当前帧时的任何其他关注信号ISm(1≤m≤n+1,且m≠k)在当前帧时的识别得分S_IDm;
-与关注信号ISk在当前帧时的初步识别的结果相对应的预定词命中次数大于或等于与当前帧时的任何其他关注信号ISm在当前帧时的初步识别的结果相对应的预定词命中次数;
-关注信号ISk在当前帧时的识别得分S_IDk大于或等于阈值TH1,其中,阈值TH1可以根据需要而设置为任何适当的值。
应当理解,上述预定条件仅仅是示例,而不是全部的可能的预定条件。例如,在识别包括一个预定词的唤醒词的情况下,将在当前帧时针对声音信号IN_SIG的识别结果确定为指示执行唤醒操作可以包括但不限于以下示例条件中的一个或多个:
-在当前帧时的所有关注信号{ISj,1≤j≤n+1}中存在关注信号ISk,该关注信号ISk在当前帧时的识别得分S_IDk大于或等于阈值TH1;
-在当前帧时的所有关注信号{ISj,1≤j≤n+1}中的预定数量N1(例如,100个或以上)的关注信号{ISr’,1≤r≤N1}中的每个关注信号ISr’在当帧时的识别得分S_IDr’均大于或等于阈值TH2;
-在当前帧时的降噪信号SIG_DN的识别得分大于或等于阈值TH3,并且每个分离信号SIGi在当前帧时的识别得分均大于或等于阈值TH4;
-在当前帧时的降噪信号SIG_DN的识别得分S_IDSIG_DN大于或等于阈值TH5,并且存在分离信号SIGp(1≤p≤n),使得分离信号SIGp在当前帧时的识别得分S_IDSIGp大于或等于任何其他分离信号SIGq(1≤q≤n且q≠p)在当前帧时的识别得分S_IDSIGq、|S_IDSIG_DN-S_IDSIGp|<TH6并且S_IDSIGp≥TH7。
根据不同的实施例,上述的阈值TH1至TH7的值可以根据需要而设置为任何适当的值。
在一个实施例中,在根据预定条件将在当前帧时针对声音信号IN_SIG的识别结果确定为指示执行唤醒操作的情况下,示例方法100或者示例方法100的步骤S140还可以包括执行唤醒操作,从而使例如处于休眠或待机状态的装置开启部分或全部功能。
在图1所示的示例方法100中,采用多路识别,并且在每一帧的处理中均考虑前一帧的反馈信息,使得即使在信噪比很低的情况下也能够获得很好的识别率。
如图3所示,示例方法100还包括用于获得话者模型的步骤S150。相应地,在步骤S120中,还可以考虑话者模型在前一帧时的反馈信息。
在一个实施例中,在当前帧时所选择的主分离信号在前一帧时由话者模型确定的与话者相关联的概率大于或等于任何其他分离信号在前一帧时由所述话者模型确定的与所述话者相关联的概率并且大于或等于特定阈值。
例如,对于SIG1至SIGn中的每个分离信号SIGi,可以在帧f3时,通过话者模型确定各个分离信号与话者相关联的概率PSIGi,如果分离信号SIG2的概率PSIG2大于其他任何分离信号SIGk(1≤k≤n并且k≠2)的概率PSIGk,则在帧f4开始时,可以将SIG2选择为在帧f4时的主分离信号,并将SIG1至SIGn中的其他任何分离信号中的一个或多个作为在帧f4时的副分离信号。
为了获得这样的话者模型,在步骤S150中,可以至少根据在当前帧时针对声音信号IN_SIG的识别结果来确定话者的话者特征,并对话者特征进行训练以获得话者特征。
根据不同的实施例,话者模型可以是例如反向传播型的人工神经网络话者模型、基于遗传算法的矢量量化话者模型等任何适当的话者模型。根据所采用的话者模型,可以确定需要确定的话者特征的细节。本公开不局限于特定的话者模型和特定的话者特征。
在一个实施例中,还可以记录在当前帧之前的至少一个先前帧时的先前关注信号,每个先前关注信号在对应的先前帧时的初步识别的结果是在对应的在对应的先前帧时针对声音信号IN_SIG的识别结果。
例如,假设当前帧为f4,则可以记录在帧f0时的关注信号ISf0(分离信号SIG1至SIGn和在帧f0时的降噪信号中的满足前述一个或多个预定条件的关注信号)、在帧f1时的关注信号ISf1(分离信号SIG1至SIGn和在帧f1时的降噪信号中的满足前述一个或多个预定条件的关注信号)、在帧f2时的关注信号ISf2(分离信号SIG1至SIGn和在帧f2时的降噪信号中的满足前述一个或多个预定条件的关注信号)以及在帧f3时的关注信号ISf3(分离信号SIG1至SIGn和在帧f3时的降噪信号中的满足前述一个或多个预定条件的关注信号)。
然后,在确定话者的话者特征时,还可以考虑每个先前关注信号在对应的先前帧时的初步识别的结果。
例如,可以根据在帧f0时的关注信号ISf0的初步识别的结果(即,在帧f0时针对声音信号IN_SIG的识别结果)、在帧f1时的关注信号ISf1的初步识别的结果(即,在帧f1时针对声音信号IN_SIG的识别结果)、在帧f2时的关注信号ISf2的初步识别的结果(即,在帧f2时针对声音信号IN_SIG的识别结果)、在帧f3时的关注信号ISf3的初步识别的结果(即,在帧f3时针对声音信号IN_SIG的识别结果)以及在当前帧f4时针对声音信号IN_SIG的识别结果来确定话者的话者特征。
图4示出根据本公开的实施例的方法的另一示例,其中的步骤S110可以与图1或图3所示的步骤S110相同,并且步骤S150可以与图3所示的步骤S150相同,重复之处不再赘述。
在图4的示例中,A可以对应于唤醒过程,并且A中的步骤S120’、S130’和S140’可以分别对应于图1的示例中的步骤S120、S130和S140,只是可以更侧重于针对唤醒词的识别,重复之处不再赘述。相应地,步骤S140’可以包括执行唤醒操作并且可以被称为“唤醒判决”,并且步骤S130’也可以被称为“唤醒识别”。
在通过步骤S140’执行唤醒操作之后,可以从A转换成B,其中,B可以对应于一般的识别过程(例如,命令词识别和通用语音识别),并且B中的步骤S120”、S130”和S140”可以分别对应于图3的示例中的步骤S120、S130和S140,重复之处不再赘述。
在图3或图4的示例中,根据本公开的实施例的方法还考虑通过话者模型判断与话者的关联性,从而允许在语音控制和交互阶段更进一步地融合话者的特征信息,并进一步地提高识别率。
在一个实施例中,可以在一个或多个计算机可读取的非临时性存储介质上存储或实施能够执行上述方法的各个步骤的程序指令,使得这样的非临时性存储介质能够在被计算机或其他计算装置(例如处理器)读取时提供相应的程序指令,并使得计算机或其他计算装置能够根据所读取的程序指令执行相应的操作。根据不同的实施例,程序指令能够以诸如源代码、二进制代码、中间代码等各种形式或各种形式的不同组合而实施或存储在非临时性存储介质上。
图5示出能够应用根据本公开的实施例的方法的示例装置200,该示例装置200可以包括分离器SPT、信号生成器GEN、识别器RGZ和判决器DEC。
在一个实施例中,分离器SPT可以包括一个或多个处理器,例如,诸如中央处理单元(CPU)和现场可编程门阵列(FPGA)这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中,分离器SPT(例如,分离器SPT中的处理器)可以被配置为将输入的声音信号IN_SIG分离为至少两个分离信号SIG1、SIG2、……、SIGn。在一个实施例中,分离器SPT或者其中的处理器可以被配置为执行例如示例方法100的步骤S110。
在一个实施例中,信号生成器GEN可以包括一个或多个处理器,诸如CPU和FPGA这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中,信号生成器GEN可以被配置为基于在当前帧时从分离信号SIG1、SIG2、……、SIGn中选择出的主分离信号SIG_M以及一个或多个副分离信号SIG_V1、……、SIG_Vn-1来生成在当前帧时的降噪信号SIG_DN。在一个实施例中,信号生成器GEN或者其中的处理器可以被配置为执行例如示例方法100的步骤S120。
在一个实施例中,识别器RGZ可以包括一个或多个处理器,诸如CPU和FPGA这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中,识别器RGZ可以被配置为对在当前帧时的多个关注信号中的每个关注信号执行初步识别,在当前帧时的多个关注信号可以包括分离信号SIG1、SIG2、……、SIGn和在当前帧时的降噪信号SIG_DN,并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果RGZj(1≤j≤n+1)相关联的在当前帧时的识别得分。在一个实施例中,识别器RGZ或者其中的处理器可以被配置为执行例如示例方法100的步骤S130。
在一个实施例中,判决器DEC可以包括一个或多个处理器,诸如CPU和FPGA这样的通用处理器或处理装置或者其他专用处理器或处理装置。在一个实施例中,判决器DEC可以被配置为根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分(根据不同的实施例,可以是RGZj或者包括在RGZj中)来执行识别判决,以获得在当前帧时针对输入的声音信号IN_SIG的识别结果OUT_R。在一个实施例中,判决器DEC或者其中的处理器可以被配置为执行例如示例方法100的步骤S140。
应当理解,图5所示的结构仅是示例性的,而非限制性的。根据本公开的实施例的装置还可以具有其他部件和/或结构。
例如,示装置200还可以包括麦克风阵列,用于作为获取外声音的拾音器或拾音电路。另外,还可以包括诸如模数转换器这样的转换器或转换电路以及滤波器等部件。
例如,根据本公开的实施例的装置可以包括一个或多个处理器(例如CPU和FPGA等通用的处理器或处理装置和/或专用的处理器或处理装置),并且这样的一个或多个处理器可以被配置为在启动时至少执行根据本公开的实施例的方法,例如示例方法100。
例如,根据本公开的实施例的装置还可以包括I/O接口、网络接口和/或存储器,从而通过有线或无线地方式与其他部件或装置进行信息/数据交互。
例如,根据不同的实施例,装置中的存储器可以包括各种形式的计算机可读写存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)、高速缓冲存储器(cache)、片上存储器等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪速存储器等。可读写存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件、或者任意以上的组合。在一个实施例中,存储器可以存储用于指示装置中的一个或多个处理器执行根据本公开的实施例的方法的步骤的程序指令。
贯穿说明书和权利要求书,除非上下文清楚地另有要求,否则措词“包括”、“包含”等应当以与排他性或穷尽性的意义相反的包括性的意义来解释,也就是说,应当以“包括但不限于”的意义来解释。另外,措词“在本文中”、“上文”、“下文”以及相似含义的措词在本申请中使用时应当指作为整体的本申请,而不是本申请的任何具体部分。在上下文允许时,在使用单数或复数的以上描述中的措词也可以分别包括复数或单数。例如,前文所提到的“第一障碍物”或“第二障碍物”可以指一个或多个的“第一障碍物”或“第二障碍物”,并且“另一”也可以表示另外的一个或多个。关于在提及两个或多个项目的列表时的措词“或”,该措词涵盖该措词的以下解释中的全部:列表中的任何项目,列表中的所有项目,以及列表中的项目的任何组合。另外,措词“第一”、“第二”等旨在用于区分,而不是用于强调次序或重要程度。
虽然已经描述了本公开的一些实施例,但是这些实施例仅作为示例而呈现,而不打算限制本公开的范围。实际上,在本文中所描述的方法和系统可以采用多种其他形式来实施。另外,可以在不脱离本公开的范围的情况下,在本文中所描述的方法和装置的形式上做出各种省略、替换和改变。
Claims (17)
1.一种识别语音的方法,包括:
将输入的声音信号分离为至少两个分离信号;
基于在所述声音信号的当前帧时从所述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号,生成在当前帧时的降噪信号;
对在当前帧时的多个关注信号中的每个关注信号执行初步识别,在当前帧时的多个关注信号包括所述至少两个分离信号和在当前帧时的降噪信号,并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分;以及
根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分执行识别判决。
2.根据权利要求1所述的方法,其中,在当前帧时所选择的主分离信号在所述声音信号的前一帧时的识别得分大于或等于所述至少两个分离信号中的任何其他分离信号在前一帧时的识别得分。
3.根据权利要求1所述的方法,其中,所述初步识别包括:
确定在当前帧时的多个关注信号中的每个关注信号在当前帧时的声学得分;以及
分别根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的声学得分对在当前帧时的多个关注信号中的每个关注信号执行解码。
4.根据权利要求3所述的方法,其中,所述初步识别还包括:
确定在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果与包括一个或多个预定词的预定语句相匹配的置信度,在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分取决于在当前帧时所确定的置信度。
5.根据权利要求3所述的方法,其中,所述初步识别还包括:
对在当前帧时的多个关注信号中的每个关注信号在当前帧时的解码的结果执行自然语言处理,在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分取决于在当前帧时的自然语言处理得分。
6.根据权利要求1所述的方法,其中,所述识别判决包括:
将在当前帧时的多个关注信号中的满足预定条件的第一关注信号在当前帧时的初步识别的结果确定为在当前帧时针对所述声音信号的识别结果。
7.根据权利要求6所述的方法,其中,所述预定条件包括以下条件中的一个或多个:
所述第一关注信号在当前帧时的识别得分大于或等于在当前帧时的多个关注信号中的任何其他关注信号在当前帧时的识别得分;
与所述第一关注信号在当前帧时的初步识别的结果相对应的预定词命中次数大于或等于与当前帧时的多个关注信号中的任何其他关注信号在当前帧时的初步识别的结果相对应的预定词命中次数;以及
所述第一关注信号在当前帧时的识别得分大于或等于第一阈值。
8.根据权利要求1所述的方法,其中,所述当前识别判决包括:
根据预定条件将在当前帧时针对所述声音信号的识别结果确定为指示执行唤醒操作。
9.根据权利要求8所述的方法,其中,所述预定条件包括以下条件中的一个或多个:
在当前帧时的多个关注信号包括第一关注信号,所述第一关注信号在当前帧时的识别得分大于或等于第一阈值;
在当前帧时的多个关注信号中的第一预定数量的关注信号中的每个关注信号在当帧时的识别得分均大于或等于第二阈值;
在当前帧时的降噪信号的识别得分大于或等于第三阈值并且所述至少两个分离信号中的每个分离信号在当前帧时的识别得分均大于或等于第四阈值;以及
在当前帧时的降噪信号的识别得分大于或等于第五阈值并且在当前帧时的降噪信号的识别得分与所述至少两个分离信号中的第一分离信号在当前帧时的识别得分之间的差值小于第六阈值,所述第一分离信号在当前帧时的识别得分大于或等于所述至少两个分离信号中的任何其他分离信号在当前帧时的识别得分并且大于或等于第七阈值。
10.根据权利要求1所述的方法,还包括:
至少根据在当前帧时针对所述声音信号的识别结果确定话者的话者特征;以及
对所述话者特征进行训练以获得话者模型。
11.根据权利要求10所述的方法,还包括:
记录在当前帧之前的至少一个先前帧时的先前关注信号,每个先前关注信号在对应的先前帧时的初步识别的结果是在对应的在对应的先前帧时针对所述声音信号的识别结果;以及
还根据每个先前关注信号在对应的先前帧时的初步识别的结果确定话者的话者特征。
12.根据权利要求10所述的方法,其中,在当前帧时所选择的主分离信号在前一帧时由所述话者模型确定的与所述话者相关联的概率大于或等于所述至少两个分离信号中的任何其他分离信号在前一帧时由所述话者模型确定的与所述话者相关联的概率并且大于或等于第一阈值。
13.根据权利要求1至12中的任一项所述方法,其中,生成在当前帧时的降噪信号包括:
分析所述至少两个分离信号中的每个分离信号,以获得每个分离信号的频谱和功率谱;
根据所述主分离信号的功率谱和所述一个或多个副分离信号的功率谱确定降噪因子;以及
根据所述降噪因子和所述主分离信号的频谱获得在当前帧时的降噪信号。
14.根据算例要求13所述,其中,确定所述降噪因子包括:
所述主分离信号的功率谱和所述一个或多个副分离信号的功率谱确定功率比;以及
根据所述功率比确定所述降噪因子,所述功率比越大,则降噪因子越大。
15.一种识别语音的装置,包括:
分离器,被配置为将输入的声音信号分离为至少两个分离信号;
信号生成器,被配置为基于在所述声音信号的当前帧时从所述至少两个分离信号中选择出的主分离信号以及一个或多个副分离信号来生成在当前帧时的降噪信号;
识别器,被配置为对在当前帧时的多个关注信号中的每个关注信号执行初步识别,在当前帧时的多个关注信号包括所述至少两个分离信号和在当前帧时的降噪信号,并且在当前帧时的多个关注信号中的每个关注信号具有与在当前帧时的初步识别的结果相关联的在当前帧时的识别得分;以及
判决器,被配置为根据在当前帧时的多个关注信号中的每个关注信号在当前帧时的识别得分来执行识别判决。
16.一种识别语音的装置,包括:
一个或多个处理器,被配置为在启动时至少执行根据权利要求1至14中的任一项所述的方法。
17.一种计算机可读取的非易失性存储介质,在其上存储有程序指令,所述程序指令在被执行时执行根据权利要求1至14中的任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796701.9A CN110738990B (zh) | 2018-07-19 | 2018-07-19 | 识别语音的方法和装置 |
US16/510,565 US11183179B2 (en) | 2018-07-19 | 2019-07-12 | Method and apparatus for multiway speech recognition in noise |
JP2019132854A JP6978792B2 (ja) | 2018-07-19 | 2019-07-18 | 音声を認識するための方法および装置 |
EP19186916.3A EP3598438A1 (en) | 2018-07-19 | 2019-07-18 | Method and apparatus for recognizing speech |
KR1020190087618A KR102306608B1 (ko) | 2018-07-19 | 2019-07-19 | 음성을 인식하기 위한 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810796701.9A CN110738990B (zh) | 2018-07-19 | 2018-07-19 | 识别语音的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110738990A true CN110738990A (zh) | 2020-01-31 |
CN110738990B CN110738990B (zh) | 2022-03-25 |
Family
ID=67437933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810796701.9A Active CN110738990B (zh) | 2018-07-19 | 2018-07-19 | 识别语音的方法和装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11183179B2 (zh) |
EP (1) | EP3598438A1 (zh) |
JP (1) | JP6978792B2 (zh) |
KR (1) | KR102306608B1 (zh) |
CN (1) | CN110738990B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11551671B2 (en) | 2019-05-16 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling thereof |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1384960A (zh) * | 1999-10-29 | 2002-12-11 | 艾利森电话股份有限公司 | 语音识别的健壮特征提取方法和装置 |
US20090010451A1 (en) * | 2003-03-27 | 2009-01-08 | Burnett Gregory C | Microphone Array With Rear Venting |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
CN102934159A (zh) * | 2010-06-30 | 2013-02-13 | 英特尔公司 | 语音音频处理 |
CN105532017A (zh) * | 2013-03-12 | 2016-04-27 | 谷歌技术控股有限责任公司 | 用于波束形成以获得语音和噪声信号的装置和方法 |
CN107484080A (zh) * | 2016-05-30 | 2017-12-15 | 奥迪康有限公司 | 音频处理装置及用于估计声音信号的信噪比的方法 |
CN107507623A (zh) * | 2017-10-09 | 2017-12-22 | 维拓智能科技(深圳)有限公司 | 基于麦克风阵列语音交互的自助服务终端 |
US20180033428A1 (en) * | 2016-07-29 | 2018-02-01 | Qualcomm Incorporated | Far-field audio processing |
CN108182937A (zh) * | 2018-01-17 | 2018-06-19 | 出门问问信息科技有限公司 | 关键词识别方法、装置、设备及存储介质 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7100000B1 (en) * | 1999-05-28 | 2006-08-29 | International Business Machines Corporation | System and methods for processing audio using multiple speech technologies |
AU2003296976A1 (en) | 2002-12-11 | 2004-06-30 | Softmax, Inc. | System and method for speech processing using independent component analysis under stability constraints |
US8935158B2 (en) * | 2006-12-13 | 2015-01-13 | Samsung Electronics Co., Ltd. | Apparatus and method for comparing frames using spectral information of audio signal |
US8249867B2 (en) | 2007-12-11 | 2012-08-21 | Electronics And Telecommunications Research Institute | Microphone array based speech recognition system and target speech extracting method of the system |
KR101023211B1 (ko) | 2007-12-11 | 2011-03-18 | 한국전자통신연구원 | 마이크배열 기반 음성인식 시스템 및 그 시스템에서의 목표음성 추출 방법 |
KR101056511B1 (ko) * | 2008-05-28 | 2011-08-11 | (주)파워보이스 | 실시간 호출명령어 인식을 이용한 잡음환경에서의음성구간검출과 연속음성인식 시스템 |
US8983832B2 (en) * | 2008-07-03 | 2015-03-17 | The Board Of Trustees Of The University Of Illinois | Systems and methods for identifying speech sound features |
KR101253610B1 (ko) | 2009-09-28 | 2013-04-11 | 한국전자통신연구원 | 사용자 음성을 이용한 위치 추적 장치 및 그 방법 |
US8543402B1 (en) * | 2010-04-30 | 2013-09-24 | The Intellisis Corporation | Speaker segmentation in noisy conversational speech |
KR101154011B1 (ko) | 2010-06-07 | 2012-06-08 | 주식회사 서비전자 | 다중 모델 적응화와 음성인식장치 및 방법 |
US9607627B2 (en) * | 2015-02-05 | 2017-03-28 | Adobe Systems Incorporated | Sound enhancement through deverberation |
-
2018
- 2018-07-19 CN CN201810796701.9A patent/CN110738990B/zh active Active
-
2019
- 2019-07-12 US US16/510,565 patent/US11183179B2/en active Active
- 2019-07-18 EP EP19186916.3A patent/EP3598438A1/en not_active Withdrawn
- 2019-07-18 JP JP2019132854A patent/JP6978792B2/ja active Active
- 2019-07-19 KR KR1020190087618A patent/KR102306608B1/ko active IP Right Grant
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1384960A (zh) * | 1999-10-29 | 2002-12-11 | 艾利森电话股份有限公司 | 语音识别的健壮特征提取方法和装置 |
US20090010451A1 (en) * | 2003-03-27 | 2009-01-08 | Burnett Gregory C | Microphone Array With Rear Venting |
CN102074230A (zh) * | 2009-11-20 | 2011-05-25 | 索尼公司 | 语音识别装置、语音识别方法和程序 |
CN102934159A (zh) * | 2010-06-30 | 2013-02-13 | 英特尔公司 | 语音音频处理 |
CN105532017A (zh) * | 2013-03-12 | 2016-04-27 | 谷歌技术控股有限责任公司 | 用于波束形成以获得语音和噪声信号的装置和方法 |
CN107484080A (zh) * | 2016-05-30 | 2017-12-15 | 奥迪康有限公司 | 音频处理装置及用于估计声音信号的信噪比的方法 |
US20180033428A1 (en) * | 2016-07-29 | 2018-02-01 | Qualcomm Incorporated | Far-field audio processing |
CN107507623A (zh) * | 2017-10-09 | 2017-12-22 | 维拓智能科技(深圳)有限公司 | 基于麦克风阵列语音交互的自助服务终端 |
CN108182937A (zh) * | 2018-01-17 | 2018-06-19 | 出门问问信息科技有限公司 | 关键词识别方法、装置、设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
ROBERTO TOGNERI: "An Overview of Speaker Identification: Accuracy and Robustness Issues", 《IEEE CIRCUITS AND SYSTEMS MAGAZINE》 * |
STEVEN J. RENNIE: "Efficient model-based speech separation and denoising using non-negative subspace analysis", 《2008 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 * |
赵一良: "基于空间分离和丟失数据的语音识别算法研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11551671B2 (en) | 2019-05-16 | 2023-01-10 | Samsung Electronics Co., Ltd. | Electronic device and method of controlling thereof |
Also Published As
Publication number | Publication date |
---|---|
CN110738990B (zh) | 2022-03-25 |
KR20200010124A (ko) | 2020-01-30 |
US20200027450A1 (en) | 2020-01-23 |
KR102306608B1 (ko) | 2021-09-30 |
JP6978792B2 (ja) | 2021-12-08 |
JP2020013129A (ja) | 2020-01-23 |
EP3598438A1 (en) | 2020-01-22 |
US11183179B2 (en) | 2021-11-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11823679B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
JP6938784B2 (ja) | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 | |
KR102072235B1 (ko) | 자동 발화속도 분류 방법 및 이를 이용한 음성인식 시스템 | |
JP6633008B2 (ja) | 音声対話装置及び音声対話方法 | |
US10923137B2 (en) | Speech enhancement and audio event detection for an environment with non-stationary noise | |
US6959276B2 (en) | Including the category of environmental noise when processing speech signals | |
EP1199708B1 (en) | Noise robust pattern recognition | |
CN112397083B (zh) | 语音处理方法及相关装置 | |
JP6731326B2 (ja) | 音声対話装置及び音声対話方法 | |
Gogate et al. | DNN driven speaker independent audio-visual mask estimation for speech separation | |
JP6464005B2 (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
CN112242149B (zh) | 音频数据的处理方法、装置、耳机及计算机可读存储介质 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN117727298B (zh) | 基于深度学习的手提电脑语音识别方法及系统 | |
KR20160061071A (ko) | 발음 변이를 적용시킨 음성 인식 방법 | |
US20210201928A1 (en) | Integrated speech enhancement for voice trigger application | |
CN111462732A (zh) | 语音识别方法和装置 | |
CN110738990B (zh) | 识别语音的方法和装置 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
JP6616182B2 (ja) | 話者認識装置、判別値生成方法及びプログラム | |
CN116453539A (zh) | 用于多说话人的语音分离方法、装置、设备及存储介质 | |
Wang et al. | Robust speech recognition from ratio masks | |
JP2002372992A (ja) | 話者識別方法 | |
Thakur et al. | Speech enhancement using Open-Unmix music source separation architecture | |
KR20000056849A (ko) | 음향 기기의 음성인식 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |