CN111785282A - 一种语音识别方法及装置和智能音箱 - Google Patents
一种语音识别方法及装置和智能音箱 Download PDFInfo
- Publication number
- CN111785282A CN111785282A CN201910265991.9A CN201910265991A CN111785282A CN 111785282 A CN111785282 A CN 111785282A CN 201910265991 A CN201910265991 A CN 201910265991A CN 111785282 A CN111785282 A CN 111785282A
- Authority
- CN
- China
- Prior art keywords
- field
- far
- voiceprint
- voice
- characteristic vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000013178 mathematical model Methods 0.000 claims description 21
- 230000001755 vocal effect Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000003062 neural network model Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/04—Circuits for transducers, loudspeakers or microphones for correcting frequency response
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种语音识别方法及装置和智能音箱,本申请使用根据近场语音和远场语音训练好的降噪自动编码器,将需要识别的语音信息的声纹特征向量,特别是远场的声纹特征向量,投影到了与近场声纹特征尽可能相似的空间,再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题,提升了远场声纹识别的鲁棒性。
Description
技术领域
本申请涉及但不限于智能语音技术,尤指一种语音识别方法及装置和智能音箱。
背景技术
在智能音箱的声纹识别中,通常用户会预先注册对应该用户的声纹信息,这样,在每次唤醒设备时,都会根据预先注册的声纹信息和用户当前输入的声纹信息,自动对该用户进行识别以确定说话人的身份。
在上述声纹识别场景中,用户注册时,通常是在面对音箱0.5米~1米左右的距离进行注册,但是,在日常使用中,用户可能从如家中的任何一个位置尝试唤醒设备。然而,距离位置和空间位置的变化会带来声音信息的变化,从而导致出现根据近距离注册的声纹信息,无法准确识别出来自远离设备的声纹信息的说话人的身份。
发明内容
本申请提供一种语音识别方法及装置和智能音箱,能够提升远场声纹识别的鲁棒性。
本发明实施例提供了一种语音识别方法,包括:
利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器是根据近场语音和远场语音训练得到的;
根据提取的声纹特征向量确定需要识别的语音信息的用户身份。
在一种示例性实例中,所述方法还包括:
根据所述近场语音提取近场声纹特征向量,根据所述远场语音提取远场声纹特征向量;
将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型,训练出与数学模型对应的所述降噪自动编码器的参数。
在一种示例性实例中,所述提取需要识别的语音信息的声纹特征向量,包括:
将所述需要识别的语音信息的声音能量频谱信息,输入训练好的说话人识别神经网络模型,得到所述需要识别的语音信息所代表的说话人的声纹特征向量;
将所述说话人的声纹特征向量输入所述降噪自动编码器,获得所述需要识别的语音信息所代表的说话人的近场声纹特征向量。
在一种示例性实例中,所述需要识别的语音信息为远场语音信息;所述说话人的声纹特征向量为远场声纹特征向量;
所述降噪自动编码器将远场声纹特征向量投影为所述近场声纹特征向量。
在一种示例性实例中,所述数学模型包括深度神经网络模型。
本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项所述的语音识别方法。
本申请又提供了一种用于实现语音识别的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行上述任一项所述的语音识别方法的步骤。
本申请再提供了一种智能音箱,包括存储器和处理器,其中,存储器中存储有计算机程序;所述计算机程序被处理器执行时执行以下步骤:
利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器根据近场语音和远场语音训练得到;根据提取的声纹特征向量识别获得的语音信息的用户身份。
在一种示例性实例中,所述计算机程序被处理器执行时还执行以下步骤:根据所述近场语音提取近场声纹特征向量,根据所述远场语音提取远场声纹特征向量;将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入,输入数学模型,训练出与数学模型对应的所述降噪自动编码器的参数。
10、一种语音识别装置,包括:处理模块、识别模块;其中,
处理模块,用于利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器根据近场语音和远场语音训练得到;
识别模块,用于根据提取的声纹特征向量确定需要识别的语音信息的用户身份。
11、根据权利要求10所述的语音识别装置,还包括训练模块,用于:
根据所述近场语音提取近场声纹特征向量,根据所述远场语音提取远场声纹特征向量;将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型,训练出与数学模型对应的所述降噪自动编码器的参数。
本申请使用根据近场语音和远场语音训练好的降噪自动编码器,将需要识别的语音信息的声纹特征向量,特别是远场的声纹特征向量,投影到了与近场声纹特征尽可能相似的空间,再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题,提升了远场声纹识别的鲁棒性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请语音识别方法的实施例的流程图;
图2为本申请语音识别装置的实施例的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本申请语音识别方法的实施例的流程图,如图1所示,包括:
步骤100:利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器根据近场语音和远场语音训练得到。
在一种示例性实例中,所述语音识别方法,还包括:
根据近场语音和远场语音训练降噪自动编码器。
在一种示例性实施例中,根据近场语音和远场语音训练降噪自动编码器,可以包括:
根据近场语音提取近场声纹特征向量,根据远场语音提取远场声纹特征向量;
将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型,训练出与数学模型对应的降噪自动编码器的参数。
在一种示例性实施例中,数学模型可以是一种深度神经网络模型,输入层神经元数量与输出层神经元数量相等,以使输出信号与输入信号尽量相似,这种数学模型可以包括但不限于如:时延神经网络(TDNN)、卷积神经网络(CNN)、循环神经网络(RNN)、长短时记忆神经网络(LSTM)等。
利用多组不同说话人的近场声纹特征向量和远场声纹特征向量对(pair)重新训练神经网络模型,该神经网络模型即是关于近、远场语音的降噪自动编码器。
在一种示例性实例中,本步骤中的提取需要识别的语音信息的声纹特征向量即是对需要识别的语音信息的声纹特征向量进行前向传播算法(forward propagation),可以包括:
首先,将需要识别的语音信息的声音能量频谱信息,分别输入训练好的说话人识别神经网络模型;声音能量频谱信息经过该说话人识别神经网络,便可输出该音频所代表的说话人的声纹特征向量。这部分的实现可以通过相关技术得到,也就是说,输入说话人识别神经网络的语音是远场语音,则得到说话人的远场声纹特征向量;输入说话人识别神经网络的语音是近场语音,则得到说话人的近场声纹特征向量。
然后,再将经过说话人识别神经网络后得到的该音频所代表的说话人的声纹特征向量输入降噪自动编码器,获得该音频所代表的说话人的近场声纹特征向量,也就是说,将远场声纹特征向量转变为对应的近场声纹特征向量。
其中,说话人识别神经网络模型是根据近场语音和远场语音、通过说话人身份标识(id)作为标注训练得到的,也就是说,将近场的声音能力频谱信息和远场的声音能力频谱信息输入该说话人识别神经网络后,可以分别获得说话人在远场的特征向量和近场的特征向量。训练好的说话人识别神经网络模型具有区分说话人特征的能力。
本申请使用降噪自动编码器,将需要识别的语音信息的声纹特征向量投影到与近场声纹特征尽可能相似的空间中,特别是对于需要识别的语音信息是远场语音信息的场景,实现了将需要识别的远场声纹特征向量转变为对应的近场声纹特征向量,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题。
步骤101:根据提取的声纹特征向量确定需要识别的语音信息的用户身份。
在一种示例性实例中,识别获得的语音信息的用户身份,包括:
将获得的声纹特征向量与注册时与用户身份对应的声纹信息进行匹配,确定获得的声纹特征向量对应的用户身份。
本申请使用根据近场语音和远场语音训练好的降噪自动编码器,将需要识别的语音信息的声纹特征向量,特别是远场的声纹特征向量,投影到了与近场声纹特征尽可能相似的空间,再利用降噪自动编码器输出的声纹特征向量实现后续对语音用户身份的识别,降低了由于说话人与设备之间的距离而带来的不能准确识别出远离设备的说话人身份的问题,提升了远场声纹识别的鲁棒性。
本申请还提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一项的语音识别方法。
本申请再提供一种语音识别的装置,包括存储器和处理器,其中,存储器上存储有可在处理器上运行的计算机程序;所述计算机程序被处理器执行时实现上述任一项的语音识别方法的步骤。
本申请还提供一种智能音箱,包括存储器和处理器,其中,存储器中存储有计算机程序;所述计算机程序被处理器执行时执行以下步骤:利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器根据近场语音和远场语音训练得到;根据提取的声纹特征向量识别获得的语音信息的用户身份。
在一种示例性实例中,所述计算机程序被处理器执行时还执行以下步骤:根据近场语音提取近场声纹特征向量,根据远场语音提取远场声纹特征向量;将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入,输入数学模型,训练出与数学模型对应的降噪自动编码器的参数。
图2为本申请语音识别装置的实施例的组成结构示意图,如图2所示,至少包括:处理模块、识别模块;其中,
处理模块,用于利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器根据近场语音和远场语音训练得到;
识别模块,用于根据提取的声纹特征向量确定需要识别的语音信息的用户身份。
在一种示例性实例中,本申请语音识别装置还包括:训练模块,用于根据近场语音提取近场声纹特征向量,根据远场语音提取远场声纹特征向量;将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型,训练出与数学模型对应的降噪自动编码器的参数。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (11)
1.一种语音识别方法,包括:
利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器是根据近场语音和远场语音训练得到的;
根据提取的声纹特征向量确定需要识别的语音信息的用户身份。
2.根据权利要求1所述的语音识别方法,所述方法还包括:
根据所述近场语音提取近场声纹特征向量,根据所述远场语音提取远场声纹特征向量;
将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型,训练出与数学模型对应的所述降噪自动编码器的参数。
3.根据权利要求1或2所述的语音识别方法,其中,所述提取需要识别的语音信息的声纹特征向量,包括:
将所述需要识别的语音信息的声音能量频谱信息,输入训练好的说话人识别神经网络模型,得到所述需要识别的语音信息所代表的说话人的声纹特征向量;
将所述说话人的声纹特征向量输入所述降噪自动编码器,获得所述需要识别的语音信息所代表的说话人的近场声纹特征向量。
4.根据权利要求3所述的语音识别方法,其中,所述需要识别的语音信息为远场语音信息;所述说话人的声纹特征向量为远场声纹特征向量;
所述降噪自动编码器将远场声纹特征向量投影为所述近场声纹特征向量。
5.根据权利要求2所述的语音识别方法,其中,所述数学模型包括深度神经网络模型。
6.一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1~权利要求5任一项所述的语音识别方法。
7.一种用于实现语音识别的装置,包括存储器和处理器,其中,存储器中存储有以下可被处理器执行的指令:用于执行权利要求1~权利要求5任一项所述的语音识别方法的步骤。
8.一种智能音箱,包括存储器和处理器,其中,存储器中存储有计算机程序;所述计算机程序被处理器执行时执行以下步骤:
利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器根据近场语音和远场语音训练得到;根据提取的声纹特征向量识别获得的语音信息的用户身份。
9.根据权利要求8所述的智能音箱,所述计算机程序被处理器执行时还执行以下步骤:根据所述近场语音提取近场声纹特征向量,根据所述远场语音提取远场声纹特征向量;将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入,输入数学模型,训练出与数学模型对应的所述降噪自动编码器的参数。
10.一种语音识别装置,包括:处理模块、识别模块;其中,
处理模块,用于利用降噪自动编码器提取需要识别的语音信息的声纹特征向量;其中,降噪自动编码器根据近场语音和远场语音训练得到;
识别模块,用于根据提取的声纹特征向量确定需要识别的语音信息的用户身份。
11.根据权利要求10所述的语音识别装置,还包括训练模块,用于:
根据所述近场语音提取近场声纹特征向量,根据所述远场语音提取远场声纹特征向量;将对应同一用户的近场声纹特征向量和远场声纹特征向量作为一组输入输入数学模型,训练出与数学模型对应的所述降噪自动编码器的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910265991.9A CN111785282A (zh) | 2019-04-03 | 2019-04-03 | 一种语音识别方法及装置和智能音箱 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910265991.9A CN111785282A (zh) | 2019-04-03 | 2019-04-03 | 一种语音识别方法及装置和智能音箱 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111785282A true CN111785282A (zh) | 2020-10-16 |
Family
ID=72755151
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910265991.9A Pending CN111785282A (zh) | 2019-04-03 | 2019-04-03 | 一种语音识别方法及装置和智能音箱 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785282A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220215832A1 (en) * | 2021-01-04 | 2022-07-07 | Kwai Inc. | Systems and methods for automatic speech recognition based on graphics processing units |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737485A (en) * | 1995-03-07 | 1998-04-07 | Rutgers The State University Of New Jersey | Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems |
US8484022B1 (en) * | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US20160358606A1 (en) * | 2015-06-06 | 2016-12-08 | Apple Inc. | Multi-Microphone Speech Recognition Systems and Related Techniques |
CN106328126A (zh) * | 2016-10-20 | 2017-01-11 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
US20170018270A1 (en) * | 2015-07-16 | 2017-01-19 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
US20170171380A1 (en) * | 2015-12-09 | 2017-06-15 | Whatsapp Inc. | Techniques to dynamically engage echo cancellation |
CN107680586A (zh) * | 2017-08-01 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 远场语音声学模型训练方法及系统 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
WO2018234619A2 (en) * | 2017-06-20 | 2018-12-27 | Nokia Technologies Oy | AUDIO SIGNAL PROCESSING |
CN109493847A (zh) * | 2018-12-14 | 2019-03-19 | 广州玛网络科技有限公司 | 声音识别系统以及声音识别装置 |
-
2019
- 2019-04-03 CN CN201910265991.9A patent/CN111785282A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5737485A (en) * | 1995-03-07 | 1998-04-07 | Rutgers The State University Of New Jersey | Method and apparatus including microphone arrays and neural networks for speech/speaker recognition systems |
US8484022B1 (en) * | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US20160358606A1 (en) * | 2015-06-06 | 2016-12-08 | Apple Inc. | Multi-Microphone Speech Recognition Systems and Related Techniques |
US20170018270A1 (en) * | 2015-07-16 | 2017-01-19 | Samsung Electronics Co., Ltd. | Speech recognition apparatus and method |
US20170171380A1 (en) * | 2015-12-09 | 2017-06-15 | Whatsapp Inc. | Techniques to dynamically engage echo cancellation |
CN106328126A (zh) * | 2016-10-20 | 2017-01-11 | 北京云知声信息技术有限公司 | 远场语音识别处理方法及装置 |
WO2018234619A2 (en) * | 2017-06-20 | 2018-12-27 | Nokia Technologies Oy | AUDIO SIGNAL PROCESSING |
CN107680586A (zh) * | 2017-08-01 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 远场语音声学模型训练方法及系统 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN109493847A (zh) * | 2018-12-14 | 2019-03-19 | 广州玛网络科技有限公司 | 声音识别系统以及声音识别装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220215832A1 (en) * | 2021-01-04 | 2022-07-07 | Kwai Inc. | Systems and methods for automatic speech recognition based on graphics processing units |
US11562734B2 (en) * | 2021-01-04 | 2023-01-24 | Kwai Inc. | Systems and methods for automatic speech recognition based on graphics processing units |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3479377B1 (en) | Speech recognition | |
JP7177167B2 (ja) | 混合音声の特定方法、装置及びコンピュータプログラム | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US20180061397A1 (en) | Speech recognition method and apparatus | |
US11862176B2 (en) | Reverberation compensation for far-field speaker recognition | |
CN112949708B (zh) | 情绪识别方法、装置、计算机设备和存储介质 | |
CN111583906B (zh) | 一种语音会话的角色识别方法、装置及终端 | |
US20170249957A1 (en) | Method and apparatus for identifying audio signal by removing noise | |
CN111310464A (zh) | 词向量获取模型生成方法、装置及词向量获取方法、装置 | |
WO2023001128A1 (zh) | 音频数据的处理方法、装置及设备 | |
CN111357051A (zh) | 语音情感识别方法、智能装置和计算机可读存储介质 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN114708857A (zh) | 语音识别模型训练方法、语音识别方法及相应装置 | |
US20220358934A1 (en) | Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium | |
CN111785282A (zh) | 一种语音识别方法及装置和智能音箱 | |
CN117976006A (zh) | 音频处理方法、装置、计算机设备和存储介质 | |
CN111462760B (zh) | 声纹识别系统、方法、装置及电子设备 | |
WO2023093029A1 (zh) | 唤醒词能量计算方法、系统、语音唤醒系统及存储介质 | |
CN116312570A (zh) | 一种基于声纹识别的语音降噪方法、装置、设备及介质 | |
CN117373468A (zh) | 远场语音增强处理方法、装置、计算机设备和存储介质 | |
CN114333840A (zh) | 语音鉴别方法及相关装置、电子设备和存储介质 | |
CN111755014A (zh) | 一种领域自适应的录音重放攻击检测方法及系统 | |
CN114049900B (zh) | 模型训练方法、身份识别方法、装置及电子设备 | |
CN111627425B (zh) | 一种语音识别方法及系统 | |
US11763805B2 (en) | Speaker recognition method and apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038773 Country of ref document: HK |