CN113223538A - 语音唤醒方法、装置、系统、设备和存储介质 - Google Patents
语音唤醒方法、装置、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN113223538A CN113223538A CN202110356740.9A CN202110356740A CN113223538A CN 113223538 A CN113223538 A CN 113223538A CN 202110356740 A CN202110356740 A CN 202110356740A CN 113223538 A CN113223538 A CN 113223538A
- Authority
- CN
- China
- Prior art keywords
- time
- voice data
- background
- original
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 67
- 230000008030 elimination Effects 0.000 claims abstract description 14
- 238000003379 elimination reaction Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000008569 process Effects 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/20—Pattern transformations or operations aimed at increasing system robustness, e.g. against channel noise or different working conditions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
- G10L17/24—Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephone Function (AREA)
Abstract
本公开公开了一种语音唤醒方法、装置、系统、设备和存储介质,涉及计算机技术领域,具体涉及语音识别、语音唤醒、深度学习等技术领域。语音唤醒方法包括:将第一背景语音数据与原始语音数据进行时间对齐处理,以得到对齐的第一背景语音数据,所述原始语音数据包括第二背景语音数据和唤醒语音数据,所述第二背景语音数据与所述对齐的第一背景语音数据相同;基于所述对齐的第一背景语音数据,对所述原始语音数据进行背景消除处理,以得到背景消除的原始语音数据,所述背景消除处理用于消除所述原始语音数据中的第二背景语音数据;基于所述背景消除的原始语音数据,执行语音唤醒操作。本公开可以提高语音唤醒的成功率。
Description
技术领域
本公开涉及计算机技术领域,具体涉及语音识别、语音唤醒、深度学习等技术领域,尤其涉及一种语音唤醒方法、装置、系统、设备和存储介质。
背景技术
语音唤醒的目的是将设备或应用(APP)从休眠状态激活至运行状态,能及时准确地执行唤醒操作至关重要。
地图导航是人们生活中必不可少的一部分,对于开车的人来说,通过语音导航来解放双手更是必须的功能。由于地图的使用场景复杂,经常需要在导航中唤醒地图应用来切换路线、查找路线等,由于例如导航背景音等的存在,导致地图应用很难被唤醒。
发明内容
本公开提供了一种语音唤醒方法、装置、系统、设备和存储介质。
根据本公开的一方面,提供了一种语音唤醒方法,包括:将第一背景语音数据与原始语音数据进行时间对齐处理,以得到对齐的第一背景语音数据,所述原始语音数据包括第二背景语音数据和唤醒语音数据,所述第二背景语音数据与所述对齐的第一背景语音数据相同;基于所述对齐的第一背景语音数据,对所述原始语音数据进行背景消除处理,以得到背景消除的原始语音数据,所述背景消除处理用于消除所述原始语音数据中的第二背景语音数据;基于所述背景消除的原始语音数据,执行语音唤醒操作。
根据本公开的另一方面,提供了一种语音唤醒装置,包括:对齐模块,用于将第一背景语音数据与原始语音数据进行时间对齐处理,以得到对齐的第一背景语音数据,所述原始语音数据包括第二背景语音数据和唤醒语音数据,所述第二背景语音数据与所述对齐的第一背景语音数据相同;消除模块,用于基于所述对齐的第一背景语音数据,对所述原始语音数据进行背景消除处理,以得到背景消除的原始语音数据,所述背景消除处理用于消除所述原始语音数据中的第二背景语音数据;唤醒模块,用于基于所述背景消除的原始语音数据,执行语音唤醒操作。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据上述任一方面的任一项所述的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述任一方面的任一项所述的方法。
根据本公开的技术方案,可以提高语音唤醒的成功率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是用来实现本公开实施例的语音唤醒方法中任一方法的电子设备的示意图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本公开第一实施例的示意图。该实施例提供一种语音唤醒方法,包括:
101、将第一背景语音数据与原始语音数据进行时间对齐处理,以得到对齐的第一背景语音数据,所述原始语音数据包括第二背景语音数据和唤醒语音数据,所述第二背景语音数据与所述对齐的第一背景语音数据相同。
102、基于所述对齐的第一背景语音数据,对所述原始语音数据进行背景消除处理,以得到背景消除的原始语音数据,所述背景消除处理用于消除所述原始语音数据中的第二背景语音数据。
103、基于所述背景消除的原始语音数据,执行语音唤醒操作。
本实施例的执行主体可以为客户端,客户端部署在用户设备上。用户设备的具体形式不作限定,比如,可以是智能家居终端、以及各种移动设备,移动设备比如包括:移动电话、平板计算机、手持式计算设备、PDA(个人数字助手)、便携式媒体播放器、使用头戴式受话器和耳机的设备(例如,蓝牙兼容设备)、手机平板(phablet)设备(即,组合智能电话/平板设备)、可穿戴式计算机等。
客户端的形式也不作限定,可以由APP(应用)、网页或者程序等提供。APP可以显式地安装在用户设备的界面上,或者,APP也可以是用户通过特定的硬件和/或软件按钮调出,本公开对此也不作限定。
背景语音数据是指可能对语音唤醒造成干扰的语音数据,在不同的场景下可以是不同的语音数据,比如,在地图应用中,背景语音数据可以为语音导航数据,或者,在音乐播放应用中,背景语音数据可以为播放的音乐,或者,对于将文本转换为语音进行播放的应用中,背景语音数据可以为播放的语音故事、播放的语音诗词等。
以地图应用的导航为例,背景语音数据是指语音导航数据,语音导航数据是指地图应用所播报的导航数据,比如,“前方200米右转”等。
原始语音数据是指麦克风阵列采集的语音数据,原始语音数据可以包括:语音导航数据,和/或,唤醒语音数据。唤醒语音数据也可以称为唤醒词,唤醒词比如为“小度小度”,若用户在说出“小度小度”时,地图应用也播放语音导航数据,则原始语音数据会包括语音导航数据和唤醒语音数据;若地图应用播放语音导航数据时,用户没有说出唤醒词,则此时原始语音数据包括语音导航数据;若用户说出唤醒词时,没有语音导航数据,则原始语音数据包括唤醒语音数据。
相关技术中,一般是直接基于原始语音数据执行唤醒操作,但是,在原始语音数据中除了包括唤醒语音数据之外,还包括语音导航数据时,由于语音导航数据的存在,会影响唤醒语音数据的识别,导致语音唤醒失败。
本公开实施例中,可以对背景语音数据进行存储,为了区分,存储的背景语音数据可以称为第一背景语音数据。麦克风阵列采集的原始语音数据中包括的背景语音数据可以称为第二背景语音数据。如图2所示,假设背景语音数据用正弦信号表示,则第一背景语音数据201与第二背景语音数据202中包括相同的语音内容,两者之间存在一定的时延差。
背景消除处理可以具体为声学回声消除(Acoustic Echo Cancellation,AEC)。假设背景语音数据用A表示,唤醒语音数据用B表示,那么原始语音数据表示为A+B,为了方便理解,AEC可以简单理解为:用原始语音数据(A+B)减去存储的背景语音数据A,从而经过AEC处理后,可以得到唤醒语音数据B。需要说明的是,上述对AEC的说明是为了方便理解,具体实现可以参见相关技术中的AEC处理过程。另外,上述的背景语音数据A是指第二背景语音数据,也就是对齐的第一背景语音数据。
对原始语音数据进行AEC处理后,由于AEC处理后的语音数据基本只包括了唤醒语音数据,因此,可以基于处理后的语音数据,执行语音唤醒操作,以提高唤醒成功率。
本实施例中,通过对原始语音数据进行背景消除处理,可以保证处理后的原始语音数据中基本只包括唤醒语音数据,从而基于处理后的原始语音数据执行语音包唤醒操作,可以提高语音唤醒成功率。
图3是根据本公开第三实施例的示意图。该实施例提供一种语音唤醒方法,并结合图4所示的系统结构图,该方法包括:
301、处理模块存储第一背景语音数据。
比如,对于地图应用,语音播报数据可以通过用户使用的移动设备的扬声器播放给用户,并且,处理模块还将该语音播报数据存储到缓存中。
处理模块可以为对应地图应用的本地模块,也可以称为本地处理模块。
302、处理模块获取原始语音数据。
比如,在车载环境下,用户使用的移动设备的麦克风阵列可以采集车载环境下的声音,作为原始语音数据,处理模块从麦克风阵列处获取原始语音数据。
303、处理模块确定时间点,所述时间点包括:第一时间、第二时间和第三时间,所述第一时间为所述第一背景语音数据的起始时间,所述第二时间为所述原始语音数据的结束时间,所述第三时间为所述原始语音数据的起始时间。之后,可以执行304-306中的任一项。
304、若所述第二时间大于所述第一时间,且所述第三时间小于或等于所述第一时间,则处理模块截取第一背景语音数据的第一部分,将所述第一部分作为对齐的第一背景语音数据,所述第一部分为所述第一时间与所述第二时间之间的部分。之后执行307。
305、若所述第二时间大于所述第一时间,且所述第三时间大于所述第一时间,则处理模块截取第一背景语音数据的第二部分,将所述第二部分作为对齐的第一背景语音数据,所述第二部分为所述第三时间与所述第二时间之间的部分。之后执行307。
进一步地,在截取第二部分时,可以是先删除第一时间与第三时间之间的部分,再截取上述的第二部分。由于第一时间与第三时间之间的部分不需要进行AEC处理,因此可以进行删除。
本实施例中,通过比对第一时间、第二时间和第三时间,可以选取第一背景语音数据的合适部分作为对齐的第一背景语音数据,提高时间对齐处理的准确度。
306、若所述第二时间小于所述第一时间,则处理模块将所述原始语音数据发送至唤醒引擎。之后执行310。
本实施例中,由于第二时间小于第一时间时,原始语音数据中不包括背景语音数据,因此,可以直接基于原始语音数据执行语音唤醒操作,而不需要进行AEC处理,避免资源浪费,提高处理效率。
唤醒引擎可以位于移动终端本地或者位于云端。
307、处理模块将原始语音数据和对齐的第一背景语音数据,发送至AEC模块。
由于在第二时间大于第一时间时,原始语音数据中会包括背景语音数据,因此,可以是在第二时间大于第一时间时,将第一背景语音数据与原始语音数据进行对齐处理,进而再进行AEC处理。而在第二时间小于第一时间时,原始语音数据中不包括背景语音数据,因此,此时可以直接用原始语音数据进行语音唤醒。
本实施例中,通过在第二时间大于第一时间时,将第一背景语音数据与原始语音数据进行时间对齐处理,由于此时原始语音数据中包括背景语音数据,可以提高针对性,在需要时间对齐处理时才进行时间对齐处理,避免资源浪费。
进一步地,原始语音数据可以分为至少一个语音包,上述的第二时间和第三时间可以分别为首包的结束时间和起始时间,首包是指在时间上最前面的语音包。如图5所示,首包表示为第一包的原始语音数据,则可以比对第一包的原始语音数据的起始时间(mic_start,m_s)和结束时间(mic_end,m_e)以及语音播报数据的起始时间(play_start),采用偏移值(offset)实现对齐。图5中示出了三种不同的语音播报数据的起始时间,分别用play_start1(p_s1)、play_start2(p_s2)、play_start3(p_s3)表示。
AEC模块可以位于移动终端本地或者位于云端。
本实施例中,通过基于原始语音数据的首包的结束时间和起始时间进行时间对齐处理,可以在首包时间对齐后,首包之后的其他语音包自动进行时间对齐。
308、AEC模块基于对齐的第一背景语音数据,对原始语音数据进行AEC处理,以得到AEC处理后的原始语音数据。
AEC模块的处理流程可以参见相关技术,比如,如上实施例记载的用原始语音数据(A+B)-对齐的第一背景语音数据A,可以得到基本包括唤醒语音数据B的处理后的原始语音数据。
本实施例中,通过对原始语音数据进行AEC处理,可以简便有效地消除原始语音数据中的背景语音数据。
309、处理模块接收AEC模块发送的AEC处理后的原始语音数据,并将AEC处理后的原始语音数据发送至唤醒引擎。
310、唤醒引擎基于接收的原始语音数据或者AEC处理后的原始语音数据,执行语音唤醒操作。
唤醒引擎执行语音唤醒操作的流程可以采用相关技术实现,比如采用唤醒模型识别接收的经过处理或未经过处理的原始语音数据中是否包括唤醒词,并在包括唤醒词时,激活地图应用的语音识别步骤,比如,用户采用唤醒词“小度小度”唤醒地图应用后,可以用语音控制地图应用切换路线、切换目的地等操作。
图6是根据本公开第六实施例的示意图,本实施例提供一种语音唤醒装置。如图6所示,语音唤醒装置600包括对齐模块601、消除模块602和唤醒模块603。对齐模块601用于将第一背景语音数据与原始语音数据进行时间对齐处理,以得到对齐的第一背景语音数据,所述原始语音数据包括第二背景语音数据和唤醒语音数据,所述第二背景语音数据与所述对齐的第一背景语音数据相同;消除模块602用于基于所述对齐的第一背景语音数据,对所述原始语音数据进行背景消除处理,以得到背景消除的原始语音数据,所述背景消除处理用于消除所述原始语音数据中的第二背景语音数据;唤醒模块603用于基于所述背景消除的原始语音数据,执行语音唤醒操作。
一些实施例中,所述对齐模块601具体用于:确定时间点,所述时间点包括:第一时间和第二时间,所述第一时间为所述第一背景语音数据的起始时间,所述第二时间为所述原始语音数据的结束时间;若所述第二时间大于所述第一时间,则将第一背景语音数据与原始语音数据进行时间对齐处理。
一些实施例中,所述时间点还包括:第三时间,所述第三时间为所述原始语音数据的起始时间,所述对齐模块601进一步具体用于:若所述第二时间大于所述第一时间,且所述第三时间小于或等于所述第一时间,则截取第一背景语音数据的第一部分,将所述第一部分作为对齐的第一背景语音数据,所述第一部分为所述第一时间与所述第二时间之间的部分;若所述第二时间大于所述第一时间,且所述第三时间大于所述第一时间,则截取第一背景语音数据的第二部分,将所述第二部分作为对齐的第一背景语音数据,所述第二部分为所述第三时间与所述第二时间之间的部分。
一些实施例中,所述原始语音数据分为至少一个语音包,所述第二时间和所述第三时间分别为所述至少一个语音中的首包的结束时间和起始时间。
一些实施例中,所述唤醒模块603还用于:若所述第二时间小于所述第一时间,则直接基于所述原始语音数据,执行语音唤醒操作。
一些实施例中,所述消除模块602具体用于:对所述原始语音数据进行AEC处理。
本公开实施例中,通过对原始语音数据进行背景消除处理,可以保证处理后的原始语音数据中基本只包括唤醒语音数据,从而基于处理后的原始语音数据执行语音包唤醒操作,可以提高语音唤醒成功率。通过在第二时间大于第一时间时,将第一背景语音数据与原始语音数据进行时间对齐处理,由于此时原始语音数据中包括背景语音数据,可以提高针对性,在需要时间对齐处理时才进行时间对齐处理,避免资源浪费。通过比对第一时间、第二时间和第三时间,可以选取第一背景语音数据的合适部分作为对齐的第一背景语音数据,提高时间对齐处理的准确度。通过基于原始语音数据的首包的结束时间和起始时间进行时间对齐处理,可以在首包时间对齐后,首包之后的其他语音包自动进行时间对齐。通过对原始语音数据进行AEC处理,可以简便有效地消除原始语音数据中的背景语音数据。
可以理解的是,本公开实施例中,不同实施例中的相同或相似内容可以相互参考。
可以理解的是,本公开实施例中的“第一”、“第二”等只是用于区分,不表示重要程度高低、时序先后等。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 602以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如语音唤醒方法。例如,在一些实施例中,语音唤醒方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到电子设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的语音唤醒方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音唤醒方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种语音唤醒方法,包括:
将第一背景语音数据与原始语音数据进行时间对齐处理,以得到对齐的第一背景语音数据,所述原始语音数据包括第二背景语音数据和唤醒语音数据,所述第二背景语音数据与所述对齐的第一背景语音数据相同;
基于所述对齐的第一背景语音数据,对所述原始语音数据进行背景消除处理,以得到背景消除的原始语音数据,所述背景消除处理用于消除所述原始语音数据中的第二背景语音数据;
基于所述背景消除的原始语音数据,执行语音唤醒操作。
2.根据权利要求1所述的方法,其中,所述将第一背景语音数据与原始语音数据进行时间对齐处理,包括:
确定时间点,所述时间点包括:第一时间和第二时间,所述第一时间为所述第一背景语音数据的起始时间,所述第二时间为所述原始语音数据的结束时间;
若所述第二时间大于所述第一时间,则将第一背景语音数据与原始语音数据进行时间对齐处理。
3.根据权利要求2所述的方法,其中,所述时间点还包括:第三时间,所述第三时间为所述原始语音数据的起始时间,所述将第一背景语音数据与原始语音数据进行时间对齐处理,包括:
若所述第二时间大于所述第一时间,且所述第三时间小于或等于所述第一时间,则截取第一背景语音数据的第一部分,将所述第一部分作为对齐的第一背景语音数据,所述第一部分为所述第一时间与所述第二时间之间的部分;
若所述第二时间大于所述第一时间,且所述第三时间大于所述第一时间,则截取第一背景语音数据的第二部分,将所述第二部分作为对齐的第一背景语音数据,所述第二部分为所述第三时间与所述第二时间之间的部分。
4.根据权利要求3所述的方法,其中,所述原始语音数据分为至少一个语音包,所述第二时间和所述第三时间分别为所述至少一个语音中的首包的结束时间和起始时间。
5.根据权利要求2所述的方法,其中,所述方法还包括:
若所述第二时间小于所述第一时间,则直接基于所述原始语音数据,执行语音唤醒操作。
6.根据权利要求1-5任一项所述的方法,其中,所述对所述原始语音数据进行背景消除处理,包括:
对所述原始语音数据进行声学回声消除AEC处理。
7.一种语音唤醒装置,包括:
对齐模块,用于将第一背景语音数据与原始语音数据进行时间对齐处理,以得到对齐的第一背景语音数据,所述原始语音数据包括第二背景语音数据和唤醒语音数据,所述第二背景语音数据与所述对齐的第一背景语音数据相同;
消除模块,用于基于所述对齐的第一背景语音数据,对所述原始语音数据进行背景消除处理,以得到背景消除的原始语音数据,所述背景消除处理用于消除所述原始语音数据中的第二背景语音数据;
唤醒模块,用于基于所述背景消除的原始语音数据,执行语音唤醒操作。
8.根据权利要求7所述的装置,其中,所述对齐模块具体用于:
确定时间点,所述时间点包括:第一时间和第二时间,所述第一时间为所述第一背景语音数据的起始时间,所述第二时间为所述原始语音数据的结束时间;
若所述第二时间大于所述第一时间,则将第一背景语音数据与原始语音数据进行时间对齐处理。
9.根据权利要求8所述的装置,其中,所述时间点还包括:第三时间,所述第三时间为所述原始语音数据的起始时间,所述对齐模块进一步具体用于:
若所述第二时间大于所述第一时间,且所述第三时间小于或等于所述第一时间,则截取第一背景语音数据的第一部分,将所述第一部分作为对齐的第一背景语音数据,所述第一部分为所述第一时间与所述第二时间之间的部分;
若所述第二时间大于所述第一时间,且所述第三时间大于所述第一时间,则截取第一背景语音数据的第二部分,将所述第二部分作为对齐的第一背景语音数据,所述第二部分为所述第三时间与所述第二时间之间的部分。
10.根据权利要求9所述的装置,其中,所述原始语音数据分为至少一个语音包,所述第二时间和所述第三时间分别为所述至少一个语音中的首包的结束时间和起始时间。
11.根据权利要求8所述的装置,其中,所述唤醒模块还用于:
若所述第二时间小于所述第一时间,则直接基于所述原始语音数据,执行语音唤醒操作。
12.根据权利要求7-11任一项所述的装置,其中,所述消除模块具体用于:
对所述原始语音数据进行声学回声消除AEC处理。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110356740.9A CN113223538B (zh) | 2021-04-01 | 2021-04-01 | 语音唤醒方法、装置、系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110356740.9A CN113223538B (zh) | 2021-04-01 | 2021-04-01 | 语音唤醒方法、装置、系统、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113223538A true CN113223538A (zh) | 2021-08-06 |
CN113223538B CN113223538B (zh) | 2022-05-03 |
Family
ID=77086337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110356740.9A Active CN113223538B (zh) | 2021-04-01 | 2021-04-01 | 语音唤醒方法、装置、系统、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113223538B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2394391A (en) * | 2002-10-17 | 2004-04-21 | Nec Technologies | A system for reducing the background noise on a telecommunication transmission |
CN101046960A (zh) * | 2006-03-27 | 2007-10-03 | 株式会社东芝 | 处理语音中的话音的装置和方法 |
CN102667928A (zh) * | 2009-12-25 | 2012-09-12 | 三菱电机株式会社 | 噪声消除装置以及噪声消除程序 |
US20130002797A1 (en) * | 2010-10-08 | 2013-01-03 | Optical Fusion Inc. | Audio Acoustic Echo Cancellation for Video Conferencing |
CN104219403A (zh) * | 2013-06-03 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 一种消除回声的方法及装置 |
US20160042747A1 (en) * | 2014-08-08 | 2016-02-11 | Fujitsu Limited | Voice switching device, voice switching method, and non-transitory computer-readable recording medium having stored therein a program for switching between voices |
CN106993102A (zh) * | 2017-06-01 | 2017-07-28 | 深圳天珑无线科技有限公司 | 智能对齐唤醒方法、移动终端、及计算机可读存储介质 |
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
CN109151635A (zh) * | 2018-08-15 | 2019-01-04 | 恒玄科技(上海)有限公司 | 实现主动降噪与耳外音拾取的自动切换系统及方法 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN110177317A (zh) * | 2019-05-17 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 回声消除方法、装置、计算机可读存储介质和计算机设备 |
CN111540370A (zh) * | 2020-04-21 | 2020-08-14 | 闻泰通讯股份有限公司 | 音频处理方法、装置、计算机设备及计算机可读存储介质 |
CN112037810A (zh) * | 2020-09-25 | 2020-12-04 | 杭州朗和科技有限公司 | 一种回音处理方法、装置、介质和计算设备 |
CN112311635A (zh) * | 2020-11-05 | 2021-02-02 | 深圳市奥谷奇技术有限公司 | 语音打断唤醒方法、装置及计算机可读存储介质 |
CN112489653A (zh) * | 2020-11-16 | 2021-03-12 | 北京小米松果电子有限公司 | 语音识别的方法、装置及存储介质 |
-
2021
- 2021-04-01 CN CN202110356740.9A patent/CN113223538B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2394391A (en) * | 2002-10-17 | 2004-04-21 | Nec Technologies | A system for reducing the background noise on a telecommunication transmission |
CN101046960A (zh) * | 2006-03-27 | 2007-10-03 | 株式会社东芝 | 处理语音中的话音的装置和方法 |
CN102667928A (zh) * | 2009-12-25 | 2012-09-12 | 三菱电机株式会社 | 噪声消除装置以及噪声消除程序 |
US20130002797A1 (en) * | 2010-10-08 | 2013-01-03 | Optical Fusion Inc. | Audio Acoustic Echo Cancellation for Video Conferencing |
CN104219403A (zh) * | 2013-06-03 | 2014-12-17 | 腾讯科技(深圳)有限公司 | 一种消除回声的方法及装置 |
US20160042747A1 (en) * | 2014-08-08 | 2016-02-11 | Fujitsu Limited | Voice switching device, voice switching method, and non-transitory computer-readable recording medium having stored therein a program for switching between voices |
US9881634B1 (en) * | 2016-12-01 | 2018-01-30 | Arm Limited | Multi-microphone speech processing system |
CN106993102A (zh) * | 2017-06-01 | 2017-07-28 | 深圳天珑无线科技有限公司 | 智能对齐唤醒方法、移动终端、及计算机可读存储介质 |
CN109151635A (zh) * | 2018-08-15 | 2019-01-04 | 恒玄科技(上海)有限公司 | 实现主动降噪与耳外音拾取的自动切换系统及方法 |
CN109697984A (zh) * | 2018-12-28 | 2019-04-30 | 北京声智科技有限公司 | 一种降低智能设备自唤醒的方法 |
CN110177317A (zh) * | 2019-05-17 | 2019-08-27 | 腾讯科技(深圳)有限公司 | 回声消除方法、装置、计算机可读存储介质和计算机设备 |
CN111540370A (zh) * | 2020-04-21 | 2020-08-14 | 闻泰通讯股份有限公司 | 音频处理方法、装置、计算机设备及计算机可读存储介质 |
CN112037810A (zh) * | 2020-09-25 | 2020-12-04 | 杭州朗和科技有限公司 | 一种回音处理方法、装置、介质和计算设备 |
CN112311635A (zh) * | 2020-11-05 | 2021-02-02 | 深圳市奥谷奇技术有限公司 | 语音打断唤醒方法、装置及计算机可读存储介质 |
CN112489653A (zh) * | 2020-11-16 | 2021-03-12 | 北京小米松果电子有限公司 | 语音识别的方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113223538B (zh) | 2022-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107808670B (zh) | 语音数据处理方法、装置、设备及存储介质 | |
US11037560B2 (en) | Method, apparatus and storage medium for wake up processing of application | |
US9311932B2 (en) | Adaptive pause detection in speech recognition | |
CN111192591A (zh) | 智能设备的唤醒方法、装置、智能音箱及存储介质 | |
CN103971681A (zh) | 一种语音识别方法及系统 | |
CN112382285A (zh) | 语音控制方法、装置、电子设备和存储介质 | |
CN103514882A (zh) | 一种语音识别方法及系统 | |
JP7371075B2 (ja) | 音声データの処理方法、装置、機器及び記憶媒体 | |
CN111402877A (zh) | 基于车载多音区的降噪方法、装置、设备和介质 | |
CN112071323B (zh) | 误唤醒样本数据的获取方法、装置和电子设备 | |
CN103873883A (zh) | 一种视频播放的方法、装置及终端设备 | |
CN113157240A (zh) | 语音处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113053368A (zh) | 语音增强方法、电子设备和存储介质 | |
WO2019000881A1 (zh) | 导航方法、装置、设备及计算机可读存储介质 | |
CN114244821A (zh) | 数据处理方法、装置、设备、电子设备和存储介质 | |
CN113223538B (zh) | 语音唤醒方法、装置、系统、设备和存储介质 | |
CN112527235A (zh) | 语音播放方法、装置、设备以及存储介质 | |
CN111883145A (zh) | 唤醒识别处理方法和装置 | |
CN112509567B (zh) | 语音数据处理的方法、装置、设备、存储介质及程序产品 | |
EP4254213A1 (en) | Speech chip implementation method, speech chip, and related device | |
CN113129904A (zh) | 声纹判定方法、装置、系统、设备和存储介质 | |
CN113808585A (zh) | 耳机唤醒方法、装置、设备以及存储介质 | |
WO2021253235A1 (zh) | 语音活动检测方法和装置 | |
CN113709506A (zh) | 基于云手机的多媒体播放方法、装置、介质及程序产品 | |
CN112233681A (zh) | 一种误唤醒语料确定方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |