CN113936678A - 目标语音的检测方法及装置、设备、存储介质 - Google Patents
目标语音的检测方法及装置、设备、存储介质 Download PDFInfo
- Publication number
- CN113936678A CN113936678A CN202010607494.5A CN202010607494A CN113936678A CN 113936678 A CN113936678 A CN 113936678A CN 202010607494 A CN202010607494 A CN 202010607494A CN 113936678 A CN113936678 A CN 113936678A
- Authority
- CN
- China
- Prior art keywords
- audio data
- voice
- original audio
- target
- target voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 179
- 238000000034 method Methods 0.000 claims abstract description 96
- 230000003993 interaction Effects 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000002592 echocardiography Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Telephone Function (AREA)
Abstract
本说明书一个或多个实施例提供一种目标语音的检测方法及装置、设备、存储介质。其中,该检测方法可以包括:当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;检测所述增强音频数据中是否包含所述目标语音。
Description
技术领域
本说明书一个或多个实施例涉及语音识别技术领域,尤其涉及一种目标语音的检测方法及装置、设备、存储介质。
背景技术
在相关技术中,用户可通过语音的方式与智能设备进行交互,从而指示智能设备执行相应的操作,上述通过语音实现的人机交互方式,可简化用户操作,并且交互效率高,有助于提升用户体验。
然而,在人机语音交互场景中,除目标用户的语音外,通常还存在设备回声、非目标用户的语音、外界噪声干扰、房间混响等多种不利声学因素,而这些不利声学因素会导致智能设备接收到带回声、带噪、低信噪比的语音信号,进而影响人机交互的过程。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种目标语音的检测方法及装置、设备、存储介质。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种目标语音的检测方法,包括:
当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第二方面,提出了一种目标语音的检测方法,包括:
音频模块向检测模块输出原始音频数据;
所述音频模块接收所述检测模块在检测出所述原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息;
所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
所述音频模块向所述检测模块输出所述增强音频数据,以由所述检测模块检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第三方面,提出了一种目标语音的检测方法,包括:
检测模块在检测出来自音频模块的原始音频数据中包含目标语音的情况下,向所述音频模块发送所述目标语音的描述信息,以由所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息;
所述检测模块获取所述音频模块基于所述噪声信息对所述原始音频数据进行语音增强处理得到的增强音频数据;
所述检测模块检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第四方面,提出了一种智能语音设备的启动方法,应用于智能语音设备;所述方法包括:
当检测出获取到的原始音频数据中包含唤醒关键词时,根据所述唤醒关键词确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
当检测到所述增强音频数据中包含所述唤醒关键词时,启动所述智能语音设备。
根据本说明书一个或多个实施例的第五方面,提出了一种智能语音设备的交互方法,应用于智能语音设备;所述方法包括:
当检测出获取到的原始音频数据中包含语音指令时,根据所述语音指令确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
当检测到所述增强音频数据中包含所述语音指令时,识别所述语音指令的语义,并执行所述语义指示的操作。
根据本说明书一个或多个实施例的第六方面,提出了一种目标语音的检测方法,应用于云平台;所述方法包括:
当检测出智能语音设备上传的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
向所述智能语音设备返回所述增强音频数据,以由所述智能语音设备检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第七方面,提出了一种目标语音的检测方法,应用于智能语音设备;所述方法包括:
向云平台上传原始音频数据,以由所述云平台在检测出所述原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
接收所述云平台返回的所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第八方面,提出了一种目标语音的检测装置,包括:
确定单元,当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测单元,检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第九方面,提出了一种目标语音的检测装置,包括:
第一输出单元,使音频模块向检测模块输出原始音频数据;
接收单元,使所述音频模块接收所述检测模块在检测出所述原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息;
处理单元,使所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
第二输出单元,使所述音频模块向所述检测模块输出所述增强音频数据,以由所述检测模块检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第十方面,提出了一种目标语音的检测装置,包括:
发送单元,使检测模块在检测出来自音频模块的原始音频数据中包含目标语音的情况下,向所述音频模块发送所述目标语音的描述信息,以由所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息;
获取单元,使所述检测模块获取所述音频模块基于所述噪声信息对所述原始音频数据进行语音增强处理得到的增强音频数据;
检测单元,使所述检测模块检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第十一方面,提出了一种智能语音设备的启动装置,应用于智能语音设备;所述装置包括:
确定单元,当检测出获取到的原始音频数据中包含唤醒关键词时,根据所述唤醒关键词确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
启动单元,当检测到所述增强音频数据中包含所述唤醒关键词时,启动所述智能语音设备。
根据本说明书一个或多个实施例的第十二方面,提出了一种智能语音设备的交互装置,应用于智能语音设备;所述装置包括:
确定单元,当检测出获取到的原始音频数据中包含语音指令时,根据所述语音指令确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
执行单元,当检测到所述增强音频数据中包含所述语音指令时,识别所述语音指令的语义,并执行所述语义指示的操作。
根据本说明书一个或多个实施例的第十三方面,提出了一种目标语音的检测装置,应用于云平台;所述装置包括:
确定单元,当检测出智能语音设备上传的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
输出单元,向所述智能语音设备返回所述增强音频数据,以由所述智能语音设备检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第十四方面,提出了一种目标语音的检测装置,应用于智能语音设备;所述装置包括:
上传单元,向云平台上传原始音频数据,以由所述云平台在检测出所述原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测单元,接收所述云平台返回的所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第十五方面,提出了一种终端设备,包括:
音频模块,接收所述检测模块在检测出来自所述音频模块的原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息,根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理得到增强音频数据;
所述检测模块,获取所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
根据本说明书一个或多个实施例的第十六方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述实施例中任一所述的方法。
根据本说明书一个或多个实施例的第十七方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述实施例中任一所述方法的步骤。
由以上实施例可见,本说明书的检测方案包括两次检测过程,当初步检测到原始音频数据中包含目标语音时,可根据检测到的目标语音确定出原始音频数据的噪声信息。需要注意的是,初步检测的结果不一定正确,即检测到的原始音频数据中包含的语音不一定为目标语音,但是利用初步检测到的语音确定出的噪声信息仍然是正确的,比如在检测到的语音之前或者之后的语音为噪声段。因此,可利用噪声信息对原始音频数据进行语音增强处理得到增强音频数据,使得经处理后的增强音频数据相比于原始音频数据,语音信噪比更高。那么,通过在增强音频数据中再次检测是否包含目标语音,可进一步校验第一次检测是否为误检,从而提高针对目标语音的检测准确率,有效避免误检的情况。
附图说明
图1是一示例性实施例提供的一种人机语音交互场景的示意图。
图2是一示例性实施例提供的一种目标语音的检测方法的流程图。
图3是一示例性实施例提供的一种终端设备的示意图。
图4是一示例性实施例提供的基于音频模块侧的目标语音的检测方法的流程图。
图5是一示例性实施例提供的基于检测模块侧的目标语音的检测方法的流程图。
图6是一示例性实施例提供的一种智能语音设备的启动方法的流程图。
图7是一示例性实施例提供的一种智能语音设备的交互方法的流程图。
图8是一示例性实施例提供的一种系统架构示意图。
图9是一示例性实施例提供的基于云平台侧的一种目标语音的检测方法的流程图。
图10是一示例性实施例提供的一种基于智能语音设备侧的目标语音的检测方法的流程图。
图11是一示例性实施例提供的一种目标语音的检测方法的交互图。
图12是一示例性实施例提供的一种设备的结构示意图。
图13是一示例性实施例提供的一种目标语音的检测装置的框图。
图14-17是一示例性实施例提供的另一种目标语音的检测装置的框图。
图18是一示例性实施例提供的另一种设备的结构示意图。
图19是一示例性实施例提供的一种智能语音设备的启动装置的框图。
图20是一示例性实施例提供的另一种设备的结构示意图。
图21是一示例性实施例提供的一种智能语音设备的交互装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
请参见图1,图1是一示例性实施例提供的一种人机语音交互场景的示意图。如图1所示,以家居声学环境为例对人机交互中语音传播的过程进行说明。目标用户10可向语音交互设备20发起语音交互,比如唤醒语音交互设备20,而语音交互设备20在被唤醒后,可接收目标用户10下发的语音指令,进而执行该语音指令指示的操作。需要说明的是,人机语音交互的前提是语音交互设备20必须能够清楚检测到目标语音。然而,除了目标用户的语音之外,场景中通常还存在设备回声、非目标用户的语音、外界噪声干扰、房间混响等多种不利声学因素。例如,语音交互设备20可采集到目标用户10的直达声和反射声、声学回波、电脑30和手机40的直达声和反射声,以及非目标用户50的直达声和反射声。因此,语音交互设备20采集到的音频数据是带回声、带噪、低信噪比的语音信号,而这样的信号不利于语音检测和后续语音识别的处理,从而导致无法进行有效的人机语音交互。
本说明书旨在对语音交互设备采集到的待检测音频数据进行语音增强,对设备回声、非目标语音、环境噪声等干扰信号进行抑制,提高目标语音的信噪比,从而提高针对目标语音的检测准确率,有效避免误检的情况。
请参见图2,图2是一示例性实施例提供的一种目标语音的检测方法的流程图。如图2所示,该方法可应用于终端设备(比如智能音箱、智能电视、智能手机等支持语音交互的设备),可以包括以下步骤:
步骤202,当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息。
在一实施例中,由终端设备采集待检测音频数据;比如,终端设备可以自身的麦克风阵列采集到的音频信号和/或扬声器播放的参考信号(可通过CPU直接获取当前播放的参考信号)为输入,作为采集到的待检测音频信号。而采集到的待检测音频数据往往带有大量的干扰信号,因此可先对该待检测音频数据进行语音增强处理以得到原始音频数据。比如,抑制、降低噪声干扰,对混合的语音进行分离等,以对待检测音频数据进行初步的语音增强处理,得到原始音频数据。通过上述初步的语音增强处理,可提高语音信噪比,有利于后续检测原始音频数据中是否包含目标语音。
在一实施例中,为了提高对目标语音的误检测率,在获取到原始音频数据后,先对原始音频数据进行初步检测,检测原始音频数据中是否包含目标语音。当检测出原始音频数据中包含目标语音时,根据检测出的目标语音确定原始音频数据的噪声信息,从而利用噪声信息对原始音频数据进行语音增强处理以提高原始音频数据的信噪比,进而再利用处理得到的增强音频数据进行二次检测,进一步确认增强音频数据中是否包含目标语音。由上述对原始音频数据的处理过程可知,当检测出增强音频数据中包含目标语音时,说明原始音频数据中也包含目标语音。同时,经处理后的增强音频数据相比于原始音频数据,语音信噪比更高,那么通过检测增强音频数据中是否包含目标语音,可提高检测目标语音的准确率,也即提高对目标语音的误检测率。
在根据目标语音确定原始音频数据的噪声信息的过程中,由于已初步检测得出原始音频数据中包含目标语音(可能存在误检测,比如检测到的并非目标语音,而是其他语音),那么原始音频数据中区别于目标语音的其他音频子数据便可认为是外界的干扰噪声,因此可利用这些干扰噪声来得到对应于整段原始音频数据的噪声信息,进而利用噪声信息进行语音增强处理以提高信噪比。其中,区别于目标语音的其他音频子数据包括:原始音频数据中在时间顺序上位于目标语音之前的第一音频子数据,以及原始音频数据中在时间顺序上位于目标语音之后的第二音频子数据。也即,可根据第一音频子数据和/或第二音频子数据来确定原始音频数据的噪声信息。
当然,选取音频子数据来确定噪声信息的方式,可根据实际的语音交互场景来灵活设定。下面结合举例对语音交互场景进行说明。
1、先唤醒,再下发语音指令
用户通过发起语音形式的唤醒关键词来唤醒终端设备,在终端设备被唤醒后,终端设备回复输入语音指令的提示语音以告知用户设备已被唤醒,请输入语音指令,然后用户再发起语音指令使得终端设备识别语音指令以执行相应的操作。比如,用户说出“你好”来唤醒终端设备,终端设备在被唤醒后回复“我在”,然后用户再说出语音指令“帮我订今晚八点从北京飞往上海的机票”,从而指示终端设备执行订机票的操作。可见,在该应用场景下,用户发起的一段目标语音中仅包含唤醒关键词或者语音指令,也即终端设备获取到的原始音频数据中仅包含唤醒关键词或者语音指令,即原始音频数据中仅包含一种类型的语音。因此,原始音频数据中除目标语音之外的其他音频子数据均可认为是干扰噪声,也即第一音频子数据和第二音频子数据均可用于确定噪声信息。
2、无需唤醒,直接下发语音指令
终端设备由用户手动唤醒或者默认处于唤醒状态(即时刻检测用户发起的语音指令),那么用户无需通过语音形式的唤醒关键词来唤醒终端设备。例如,用户可通过触发终端设备的物理按键、对终端执行指定的动作(以智能手表为例,用户可通过抬腕这一动作来唤醒智能手表进行语音交互)等方式来唤醒终端设备,然后直接说出语音指令“帮我订今晚八点从北京飞往上海的机票”,从而指示终端设备执行订机票的操作。可见,在该应用场景下,用户发起的一段目标语音中仅包含语音指令,也即终端设备获取到的原始音频数据中仅包含语音指令。因此,原始音频数据中除目标语音之外的其他音频子数据均可认为是干扰噪声,也即第一音频子数据和第二音频子数据均可用于确定噪声信息。
3、同时唤醒并下发语音指令
用户在与终端设备进行语音交互时,可在一段话中同时说出唤醒关键词和语音指令,终端设备先检测唤醒关键词,在检测到唤醒关键词后再执行语音指令。例如,用户可直接发出目标语音“你好,帮我订今晚八点从北京飞往上海的机票”,从而指示终端设备执行订机票的操作。可见,在该应用场景下,原始音频数据中同时包含唤醒关键词和语音指令,并且唤醒关键词位于语音指令之前。那么,可认为原始音频数据中在唤醒关键词之前的第一音频子数据是干扰噪声,而由于在唤醒关键词之后的第二音频子数据包含语音指令,后续需要识别语音指令以进行响应,则不属于干扰噪声。因此,仅选取第一音频子数据来确定噪声信息。
步骤204,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据。
在一实施例中,在得到原始音频的噪声信息后,可进一步基于噪声信息对原始音频数据进行针对化的语音增强处理,从而抑制噪声,提高目标语音的信噪比。
步骤206,检测所述增强音频数据中是否包含所述目标语音。
在一实施例中,本说明书的检测方案包括两次检测操作,可针对这两次检测操作分别设定与目标语音对应的第一触发阈值和第二触发阈值,第二触发阈值大于第一触发阈值。具体而言,在第一次初步检测的过程中,基于第一触发阈值来检测原始音频数据中是否包含目标语音;在第二次检测的过程中,基于第二触发阈值检测增强音频数据中是否包含目标语音。其中,触发阈值可根据实际采用的检测算法来灵活设定。
比如,检测算法用于输出原始音频数据(或增强音频数据)中包含的语音和预先设定的语音的相似度,当输出的相似度超过相似度阈值(即触发阈值)时,判定原始音频数据(或增强音频数据)中包含目标语音。以唤醒关键词为例,当原始音频数据(或增强音频数据)中包含的语音和预先设定的唤醒关键词的相似度超过相似度阈值时,判定原始音频数据(或增强音频数据)中包含唤醒关键词。以语音指令为例,当原始音频数据(或增强音频数据)中包含的语音和预先设定的指令集中指令关键词的相似度超过相似度阈值时,判定原始音频数据(或增强音频数据)中包含语音指令。
又如,检测算法用于输出原始音频数据(或增强音频数据)中包含目标语音的概率,当输出的概率超过概率阈值(即触发阈值)时,判定原始音频数据(或增强音频数据)中包含目标语音。当然,本说明书一个或多个实施例并不对检测算法进行限制。
可见,第一次检测与第二次检测的检测对象均为目标语音,但两次检测的触发阈值不同。第一次检测的第一触发阈值较低,更容易触发,但也更容易误检测;而第二次检测的第二触发阈值较高,相对于第一次检测更难触发,但也更不容易误触发。利用触发阈值较低的第一次检测来触发确定噪声信息的操作,可使得确定噪声信息的操作更加频繁,从而可利用更多的噪声信息来对原始音频数据进行语音增强处理。并且,即便第一次检测为误检测,利用第一次检测到的语音确定出的噪声信息仍然是正确的,比如在检测到的语音之前或者之后的语音为噪声段。那么,在第二次检测时便可获取到信噪比更高的增强音频数据以进行检测,从而能够在保持较低误检测的同时,保证能够在噪声条件下准确检测出目标语音。
在一实施例中,在目标语音包括唤醒关键词的应用场景中,在检测出增强音频数据中包含唤醒关键词的情况下,可进一步获取语音指令,从而识别语音指令的语义,并执行该语义指示的操作,进而完成用户通过唤醒关键词唤醒终端设备,以及下发语音指令指示终端设备执行操作这一完整的过程。
对于获取语音指令的方式,针对上述应用场景1,终端设备可生成用于指示目标语音的输入方输入语音指令的提示消息,以获取输入方输入的语音指令。
针对上述应用场景3,由于原始音频数据中同时包含唤醒关键词和语音指令,终端设备可直接获取目标语音中包括的语音指令。
针对上述应用场景2,由于原始音频数据中仅包含语音指令,终端设备可在检测出增强音频数据中包含语音指令的情况下,基于增强音频数据识别该语音指令的语义,从而执行该语义指示的操作。
其中,在获取输入方输入的语音指令的过程中,同样可先采用上述步骤202-206的方式得到对应于输入方发起的音频数据的增强音频数据,进而检测该增强音频数据中是否包含语音指令,进一步的,在检测出该增强音频数据中包含语音指令的情况下,识别该增强音频数据中语音指令的语义。由于相比于输入方发起的音频数据,相应的增强音频数据的信噪比较高,那么基于增强音频数据来识别语音指令的语义,可提高识别的准确率和效率。
在一实施例中,可将终端设备与指定用户绑定,使得终端设备仅响应于指定用户发起的语音交互。比如,仅响应于指定用户发起的唤醒关键词,以及仅执行该指定用户下发的语音指令。因此,在步骤202之前,终端设备可在识别出原始音频数据来自指定用户的情况下,检测该原始音频数据中是否包含目标语音。
相应的,本说明书提供一种终端设备。请参见图3,图3是一示例性实施例提供的一种终端设备的示意图。如图3所示,终端设备可以包括音频模块和检测模块。其中,音频模块用于接收所述检测模块在检测出来自所述音频模块的原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息,根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理得到增强音频数据。检测模块用于获取所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
在一实施例中,音频模块可对采集到的待检测音频数据进行语音增强处理以得到所述原始音频数据。比如,待检测音频数据包括上述目标用户10、非目标用户50、电脑30等输出的音频数据;其中,目标用户10输出的音频数据为目标语音,而其他音频数据均为噪声数据。此时,待检测音频的信噪比较低,可先对待检测音频进行初步的语音增强处理得到原始音频数据。
检测模块可以包含一级检测子模块和二级检测子模块。一级检测子模块用于进行初步检测,检测音频模块输出的原始音频数据中是否包含目标语音,并在检测出原始音频数据中包含目标语音的情况下,向音频模块返回目标语音的描述信息。而音频模块可根据该描述信息确定原始音频数据的噪声信息,再基于噪声信息对原始音频数据进行语音增强处理得到增强音频数据后,向二级检测子模块输出该增强音频数据,以由二级检测子模块检测该增强音频数据中是否包含目标语音。当然,检测模块也可以无需划分为一级检测子模块和二级检测子模块,本说明书一个或多个实施例并不对此进行限制。
在一实施例中,目标语音的描述信息可用于标记出目标语音,以将目标语音与原始音频数据中的其他音频数据区分开。比如,描述信息可以是目标语音的起点信息和尾点信息。举例而言,原始音频数据的区间可采用时刻来进行标记,目标语音的起点信息为起点时刻,尾点信息为尾点时刻。
以目标用户10输出唤醒关键词为例,检测模块可检测出唤醒关键词在原始音频数据中的时间段,那么除该时间段以外的其他时间段的音频数据都是干扰噪声数据,也即上述非目标用户50、电脑30等输出的音频数据。那么,音频模块可根据时间段确定出这些干扰噪声数据,进而提取出噪声信息,再基于噪声信息对原始音频数据进行语音增强处理得到增强音频数据,从而过滤这些干扰噪声数据。
请参见图4,图4是一示例性实施例提供的基于音频模块侧的目标语音的检测方法的流程图。如图4所示,该方法可以包括以下步骤:
步骤402,音频模块向检测模块输出原始音频数据。
步骤404,所述音频模块接收所述检测模块在检测出所述原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息。
步骤406,所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据。
如前所述,所述音频模块根据所述描述信息确定所述原始音频数据中在时间顺序上位于所述目标语音之前的第一音频子数据,并根据所述第一音频子数据确定所述噪声信息;
和/或,根据所述描述信息确定所述原始音频数据中在时间顺序上位于所述目标语音之后的第二音频子数据,并根据所述第二音频子数据确定所述噪声信息。
步骤408,所述音频模块向所述检测模块输出所述增强音频数据,以由所述检测模块检测所述增强音频数据中是否包含所述目标语音。
如前所述,所述音频模块对采集到的待检测音频数据进行语音增强处理以得到所述原始音频数据。
请参见图5,图5是一示例性实施例提供的基于检测模块侧的目标语音的检测方法的流程图。如图5所示,该方法可以包括以下步骤:
步骤502,检测模块在检测出来自音频模块的原始音频数据中包含目标语音的情况下,向所述音频模块发送所述目标语音的描述信息,以由所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息。
步骤504,所述检测模块获取所述音频模块基于所述噪声信息对所述原始音频数据进行语音增强处理得到的增强音频数据。
步骤506,所述检测模块检测所述增强音频数据中是否包含所述目标语音。
如前所述,所述目标语音包括唤醒关键词,所述检测模块在检测出所述增强音频数据中包含所述唤醒关键词的情况下,生成唤醒事件,所述唤醒事件用于指示获取语音指令,以识别所述语音指令的语义并执行所述语义指示的操作。其中,所述语音指令包含于所述目标语音中;或者,所述语音指令由所述目标语音的输入方响应于提示消息而输入,所述提示消息在检测出所述增强音频数据中包含所述唤醒关键词后生成。
如前所述,所述目标语音包括语音指令;所述检测模块在检测出所述增强音频数据中包含所述语音指令的情况下,基于所述增强音频数据识别所述语音指令的语义,并执行所述语义指示的操作。
如前所述,所述检测模块基于与所述目标语音对应的第一触发阈值,检测所述原始音频数据中是否包含所述目标语音,以及所述检测模块基于与所述目标语音对应的第二触发阈值,检测所述增强音频数据中是否包含所述目标语音;其中,所述第二触发阈值大于所述第一触发阈值。
如前所述,所述检测模块在识别出所述原始音频数据来自指定用户的情况下,检测所述原始音频数据中是否包含目标语音。
需要说明的是,关于上述音频模块和检测模块执行的操作的详细过程,可参考上述图2所示实施例的相关部分,在此不再赘述。
承接于上述目标语音包括唤醒关键词的情况,本说明书提供一种智能语音设备的启动方案。请参见图6,图6是一示例性实施例提供的一种智能语音设备的启动方法的流程图。如图6所示,该方法应用于智能语音设备,可以包括以下步骤:
步骤602,当检测出获取到的原始音频数据中包含唤醒关键词时,根据所述唤醒关键词确定所述原始音频数据的噪声信息。
步骤604,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据。
步骤606,当检测到所述增强音频数据中包含所述唤醒关键词时,启动所述智能语音设备。
类似的,可根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述唤醒关键词之前,所述第二音频子数据在时间顺序上位于所述唤醒关键词之后。
类似的,可在启动所述智能语音设备后,获取针对所述智能语音设备的语音指令;识别所述语音指令的语义,并执行所述语义指示的操作。
类似的,可基于与所述唤醒关键词对应的第一触发阈值,检测所述原始音频数据中是否包含所述唤醒关键词。其中,在检测所述增强音频数据中是否包含所述唤醒关键词时,可基于与所述唤醒关键词对应的第二触发阈值,检测所述增强音频数据中是否包含所述唤醒关键词,所述第二触发阈值大于所述第一触发阈值。
承接于上述目标语音包括语音指令的情况,本说明书提供一种智能语音设备的交互方案。请参见图7,图7是一示例性实施例提供的一种智能语音设备的交互方法的流程图。如图7所示,该方法应用于智能语音设备,可以包括以下步骤:
步骤702,当检测出获取到的原始音频数据中包含语音指令时,根据所述语音指令确定所述原始音频数据的噪声信息。
步骤704,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据。
步骤706,当检测到所述增强音频数据中包含所述语音指令时,识别所述语音指令的语义,并执行所述语义指示的操作。
类似的,可根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述语音指令之前,所述第二音频子数据在时间顺序上位于所述语音指令之后。
类似的,可基于与所述语音指令对应的第一触发阈值,检测所述原始音频数据中是否包含所述语音指令。其中,在检测所述增强音频数据中是否包含所述语音指令时,可基于与所述语音指令对应的第二触发阈值,检测所述增强音频数据中是否包含所述语音指令,所述第二触发阈值大于所述第一触发阈值。
需要说明的是,关于上述启动和交互方案的详细过程,可参考上述图2所示实施例的相关部分,在此不再赘述。
相应的,本说明书还可将上述语音增强的方式作为云上服务向外输出。如图8所示,可通过云平台81向用户提供语音增强服务,由智能语音设备83通过网络82将原始音频数据上传至云平台,云平台81对原始音频数据进行语音增强处理后得到增强音频数据,再通过网络82将增强音频数据输出至智能语音设备83进行检测。
具体而言,请参见图9,图9是一示例性实施例提供的基于云平台侧的一种目标语音的检测方法的流程图。如图9所示,该方法应用于云平台,可以包括以下步骤:
步骤902,当检测出智能语音设备上传的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息。
步骤904,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据。
步骤906,向所述智能语音设备返回所述增强音频数据,以由所述智能语音设备检测所述增强音频数据中是否包含所述目标语音。
类似的,可根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述目标语音之前,所述第二音频子数据在时间顺序上位于所述目标语音之后。
类似的,可基于与所述目标语音对应的第一触发阈值,检测所述原始音频数据中是否包含所述目标语音;其中,所述智能语音设备检测所述增强音频数据中是否包含所述目标语音所采用的与所述目标语音对应的第二触发阈值大于所述第一触发阈值。
请参见图10,图10是一示例性实施例提供的一种基于智能语音设备侧的目标语音的检测方法的流程图。如图10所示,该方法应用于智能语音设备,可以包括以下步骤:
步骤1002,向云平台上传原始音频数据,以由所述云平台在检测出所述原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据。
步骤1004,接收所述云平台返回的所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
类似的,所述噪声信息由所述云平台根据所述原始音频数据中的第一音频子数据和/或第二音频子数据确定;其中,所述第一音频子数据在时间顺序上位于所述目标语音之前,所述第二音频子数据在时间顺序上位于所述目标语音之后。
类似的,可基于与所述目标语音对应的第二触发阈值,检测所述增强音频数据中是否包含所述目标语音;其中,所述第二触发阈值大于所述云平台检测所述原始音频数据中是否包含所述目标语音所采用的与所述目标语音对应的第一触发阈值。
其中,上述智能语音设备可包括智能音箱、智能电视、IOT(The Internet ofThings,物联网)设备、车载语音交互设备等任意可进行语音交互的电子设备;当然,本说明书并不对此进行限制。
由以上实施例可见,本说明书的检测方案包括两次检测过程,当初步检测到原始音频数据中包含目标语音时,可根据检测到的目标语音确定出原始音频数据的噪声信息。需要注意的是,初步检测的结果不一定正确,即检测到的原始音频数据中包含的语音不一定为目标语音,但是利用初步检测到的语音确定出的噪声信息仍然是正确的,比如在检测到的语音之前或者之后的语音为噪声段。因此,可利用噪声信息对原始音频数据进行语音增强处理得到增强音频数据,使得经处理后的增强音频数据相比于原始音频数据,语音信噪比更高。那么,通过在增强音频数据中再次检测是否包含目标语音,可进一步校验第一次检测是否为误检,从而提高针对目标语音的检测准确率,有效避免误检的情况。
为了便于理解,下面以检测唤醒关键词为例,对本说明书的技术方案进行详细说明。
请参见图11,图11是一示例性实施例提供的一种目标语音的检测方法的交互图。如图11所示,该交互过程可以包括以下步骤:
步骤1102,音频模块对待检测音频数据进行语音增强处理得到原始音频数据。
在一实施例中,将麦克风阵列采集到的音频信号和/或扬声器播放的参考信号(可通过CPU直接获取当前播放的参考信号)作为待检测音频数据。待检测音频数据往往带有大量的干扰信号,因此可先对该待检测音频数据进行语音增强处理以得到原始音频数据。比如,音频模块以待检测音频数据为输入,对待检测音频数据进行抑制、降低噪声干扰,对混合的语音进行分离等,从而对待检测音频数据进行初步的语音增强处理,得到原始音频数据。通过上述初步的语音增强处理,可提高语音信噪比,有利于后续检测原始音频数据中是否包含预先定义的唤醒关键词。
步骤1104,音频模块向检测模块输出原始音频数据。
步骤1106,检测模块检测原始音频数据中是否包含唤醒关键词。
在一实施例中,可采用用于对语音进行分类的分类器来检测唤醒关键词。当分类器检测到唤醒关键词时,可将从唤醒关键词起点到尾点之间的这一段语音作为目标语音,而由于唤醒关键词往往是用户在发起人机语音交互时首先说的词汇,所以唤醒关键词起点之前的一小段语音可以认为是外界噪声。那么,检测模块可在第一次针对唤醒关键词的检测触发之后,将唤醒关键词的起尾点信息反馈给音频模块。
步骤1108,在检测出原始音频数据中包含唤醒关键词的情况下,检测模块生成唤醒关键词的起尾点信息。
步骤1110,检测模块向音频模块返回起尾点信息。
步骤1112,音频模块根据起尾点信息选取噪声段。
在一实施例中,音频模块选取噪声段的方式可参考上述图1所示实施例中的相关部分,在此不再赘述。比如,音频模块可选取唤醒关键词起点之前的一段音频数据作为噪声段来确定噪声信息。而选取的噪声段长度可根据实际情况灵活设定,本说明书一个或多个实施例并不对此进行限制。
步骤1114,音频模块根据噪声段生成噪声信息。
在一实施例中,可采用MVDR(Minimum Variance Distortionless Response)波束形成方法来确定噪声信息。MVDR是一种基于最大信干噪比(SINR)准则的自适应波束形成算法,可以自适应的使阵列输出在期望方向上功率最小同时信干噪比最大。MVDR波束成形器的目标是最小化记录信号的方差,公式如下:
在公式(1)中,w为波束形成器(Beamformer),a为导向向量(Steering Vector),由麦克风阵列的结构算出,C为噪声协方差矩阵,由选取的噪声段算出。在噪声协方差矩阵C的计算公式(2)中,T为噪声段的帧数,t为噪声段所在的时间段,x(t)为噪声段中的各帧数据。从上述公式可知,波束形成器w可以根据噪声协方差矩阵C的变化而变化,因而MVDR算法可以自适应地使阵列输出在期望方向上的SINR最大,从而达到最佳效果。
当然,还可采用其他任意波束形成算法,例如PMWF(Parameterized Multi-channel Wiener Filter)等,本说明书一个或多个实施例并不对此进行限制。
步骤1116,音频模块基于噪声信息对原始音频数据进行语音增强处理。
承接于上述举例,在得到波束形成器w后,采用公式(3)来对原始音频数据进行语音增强处理:
y=wHx(t) (3)
其中,t为整个原始音频数据的时间段,x(t)为整个原始音频数据中的各帧数据。
步骤1118,音频模块向检测模块输出增强音频数据。
步骤1120,检测模块检测增强音频数据中是否包含唤醒关键词。
在一实施例中,第一次检测(步骤1106)与第二次检测(步骤1120)的检测对象均为唤醒关键词,但两次检测的触发阈值不同。第一次检测的第一触发阈值较低,更容易触发,但也更容易误触发;而第二次检测的第二触发阈值较高,相对于第一次检测更难触发,但也更不容易误触发。利用触发阈值较低的第一次检测来反馈噪声信息,可使得反馈噪声信息的操作更加频繁,从而可利用更多的噪声信息来对原始音频数据进行语音增强处理。并且,即便第一次检测为误触发,第一次检测到的噪声段也是正确的,比如在检测到的语音之前或者之后的语音为噪声段,那么利用第一次检测到的噪声段确定出的噪声信息仍然是正确的。那么,在第二次检测时便可获取到信噪比更高的增强音频数据以进行检测,从而能够在保持较低误唤醒的同时,提高在噪声条件下终端设备的唤醒率。
步骤1122,在检测增强音频数据中包含唤醒关键词的情况下,检测模块生成唤醒事件。
在一实施例中,检测模块在第二次检测触发(即检测到唤醒关键词)后生成唤醒事件,用于指示终端设备进一步获取语音指令,以识别语音指令的语义并执行该语义指示的操作。比如,识别语音指令的操作仍可由检测模块来执行,或者由终端设备的语音识别模块来执行。
与上述方法实施例相对应,本说明书还提供了一种目标语音的检测装置的实施例。
图12是一示例性实施例提供的一种设备的示意结构图。请参考图12,在硬件层面,该设备包括处理器1202、内部总线1204、网络接口1206、内存1208以及非易失性存储器1210,当然还可能包括其他业务所需要的硬件。处理器1202从非易失性存储器1210中读取对应的计算机程序到内存1208中然后运行,在逻辑层面上形成目标语音的检测装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图13,在一软件实施方式中,该目标语音的检测装置可以包括:
确定单元1302,当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
处理单元1304,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测单元1306,检测所述增强音频数据中是否包含所述目标语音。
可选的,所述确定单元1302具体用于:
根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述目标语音之前,所述第二音频子数据在时间顺序上位于所述目标语音之后。
可选的,所述目标语音包括唤醒关键词;所述装置还包括:
获取单元1308,在检测出所述增强音频数据中包含所述唤醒关键词的情况下,获取语音指令,识别所述语音指令的语义,并执行所述语义指示的操作。
可选的,所述获取单元1308具体用于:
生成用于指示所述目标语音的输入方输入语音指令的提示消息,以获取所述输入方输入的语音指令;或者,
获取所述目标语音中包括的语音指令。
可选的,所述目标语音包括语音指令;所述装置还包括:
识别单元1310,在检测出所述增强音频数据中包含所述语音指令的情况下,基于所述增强音频数据识别所述语音指令的语义,执行所述语义指示的操作。
可选的,所述确定单元1302还用于:基于与所述目标语音对应的第一触发阈值,检测所述原始音频数据中是否包含所述目标语音;
所述检测单元1306具体用于:基于与所述目标语音对应的第二触发阈值,检测所述增强音频数据中是否包含所述目标语音;其中,所述第二触发阈值大于所述第一触发阈值。
可选的,所述确定单元1302还用于:
在识别出所述原始音频数据来自指定用户的情况下,检测所述原始音频数据中是否包含目标语音。
可选的,所述确定单元1302还用于:
对采集到的待检测音频数据进行语音增强处理以得到所述原始音频数据。
请参考图14,在另一软件实施方式中,该目标语音的检测装置可以包括:
第一输出单元1402,使音频模块向检测模块输出原始音频数据;
接收单元1404,使所述音频模块接收所述检测模块在检测出所述原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息;
处理单元1406,使所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
第二输出单元1408,使所述音频模块向所述检测模块输出所述增强音频数据,以由所述检测模块检测所述增强音频数据中是否包含所述目标语音。
可选的,所述处理单元1406具体用于:
所述音频模块根据所述描述信息确定所述原始音频数据中在时间顺序上位于所述目标语音之前的第一音频子数据,并根据所述第一音频子数据确定所述噪声信息;
和/或,根据所述描述信息确定所述原始音频数据中在时间顺序上位于所述目标语音之后的第二音频子数据,并根据所述第二音频子数据确定所述噪声信息。
可选的,所述第一输出单元1402还用于:
所述音频模块对采集到的待检测音频数据进行语音增强处理以得到所述原始音频数据。
请参考图15,在另一软件实施方式中,该目标语音的检测装置可以包括:
发送单元1502,使检测模块在检测出来自音频模块的原始音频数据中包含目标语音的情况下,向所述音频模块发送所述目标语音的描述信息,以由所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息;
获取单元1504,使所述检测模块获取所述音频模块基于所述噪声信息对所述原始音频数据进行语音增强处理得到的增强音频数据;
检测单元1506,使所述检测模块检测所述增强音频数据中是否包含所述目标语音。
可选的,所述目标语音包括唤醒关键词;所述装置还包括:
生成单元1508,所述检测模块在检测出所述增强音频数据中包含所述唤醒关键词的情况下,生成唤醒事件,所述唤醒事件用于指示获取语音指令,以识别所述语音指令的语义并执行所述语义指示的操作。
可选的,所述语音指令包含于所述目标语音中;或者,所述语音指令由所述目标语音的输入方响应于提示消息而输入,所述提示消息在检测出所述增强音频数据中包含所述唤醒关键词后生成。
可选的,所述目标语音包括语音指令;所述装置还包括:
识别单元1510,所述检测模块在检测出所述增强音频数据中包含所述语音指令的情况下,基于所述增强音频数据识别所述语音指令的语义,执行所述语义指示的操作。
可选的,
所述发送单元1502还用于:所述检测模块基于与所述目标语音对应的第一触发阈值,检测所述原始音频数据中是否包含所述目标语音;
所述检测单元1506具体用于:基于与所述目标语音对应的第二触发阈值,检测所述增强音频数据中是否包含所述目标语音;其中,所述第二触发阈值大于所述第一触发阈值。
可选的,所述发送单元1502还用于:
所述检测模块在识别出所述原始音频数据来自指定用户的情况下,检测所述原始音频数据中是否包含目标语音。
请参考图16,在另一软件实施方式中,该目标语音的检测装置应用于云平台,可以包括:
确定单元1602,当检测出智能语音设备上传的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
处理单元1604,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
输出单元1606,向所述智能语音设备返回所述增强音频数据,以由所述智能语音设备检测所述增强音频数据中是否包含所述目标语音。
请参考图17,在另一软件实施方式中,该目标语音的检测装置应用于智能语音设备,可以包括:
上传单元1702,向云平台上传原始音频数据,以由所述云平台在检测出所述原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测单元1704,接收所述云平台返回的所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
图18是一示例性实施例提供的一种设备的示意结构图。请参考图18,在硬件层面,该设备包括处理器1802、内部总线1804、网络接口1806、内存1808以及非易失性存储器1810,当然还可能包括其他业务所需要的硬件。处理器1802从非易失性存储器1810中读取对应的计算机程序到内存1808中然后运行,在逻辑层面上形成智能语音设备的启动装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图19,在一软件实施方式中,该智能语音设备的启动装置可以包括:
确定单元1902,当检测出获取到的原始音频数据中包含唤醒关键词时,根据所述唤醒关键词确定所述原始音频数据的噪声信息;
处理单元1904,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
启动单元1906,当检测到所述增强音频数据中包含所述唤醒关键词时,启动所述智能语音设备。
图20是一示例性实施例提供的一种设备的示意结构图。请参考图20,在硬件层面,该设备包括处理器2002、内部总线2004、网络接口2006、内存2008以及非易失性存储器2010,当然还可能包括其他业务所需要的硬件。处理器2002从非易失性存储器2010中读取对应的计算机程序到内存2008中然后运行,在逻辑层面上形成智能语音设备的交互装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图21,在一软件实施方式中,该智能语音设备的交互装置可以包括:
确定单元2102,当检测出获取到的原始音频数据中包含语音指令时,根据所述语音指令确定所述原始音频数据的噪声信息;
处理单元2104,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
执行单元2106,当检测到所述增强音频数据中包含所述语音指令时,识别所述语音指令的语义,并执行所述语义指示的操作。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (40)
1.一种目标语音的检测方法,其特征在于,包括:
当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测所述增强音频数据中是否包含所述目标语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标语音确定所述原始音频数据的噪声信息,包括:
根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述目标语音之前,所述第二音频子数据在时间顺序上位于所述目标语音之后。
3.根据权利要求1所述的方法,其特征在于,所述目标语音包括唤醒关键词;所述方法还包括:
在检测出所述增强音频数据中包含所述唤醒关键词的情况下,获取语音指令;
识别所述语音指令的语义,并执行所述语义指示的操作。
4.根据权利要求3所述的方法,其特征在于,所述获取语音指令,包括:
生成用于指示所述目标语音的输入方输入语音指令的提示消息,以获取所述输入方输入的语音指令;或者,
获取所述目标语音中包括的语音指令。
5.根据权利要求1所述的方法,其特征在于,所述目标语音包括语音指令;所述方法还包括:
在检测出所述增强音频数据中包含所述语音指令的情况下,基于所述增强音频数据识别所述语音指令的语义;
执行所述语义指示的操作。
6.根据权利要求1所述的方法,其特征在于,
还包括:基于与所述目标语音对应的第一触发阈值,检测所述原始音频数据中是否包含所述目标语音;
所述检测所述增强音频数据中是否包含所述目标语音,包括:基于与所述目标语音对应的第二触发阈值,检测所述增强音频数据中是否包含所述目标语音;其中,所述第二触发阈值大于所述第一触发阈值。
7.根据权利要求1所述的方法,其特征在于,还包括:
在识别出所述原始音频数据来自指定用户的情况下,检测所述原始音频数据中是否包含目标语音。
8.根据权利要求1所述的方法,其特征在于,还包括:
对采集到的待检测音频数据进行语音增强处理以得到所述原始音频数据。
9.一种目标语音的检测方法,其特征在于,包括:
音频模块向检测模块输出原始音频数据;
所述音频模块接收所述检测模块在检测出所述原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息;
所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
所述音频模块向所述检测模块输出所述增强音频数据,以由所述检测模块检测所述增强音频数据中是否包含所述目标语音。
10.根据权利要求9所述的方法,其特征在于,所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息,包括:
所述音频模块根据所述描述信息确定所述原始音频数据中在时间顺序上位于所述目标语音之前的第一音频子数据,并根据所述第一音频子数据确定所述噪声信息;
和/或,根据所述描述信息确定所述原始音频数据中在时间顺序上位于所述目标语音之后的第二音频子数据,并根据所述第二音频子数据确定所述噪声信息。
11.根据权利要求9所述的方法,其特征在于,还包括:
所述音频模块对采集到的待检测音频数据进行语音增强处理以得到所述原始音频数据。
12.一种目标语音的检测方法,其特征在于,包括:
检测模块在检测出来自音频模块的原始音频数据中包含目标语音的情况下,向所述音频模块发送所述目标语音的描述信息,以由所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息;
所述检测模块获取所述音频模块基于所述噪声信息对所述原始音频数据进行语音增强处理得到的增强音频数据;
所述检测模块检测所述增强音频数据中是否包含所述目标语音。
13.根据权利要求12所述的方法,其特征在于,所述目标语音包括唤醒关键词;所述方法还包括:
所述检测模块在检测出所述增强音频数据中包含所述唤醒关键词的情况下,生成唤醒事件,所述唤醒事件用于指示获取语音指令,以识别所述语音指令的语义并执行所述语义指示的操作。
14.根据权利要求13所述的方法,其特征在于,所述语音指令包含于所述目标语音中;或者,所述语音指令由所述目标语音的输入方响应于提示消息而输入,所述提示消息在检测出所述增强音频数据中包含所述唤醒关键词后生成。
15.根据权利要求12所述的方法,其特征在于,所述目标语音包括语音指令;所述方法还包括:
所述检测模块在检测出所述增强音频数据中包含所述语音指令的情况下,基于所述增强音频数据识别所述语音指令的语义;
执行所述语义指示的操作。
16.根据权利要求12所述的方法,其特征在于,
还包括:所述检测模块基于与所述目标语音对应的第一触发阈值,检测所述原始音频数据中是否包含所述目标语音;
所述检测模块检测所述增强音频数据中是否包含所述目标语音,包括:基于与所述目标语音对应的第二触发阈值,检测所述增强音频数据中是否包含所述目标语音;其中,所述第二触发阈值大于所述第一触发阈值。
17.根据权利要求12所述的方法,其特征在于,还包括:
所述检测模块在识别出所述原始音频数据来自指定用户的情况下,检测所述原始音频数据中是否包含目标语音。
18.一种智能语音设备的启动方法,其特征在于,应用于智能语音设备;所述方法包括:
当检测出获取到的原始音频数据中包含唤醒关键词时,根据所述唤醒关键词确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
当检测到所述增强音频数据中包含所述唤醒关键词时,启动所述智能语音设备。
19.根据权利要求18所述的方法,其特征在于,所述根据所述唤醒关键词确定所述原始音频数据的噪声信息,包括:
根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述唤醒关键词之前,所述第二音频子数据在时间顺序上位于所述唤醒关键词之后。
20.根据权利要求19所述的方法,其特征在于,还包括:
在启动所述智能语音设备后,获取针对所述智能语音设备的语音指令;
识别所述语音指令的语义,并执行所述语义指示的操作。
21.根据权利要求18所述的方法,其特征在于,
还包括:基于与所述唤醒关键词对应的第一触发阈值,检测所述原始音频数据中是否包含所述唤醒关键词;
所述检测所述增强音频数据中是否包含所述唤醒关键词,包括:基于与所述唤醒关键词对应的第二触发阈值,检测所述增强音频数据中是否包含所述唤醒关键词;其中,所述第二触发阈值大于所述第一触发阈值。
22.一种智能语音设备的交互方法,其特征在于,应用于智能语音设备;所述方法包括:
当检测出获取到的原始音频数据中包含语音指令时,根据所述语音指令确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
当检测到所述增强音频数据中包含所述语音指令时,识别所述语音指令的语义,并执行所述语义指示的操作。
23.根据权利要求22所述的方法,其特征在于,所述根据所述语音指令确定所述原始音频数据的噪声信息,包括:
根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述语音指令之前,所述第二音频子数据在时间顺序上位于所述语音指令之后。
24.根据权利要求22所述的方法,其特征在于,
还包括:基于与所述语音指令对应的第一触发阈值,检测所述原始音频数据中是否包含所述语音指令;
所述检测所述增强音频数据中是否包含所述语音指令,包括:基于与所述语音指令对应的第二触发阈值,检测所述增强音频数据中是否包含所述语音指令;其中,所述第二触发阈值大于所述第一触发阈值。
25.一种目标语音的检测方法,其特征在于,应用于云平台;所述方法包括:
当检测出智能语音设备上传的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
向所述智能语音设备返回所述增强音频数据,以由所述智能语音设备检测所述增强音频数据中是否包含所述目标语音。
26.根据权利要求25所述的方法,其特征在于,所述根据所述目标语音确定所述原始音频数据的噪声信息,包括:
根据所述原始音频数据中的第一音频子数据和/或第二音频子数据,确定所述噪声信息;其中,所述第一音频子数据在时间顺序上位于所述目标语音之前,所述第二音频子数据在时间顺序上位于所述目标语音之后。
27.根据权利要求25所述的方法,其特征在于,还包括:
基于与所述目标语音对应的第一触发阈值,检测所述原始音频数据中是否包含所述目标语音;其中,所述智能语音设备检测所述增强音频数据中是否包含所述目标语音所采用的与所述目标语音对应的第二触发阈值大于所述第一触发阈值。
28.一种目标语音的检测方法,其特征在于,应用于智能语音设备;所述方法包括:
向云平台上传原始音频数据,以由所述云平台在检测出所述原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
接收所述云平台返回的所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
29.根据权利要求28所述的方法,其特征在于,所述噪声信息由所述云平台根据所述原始音频数据中的第一音频子数据和/或第二音频子数据确定;其中,所述第一音频子数据在时间顺序上位于所述目标语音之前,所述第二音频子数据在时间顺序上位于所述目标语音之后。
30.根据权利要求28所述的方法,其特征在于,所述检测所述增强音频数据中是否包含所述目标语音,包括:
基于与所述目标语音对应的第二触发阈值,检测所述增强音频数据中是否包含所述目标语音;其中,所述第二触发阈值大于所述云平台检测所述原始音频数据中是否包含所述目标语音所采用的与所述目标语音对应的第一触发阈值。
31.一种目标语音的检测装置,其特征在于,包括:
确定单元,当检测出获取到的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测单元,检测所述增强音频数据中是否包含所述目标语音。
32.一种目标语音的检测装置,其特征在于,包括:
第一输出单元,使音频模块向检测模块输出原始音频数据;
接收单元,使所述音频模块接收所述检测模块在检测出所述原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息;
处理单元,使所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
第二输出单元,使所述音频模块向所述检测模块输出所述增强音频数据,以由所述检测模块检测所述增强音频数据中是否包含所述目标语音。
33.一种目标语音的检测装置,其特征在于,包括:
发送单元,使检测模块在检测出来自音频模块的原始音频数据中包含目标语音的情况下,向所述音频模块发送所述目标语音的描述信息,以由所述音频模块根据所述描述信息确定所述原始音频数据的噪声信息;
获取单元,使所述检测模块获取所述音频模块基于所述噪声信息对所述原始音频数据进行语音增强处理得到的增强音频数据;
检测单元,使所述检测模块检测所述增强音频数据中是否包含所述目标语音。
34.一种智能语音设备的启动装置,其特征在于,应用于智能语音设备;所述装置包括:
确定单元,当检测出获取到的原始音频数据中包含唤醒关键词时,根据所述唤醒关键词确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
启动单元,当检测到所述增强音频数据中包含所述唤醒关键词时,启动所述智能语音设备。
35.一种智能语音设备的交互装置,其特征在于,应用于智能语音设备;所述装置包括:
确定单元,当检测出获取到的原始音频数据中包含语音指令时,根据所述语音指令确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
执行单元,当检测到所述增强音频数据中包含所述语音指令时,识别所述语音指令的语义,并执行所述语义指示的操作。
36.一种目标语音的检测装置,其特征在于,应用于云平台;所述装置包括:
确定单元,当检测出智能语音设备上传的原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息;
处理单元,基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
输出单元,向所述智能语音设备返回所述增强音频数据,以由所述智能语音设备检测所述增强音频数据中是否包含所述目标语音。
37.一种目标语音的检测装置,其特征在于,应用于智能语音设备;所述装置包括:
上传单元,向云平台上传原始音频数据,以由所述云平台在检测出所述原始音频数据中包含目标语音时,根据所述目标语音确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理,得到增强音频数据;
检测单元,接收所述云平台返回的所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
38.一种终端设备,其特征在于,包括:
音频模块,接收所述检测模块在检测出来自所述音频模块的原始音频数据中包含目标语音的情况下返回的所述目标语音的描述信息,根据所述描述信息确定所述原始音频数据的噪声信息,并基于所述噪声信息对所述原始音频数据进行语音增强处理得到增强音频数据;
所述检测模块,获取所述增强音频数据,并检测所述增强音频数据中是否包含所述目标语音。
39.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-30中任一项所述的方法。
40.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-30中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607494.5A CN113936678A (zh) | 2020-06-29 | 2020-06-29 | 目标语音的检测方法及装置、设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010607494.5A CN113936678A (zh) | 2020-06-29 | 2020-06-29 | 目标语音的检测方法及装置、设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113936678A true CN113936678A (zh) | 2022-01-14 |
Family
ID=79272985
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010607494.5A Pending CN113936678A (zh) | 2020-06-29 | 2020-06-29 | 目标语音的检测方法及装置、设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113936678A (zh) |
-
2020
- 2020-06-29 CN CN202010607494.5A patent/CN113936678A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109326289B (zh) | 免唤醒语音交互方法、装置、设备及存储介质 | |
US11423904B2 (en) | Method and system of audio false keyphrase rejection using speaker recognition | |
CN110556103B (zh) | 音频信号处理方法、装置、系统、设备和存储介质 | |
CN107767863B (zh) | 语音唤醒方法、系统及智能终端 | |
US10482904B1 (en) | Context driven device arbitration | |
US9202462B2 (en) | Key phrase detection | |
KR101981878B1 (ko) | 스피치의 방향에 기초한 전자 디바이스의 제어 | |
CN105190746B (zh) | 用于检测目标关键词的方法和设备 | |
US20140337030A1 (en) | Adaptive audio frame processing for keyword detection | |
CN108986833A (zh) | 基于麦克风阵列的拾音方法、系统、电子设备及存储介质 | |
CN110660407B (zh) | 一种音频处理方法及装置 | |
US20200243085A1 (en) | Voice Processing Method, Apparatus and Device | |
CN111192590B (zh) | 语音唤醒方法、装置、设备及存储介质 | |
CN110968353A (zh) | 中央处理器的唤醒方法、装置、语音处理器以及用户设备 | |
CN111370004A (zh) | 人机交互方法、语音处理方法及设备 | |
CN111862943B (zh) | 语音识别方法和装置、电子设备和存储介质 | |
CN110473542B (zh) | 语音指令执行功能的唤醒方法、装置及电子设备 | |
CN110992953A (zh) | 一种语音数据处理方法、装置、系统及存储介质 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN113889091A (zh) | 语音识别方法、装置、计算机可读存储介质及电子设备 | |
CN111145748B (zh) | 音频识别置信度确定方法、装置、设备及存储介质 | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
CN113936678A (zh) | 目标语音的检测方法及装置、设备、存储介质 | |
CN116129942A (zh) | 语音交互设备和语音交互方法 | |
CN114694661A (zh) | 一种第一终端设备、第二终端设备和语音唤醒方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |