CN111739515B - 语音识别方法、设备、电子设备和服务器、相关系统 - Google Patents
语音识别方法、设备、电子设备和服务器、相关系统 Download PDFInfo
- Publication number
- CN111739515B CN111739515B CN201910882970.1A CN201910882970A CN111739515B CN 111739515 B CN111739515 B CN 111739515B CN 201910882970 A CN201910882970 A CN 201910882970A CN 111739515 B CN111739515 B CN 111739515B
- Authority
- CN
- China
- Prior art keywords
- voice
- frame
- data
- attribute
- input data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 230000002618 waking effect Effects 0.000 claims abstract description 24
- 238000001514 detection method Methods 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 230000001360 synchronised effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000013136 deep learning model Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000005291 magnetic effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种语音识别方法、设备、电子设备和服务器、相关系统,其中,所述方法包括:获得语音输入数据,所述语音输入数据包括N帧语音;获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;依据各帧语音的属性,获得所述语音输入数据中的有效语音;获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
Description
技术领域
本申请涉及语音识别技术,具体涉及一种语音识别方法、设备、电子设备和服务器、相关系统。
背景技术
在语音唤醒技术中,可基于预定的唤醒词进行设备如智能音箱、机器人的语音唤醒。目前,利用用户使用的电子设备如智能手机对智能音箱、机器人的语音唤醒的方案,本质在于利用语音识别模型对特定的唤醒词进行识别。相关技术中,为保证对唤醒词识别的准确性,需要语音识别模型在唤醒词的识别上具有较复杂的计算,较复杂的计算必然耗费较高的功率。而诸如智能手机这一类可携带式电子设备往往体积较小、能够提供的功率较为有限,可见,相关技术中电子设备利用语音识别模型识别唤醒词的方案会导致对设备功耗的增加,无法满足设备的低功耗发展需求。对于电子设备来说,如何识别出唤醒词且不增加设备的功率损耗成为了亟待解决的技术问题。
发明内容
为解决现有存在的技术问题,本申请实施例提供一种语音识别方法、设备、电子设备和服务器、相关系统,至少能够在不增加功率损耗的情况下识别出唤醒词。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种语音识别方法,应用于电子设备中,所述方法包括:
获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
依据各帧语音的属性,获得所述语音输入数据中的有效语音;
获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
上述方案中,所述获得所述N帧语音中各帧语音的属性,包括:
针对所述N帧语音中的目标帧语音,所述目标帧语音为所述N帧语音中的任意一帧,
获得目标帧语音的能量;基于所述能量,得到所述目标帧语音的属性;
或者,获得所述目标帧语音的至少两帧上下文语音;获得目标数据的平均能量,所述目标数据包括所述目标帧语音和所述至少两帧上下文语音;基于所述目标数据的平均能量,得到所述目标帧语音的属性。
上述方案中,所述基于所述目标数据的平均能量,得到所述目标帧语音的属性,包括:
在所述平均能量小于预设的能量门限的情况下,确定所述目标帧语音为静音帧;
在所述平均能量大于或等于预设的能量门限的情况下,确定所述目标帧语音为语音帧。
上述方案中,所述依据各帧语音的属性,获得所述语音输入数据中的有效语音,包括:
以预定步长在所述语音输入数据中滑动预设的窗口,其中所述窗口每滑动预定步长位于所述窗口内的帧语音至少部分不同;
获得第一临界帧,所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧语音;
获得第二临界帧,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧语音;
确定第一临界帧与第二临界帧之间的至少一帧语音确定为有效语音。
上述方案中,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
在有效语音数据的发音序列中存在有与所述预定语音数据匹配的发音序列,确定所述语音输入数据中存在有所述预定语音数据。
上述方案中,所述方法还包括:
至少发送所述有效语音数据以获得基于所述有效语音数据而得到所述有效语音数据是否存在有所述预定语音数据的确定结果;
至少接收所述确定结果;
相应的,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
基于所述有效语音数据的属性和所述确定结果,确定所述语音输入数据中是否存在有所述预定语音数据。
上述方案中,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
基于有效语音数据的属性确定所述语音输入数据中未存在有所述预定语音数据的情况下,丢弃或删除所述语音输入数据和/或所述有效语音;
基于有效语音数据的属性确定所述语音输入数据中存在有预定语音数据的情况下,向与所述电子设备进行通信的设备发送唤醒指令。
上述方案中,在获得所述语音输入数据或所述有效语音之后,所述方法还包括:
删除所述语音输入数据或所述有效语音中的噪音数据。
上述方案中,所述删除所述语音输入数据或所述有效语音中的噪音数据,包括:
利用所述语音输入数据或所述有效语音中的至少部分音频数据,获得噪音数据,进行所述语音输入数据或所述有效语音中的所述噪音数据的删除;其中,所述至少部分音频数据为所述语音输入数据或所述有效语音的前置音频、或者为所述语音输入数据或所述有效语音中位于所述预定语音数据之前的至少部分音频;
和/或,对所述语音输入数据或所述有效语音进行滤波。
本申请实施例提供一种语音识别方法,应用于服务器中,所述服务器能够与所述电子设备进行通信,所述方法包括:
至少接收有效语音数据,所述有效语音数据为从所述电子设备的语音输入数据中得到的有效语音;
对所述有效语音数据进行预定语音数据的识别,所述预定语音数据为能够唤醒与所述电子设备进行通信的设备的数据;
根据识别结果,确定所述有效语音数据中是否存在所述预定语音数据。
上述方案中,在根据识别结果,确定所述有效语音数据中未存在所述预定语音数据的情况下,所述方法还包括:
丢弃或删除所述有效语音数据。
本申请实施例提供一种语音识别方法,应用于语音检测系统,所述方法包括:
获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
依据各帧语音的属性,获得所述语音输入数据中的有效语音;
传输所述有效语音。
上述方案中,所述获得所述N帧语音中各帧语音的属性,包括:
针对所述N帧语音中的目标帧语音,所述目标帧语音为所述N帧语音中的任意一帧,
获得目标帧语音的能量;基于所述能量,得到所述目标帧语音的属性;
或者,获得所述目标帧语音的至少两帧上下文语音;获得目标数据的平均能量,所述目标数据包括所述目标帧语音和所述至少两帧上下文语音;基于所述目标数据的平均能量,得到所述目标帧语音的属性。
上述方案中,所述基于所述目标数据的平均能量,得到所述目标帧语音的属性,包括:
在所述平均能量小于预设的能量门限的情况下,确定所述目标帧语音为静音帧;
在所述平均能量大于或等于预设的能量门限的情况下,确定所述目标帧语音为语音帧。
上述方案中,所述依据各帧语音的属性,获得所述语音输入数据中的有效语音,包括:
以预定步长在所述语音输入数据中滑动预设的窗口,其中所述窗口每滑动预定步长位于所述窗口内的帧语音至少部分不同;
获得第一临界帧,所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧语音;
获得第二临界帧,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧语音;
确定第一临界帧与第二临界帧之间的至少一帧语音确定为有效语音。
上述方案中,在获得所述语音输入数据或所述有效语音之后,所述方法还包括:
删除所述语音输入数据或所述有效语音中的噪音数据。
上述方案中,所述删除所述语音输入数据或所述有效语音中的噪音数据,包括:
利用所述语音输入数据或所述有效语音中的至少部分音频数据,获得噪音数据,进行所述语音输入数据或所述有效语音中的所述噪音数据的删除;其中,所述至少部分音频数据为所述语音输入数据或所述有效语音的前置音频、或者为所述语音输入数据或所述有效语音中位于所述预定语音数据之前的至少部分音频;
和/或,对所述语音输入数据或所述有效语音进行滤波。
本申请实施例提供一种语音识别方法,应用于唤醒系统,所述方法包括:
接收有效语音;
获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述唤醒系统进行通信的设备。
上述方案中,所述获得有效语音的属性,包括:
获得组成所述有效语音数据的各个元素的发音信息,基于各个元素的发音信息,得到所述有效语音数据的发音序列;
相应的,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
判断在所述有效语音数据的发音序列中是否存在有与所述预定语音数据的发音序列相同的发音序列;
如果存在,则确认为所述语音输入数据中存在有所述预定语音数据。
上述方案中,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
基于有效语音数据的属性确定所述语音输入数据中未存在有所述预定语音数据的情况下,丢弃或删除所述语音输入数据和/或所述有效语音;
基于有效语音数据的属性确定所述语音输入数据中存在有预定语音数据的情况下,向与所述电子设备进行通信的设备发送唤醒指令。
本申请实施例提供一种电子设备,包括:
第一获得单元,用于获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
第二获得单元,用于获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
第三获得单元,用于依据各帧语音的属性,获得所述语音输入数据中的有效语音;
第四获得单元,用于获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
确定单元,用于基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
本申请实施例提供一种服务器,所述服务器能够与所述电子设备进行通信,所述服务器包括:
接收单元,用于至少接收有效语音数据,所述有效语音数据为从所述电子设备的语音输入数据中得到的有效语音;
识别单元,用于对所述有效语音数据进行预定语音数据的识别,所述预定语音数据为能够唤醒与所述电子设备进行通信的设备的数据;
确定单元,用于根据识别结果,至少确定所述有效语音数据中是否存在所述预定语音数据。
本申请实施例提供一种语音检测系统,包括:
第一获得单元,用于获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
第二获得单元,用于获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
第三获得单元,用于依据各帧语音的属性,获得所述语音输入数据中的有效语音;
传输单元,用于传输所述有效语音。
本申请实施例提供一种唤醒系统,包括:
接收单元,用于接收有效语音;
获得单元,用于获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
确定单元,用于基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述唤醒系统进行通信的设备。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序(指令)被处理器执行时实现前述的任一语音识别方法的步骤。
本申请实施例提供一种语音识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行前述的任一语音识别方法的步骤。
本申请实施例提供了一种语音识别方法、设备、电子设备和服务器、相关系统,其中,所述方法包括:获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;依据各帧语音的属性,获得所述语音输入数据中的有效语音;获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
本申请实施例中的电子设备无需利用语音识别模型,对输入的各帧语音进行静音帧或语音帧的区分,依据区分结果得到用户输入的有效语音,并依据有效语音的发音特性来确定用户输入的语音输入数据中是否存在有用于对目标设备进行唤醒的唤醒词。至少能够在不增加功率损耗的情况下识别出唤醒词。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的语音识别方法的第一实施例的实现流程示意图;
图2为本申请提供的语音识别方法的第二实施例的实现流程示意图;
图3为本申请提供的语音识别方法的第三实施例的实现流程示意图;
图4为本申请提供的电子设备与服务器的交互示意图;
图5为本申请提供的语音识别方法的第四实施例的实现流程示意图;
图6为本申请提供的电子设备实施例的组成结构图;
图7为本申请提供的服务器实施例的组成结构图;
图8为本申请提供的语音检测系统的组成结构图;
图9为本申请提供的唤醒系统的组成结构图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例涉及的电子设备可以是任何能够识别出预定语音数据如唤醒词的设备,如智能手机、平板电脑(PAD)、笔记本电脑、智能手表、智能手环、智能眼镜等可携带设备,还可以是台式机、智能电视、智能冰箱等不方便携带的设备;优选为可携带设备。本申请实施例中的电子设备能够对预定语音数据如唤醒词进行识别,在识别出唤醒词的情况下,对与电子设备进行通信的设备如智能音箱、机器人、智能电视、智能空调等设备进行唤醒。
本申请实施例中的电子设备除了自身能够识别出唤醒词之外,还可以基于与服务器间的通信服务器对唤醒词进行识别,结合服务器对唤醒词的准确识别,来提高电子设备对唤醒词的识别准确性。
本申请提供的语音识别方法的第一实施例,应用于电子设备中,如图1所示,所述方法包括:
步骤101:获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
本步骤中,接收或采集用户输入至电子设备的语音数据作为语音输入数据。所述语音输入数据包括至少一帧语音,优选为多帧语音。
步骤102:获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
可以理解,语音帧为存在有用户语音的语音数据,静音帧为未存在有用户语音的数据如环境数据、或存在有用户语音数据但用户语音数据的强度比环境数据比起来很小的数据。计算N帧语音数据中各帧语音数据为静音帧或为语音帧,也即本步骤在于区分各帧为静音帧或为语音帧。
步骤103:依据各帧语音的属性,获得所述语音输入数据中的有效语音;
本步骤中,依据对各帧数据进行静音帧或语音帧的区分结果,得到用户输入的有效语音。
步骤104:获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
步骤105:基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
本步骤中,依据有效语音数据的发音特性,确定接收或采集的语音输入数据中是否存在预定语音数据如预定的唤醒词。所述与电子设备进行通信的设备本申请实施例中可以称之为目标设备,能够基于电子设备产生的唤醒指令被唤醒的功能。
执行步骤101~105的实体为电子设备。
综上,与相关技术中的电子设备需采用计算较复杂的语音识别模型进行唤醒词的识别的方案不同,本申请实施例中的电子设备无需利用语音识别模型,对输入的各帧语音进行静音帧或语音帧的区分,依据区分结果得到用户输入的有效语音,并依据有效语音的发音特性来确定用户输入的语音输入数据中是否存在有用于对目标设备进行唤醒的唤醒词。与采用语音识别模型进行唤醒词识别的方案相比,至少能够在不增加功率损耗的情况下识别出唤醒词。
可以理解,本申请实施例的唤醒词识别方案,一方面不会造成功率的损耗,能够适应电子设备的低功耗发展需求;另一方面,依据对输入的用户语音进行静音帧或语音帧的区分结果确定有效语音,依据有效语音的发音特性来确定是否存在唤醒词,可保证唤醒词的识别准确性。
在本申请实施例中,所述电子设备可以包括语音检测系统(VAD)和唤醒系统(wakeup),前述的S101~S104由VAD来完成,在VAD执行完S104之后,传输有效语音数据至唤醒系统,唤醒系统接收有效语音数据并执行S105。如后续没有特殊说明,属于对S101~S104的细化描述均由VAD来执行;属于对S105的细化描述均由唤醒系统来完成。
在一个可选的实施例中,所述获得所述N帧语音中各帧语音的属性,可以通过如下两种方式来实现:
针对所述N帧语音中的目标帧语音,所述目标帧语音为所述N帧语音中的任意一帧,
实现方式一:获得目标帧语音的能量;基于所述能量,得到所述目标帧语音的属性;
实现方式二:获得所述目标帧语音的至少两帧上下文语音;获得目标数据的平均能量,所述目标数据包括所述目标帧语音和所述至少两帧上下文语音;基于所述目标数据的平均能量,得到所述目标帧语音的属性。
前述可选方案中,对于N帧语音中的任意一帧语音,可以基于该帧语音的能量或者包括该帧语音和该帧语音的上下文语音的目标数据的平均能量,确定该帧数据为静音帧还是语音帧。这种基于语音数据能量进行静音帧或语音帧的区分方案,可保证区分准确性,进而为准确识别唤醒词提供了一定的保障。
在前述实现方式二中,所述基于所述目标数据的平均能量,得到所述目标帧语音的属性,包括:
在所述平均能量小于预设的能量门限的情况下,确定所述目标帧语音为静音帧;
在所述平均能量大于或等于预设的能量门限的情况下,确定所述目标帧语音为语音帧。
可以理解,前述的可选实施例中,根据目标数据的平均能量和能量门限之间的大小关系,确定目标帧语音为静音帧还是语音帧,可保证静音帧和语音帧的区分准确性。其中,所述能量门限可以是一个数值,还可以是数值范围,由经验而得,根据实际使用情况而灵活设定。如能量门限为5dB(分贝),或者为[2dB,20dB]。
在一个可选的实施例中,所述依据各帧语音的属性,获得所述语音输入数据中的有效语音,包括:
以预定步长在所述语音输入数据中滑动预设的窗口,其中所述窗口每滑动预定步长位于所述窗口内的帧语音至少部分不同;
获得第一临界帧,所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧语音;
获得第二临界帧,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧语音;
确定第一临界帧与第二临界帧之间的至少一帧语音确定为有效语音。
前述可选方案中,滑动窗口(预设的窗口)以一定的步长在语音输入数据对应的N帧语音上进行滑动,依据滑动窗口在语音输入数据上的依次滑动,获得从认为语音输入数据从静音状态切换到存在有输入语音状态的帧数据(第一临界帧)以及从存在有输入语音状态切换到静音状态的帧数据(第二临界帧),将位于该二个帧数据之间的语音帧视为有效语音。其中,预定步长的单位可以为帧,步长值<N。这种方案相当于在语音输入数据中确定何时出现语音何时出现静音,该方案可保证有效语音的确定准确性。
在一个可选的实施例中,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:在有效语音数据的发音序列中存在有与所述预定语音数据匹配的发音序列,确定所述语音输入数据中存在有所述预定语音数据。本可选实施例中,基于语言的发音特性进行语音输入数据中是否存在有唤醒词的确定,从自然语言的固有特性(发音特性)出发,可保证对唤醒词的识别准确性。
在一个可选的实施例中,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:基于有效语音数据的属性确定所述语音输入数据中未存在有所述预定语音数据的情况下,丢弃或删除所述语音输入数据和/或所述有效语音,无法向与所述电子设备进行通信的设备发送唤醒指令;基于有效语音数据的属性确定所述语音输入数据中存在有预定语音数据的情况下,向与所述电子设备进行通信的设备发送唤醒指令。可以理解,在本可选实施例中,在当前的语音输入数据中如果存在有唤醒词,则向目标设备发送唤醒指令以对目标设备进行唤醒。如果未存在唤醒词,则丢弃或删除当前的语音输入数据,继续进行下一次语音输入数据的获取,自然地,由于当前语音输入数据中未存在唤醒词,则无法向目标设备发送唤醒指令。
在一个可选的实施例中,在获得所述语音输入数据或所述有效语音之后,所述方法还包括:删除所述语音输入数据或所述有效语音中的噪音数据。可以理解,获得的语音输入数据或有效语音数据中均会掺杂有噪音数据,可对噪音数据进行删除。优选的,可在获得语音输入数据之后即可删除语音输入数据中的噪音数据,由于在确定出有效语音之前已经对语音输入数据进行删除,那么在确定出有效语音之后就不需要对有效语音再进行噪音删除。还可以在获得有效语音之前不对噪音进行删除,再获得之后再进行噪音的删除。此外,为保证对有效语音的识别准确性,还可以在获得语音输入数据之后对噪音数据进行删除,在确定出有效语音之后进一步对有效语音数据进行噪音删除以避免噪音对唤醒词的识别的影响。
具体的,所述删除所述语音输入数据或所述有效语音中的噪音数据的方案包括如下其中任意一种方式:
方式一:利用所述语音输入数据或所述有效语音中的至少部分音频数据,获得噪音数据,进行所述语音输入数据或所述有效语音中的所述噪音数据的删除;其中,所述至少部分音频数据为所述语音输入数据或所述有效语音的前置音频、或者为所述语音输入数据或所述有效语音中位于所述预定语音数据之前的至少部分音频;
在方式一中可以利用语音输入数据或有效语音数据中位于预定语音数据如唤醒词之前的至少部分音频,估计噪音数据的能量,并删除语音输入数据或有效语音数据中具有该能量的音频数据进而得到将噪音数据删除的有益效果。还可以,将语音输入数据或有效语音数据中靠前的至少一帧语音数据如第1~3帧或第1~4帧等数据进行复制,并添加至语音输入数据或有效语音数据中的前面作为语音输入数据或有效语音数据的前置音频,计算前置音频中噪音数据的能量,并删除语音输入数据或有效语音数据中具有该能量的音频数据进而得到尽量未掺杂有噪音数据或掺杂有噪音数据较少的音频数据的有益效果,以帮助更准确地识别出唤醒词。
方式二:对所述语音输入数据或所述有效语音进行滤波。
在方式二中可采用滤波器对语音输入数据或有效语音进行滤波,如高通滤波器,滤出语音输入数据或有效语音数据中的噪音数据,以尽量避免噪音数据对唤醒词识别的影响。
不论采用以上哪种噪音删除方案,均可有效避免噪音数据对准确识别唤醒词的不利影响。
本申请提供的语音识别方法的第二实施例,应用于电子设备中,如图2所示,所述方法包括:
步骤201:获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
步骤202:获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
步骤203:依据各帧语音的属性,获得所述语音输入数据中的有效语音;
步骤204:获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
步骤205:至少发送所述有效语音数据以获得基于所述有效语音数据而得到所述有效语音数据是否存在有所述预定语音数据的确定结果;
步骤206:至少接收所述确定结果;
步骤207:基于所述有效语音数据的属性和所述确定结果,确定所述语音输入数据中是否存在有所述预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
执行步骤201~207的实体为电子设备。前述步骤的相关说明请参见对步骤101~104的说明,重复之处不赘述。
步骤205~207相当于电子设备与服务器进行交互确定语音输入数据中是否存在有所述预定语音数据。与相关技术中采用语音识别模型进行唤醒词识别的方案相比,本申请实施例的以上技术方案至少能够在不增加功率损耗的情况下识别出唤醒词。其中,依据对输入的用户语音进行静音帧或语音帧的区分结果确定有效语音,依据有效语音的发音特性和接收到的确定结果来确定是否存在唤醒词,可提高唤醒词的识别准确性。
本申请提供的语音识别方法的第三实施例,应用于服务器中,所述服务器能够与所述电子设备进行通信,如图3所示,所述方法包括:
步骤301:至少接收有效语音数据,所述有效语音数据为从所述电子设备的语音输入数据中得到的有效语音;
步骤302:对所述有效语音数据进行预定语音数据的识别,所述预定语音数据为能够唤醒与所述电子设备进行通信的设备的数据;
步骤303:根据识别结果,至少确定所述有效语音数据中是否存在所述预定语音数据。
执行步骤301~303的实体为服务器。服务器基于电子设备发送的有效语音数据对唤醒词进行识别,并根据识别结果,确定是否存在唤醒词,以使电子设备结合自身的识别结果和服务器的识别结果,进行识别准确性的确定,至少可提高对唤醒词的识别准确性。
在一个可选的实施例中,所述根据识别结果,至少确定所述有效语音数据中是否存在所述预定语音数据,包括:至少在所述有效语音数据中识别出所述预定语音数据的情况下,确定所述有效语音数据中存在有所述预定语音数据。本可选实施例中,服务器在识别出唤醒词的情况下,确定输入至电子设备的有效语音数据中存在唤醒词,服务器识别出存在唤醒词的结果可加强电子设备对唤醒词的识别准确性。
可以理解,关于步骤201~207以及步骤301~303的语音识别方法的实施例,可以认为是电子设备除了自身能够识别出唤醒词之外(参见前述步骤101~105),还可以基于与服务器间的通信由服务器对唤醒词进行识别,电子设备结合服务器对唤醒词的准确识别,来提高自身对唤醒词的识别准确性。这种结合服务器对唤醒词的识别方案,至少能够减少由于智能手机的误识别而导致的目标设备被错误唤醒的概率。
在一个可选的方案中,在根据识别结果,至少确定所述有效语音数据中未存在所述预定语音数据的情况下,所述方法还包括:丢弃或删除所述有效语音数据。考虑到服务器侧也可以进行预定语音数据的识别,在其识别有效语音数据中未存在预定语音数据的情况下,为避免无用数据对空间的占用,服务器对未存在有唤醒词的有效语音数据进行删除,等待接收电子设备发送的下一个(次)有效语音数据。
下面结合附图4、5对本申请实施例的技术方案作进一步详细的说明。
在图4所示的应用场景中,以电子设备结合服务器对唤醒词的识别结果和有效语音的发音特性来确定当前输入的语音输入数据中是否存在有唤醒词为例,该电子设备可以为智能手机,在智能手机识别出存在唤醒词的情况下用于对目标设备如智能音箱进行唤醒。其中,电子设备包括语音检测系统(VAD)和唤醒系统(wake up)。
步骤501:智能手机、具体是VAD采集由麦克风输入的当前语音输入数据;
本步骤中,采集的语音输入数据具有一定的时长,如为M秒(s),以一定的帧长如L毫秒(ms)将语音数据输入进行语音帧数据的划分,得到N=M/L个帧语音。其中,N为M/L向上取整或向下取整均可,优选为向上取整。
在步骤501与502之间还可以存在步骤:将当前语音输入数据进行高通滤波,以过滤掉当前语音输入数据中的噪声数据。还可以将当前语音输入数据靠前的至少一帧语音数据如当前语音输入数据的第1~3帧数据进行复制,并添加至语音输入数据的前面作为语音输入数据的前置音频,估计前置音频中噪音数据的能量,并删除语音输入数据具有该能量的音频数据,进而得到未掺杂有噪音数据或掺杂有噪音数据较少的音频数据,以帮助更准确地识别出唤醒词。
步骤502:智能手机、具体是VAD获得各帧语音的上下文语音帧,集合对应帧和其上下文语音得到针对各个帧的目标数据;
本步骤中,预先假定各个帧的目标数据均采用同一长度,均为A帧长,A为大于等于2的正整数。对于N帧语音数据中的第i帧语音,其为一个帧长,针对第i帧语音的目标数据,其A帧长中除了第i帧语音的一个帧长之外,其它帧长由第i帧语音的上下文语音帧来填充。对于N帧语音数据中的靠前帧语音或靠后帧语音,由于靠前帧语音不存在上文语音、靠后帧语音不存在下文语音,则可以采用将靠前帧(靠后帧)语音进行(A-2)个帧长复制作为靠前帧语音(靠后帧语音)的上(下)文语音帧;或者,将预定数据如0或1进行(A-2)个帧长复制作为靠前帧语音(靠后帧语音)的上(下)文语音帧,也即采用预定数据进行目标数据的填充。
举例来说,假定第i帧语音(目标帧语音)为当前输入数据中的中间帧语音,如为N=30帧语音中的第10帧语音,设定每帧语音的目标数据为3帧,则将第10帧语音的前一帧语音即第9帧语音和后一帧语音即第11帧语音从当前语音输入数据中提取出来,按照帧顺序即按照第9帧语音、第10帧语音和第11帧语音进行集合得到针对第10帧语音的目标数据。
假定第i帧语音(目标帧语音)为当前输入数据中的靠前帧语音如第1帧语音,第1帧语音无上文数据,以每帧语音的目标数据为3帧为例,则复制第1帧数据2份,按照第一份复制数据、第1帧语音和第二份复制数据的顺序进行集合得到针对第1帧语音的目标数据。
对于当前输入数据中的靠后帧语音如第N帧语音,其目标数据参见前述对靠前帧的处理,具体不做赘述。
在本步骤中,结合各个帧的上下文语音得到各个帧的目标数据,也即依据自然语音的上下文得到目标数据,可保证静音帧或语音帧的区分准确性。
以上例子中的目标数据依据一定的顺序集合而来,这样方便智能手机获知当前得到的目标数据是针对哪帧语音的目标数据。可以理解,目标数据可以任何合理的顺序集合而成,对此不做具体限定。
步骤503:针对各个帧的目标数据,智能手机、具体是VAD得到各个帧为静音帧或语音帧的区分结果;
本步骤中,针对第i帧语音的目标数据,计算该目标数据的平均能量,在计算出的平均能量小于预设的能量门限、具体是第一能量门限的情况下,确定第i帧语音为静音帧;在平均能量大于或等于预设的能量门限、具体是第一能量门限的情况下,确定第i帧语音为语音帧;进而区分出当前语音输入数据的各帧为语音帧还是为静音帧。
可以理解,步骤502和503中是利用包括有目标帧数据和其上下文语音帧得到的目标数据进行静音帧或语音帧的区分。此外,还可以直接计算各个帧的能量,如计算第i帧的能量,在计算出的平均能量小于预设的能量门限、具体是第二能量门限的情况下,确定第i帧语音为静音帧;在平均能量大于或等于第二能量门限的情况下,确定第i帧语音为语音帧。也即无需第i帧的上下文语音帧,直接通过第i帧的能量与预设的第二能量门限的大小比较确定其为静音帧还是为语音帧。
其中,第一能量门限、第二能量门限均可以是一个数值,还可以是数值范围,二者取值可以为相同,也可以为不同,由经验而得,根据实际使用情况而灵活设定。
前述的计算帧语音的能量和平均能量的过程请参见相关说明,不赘述。
步骤504:智能手机、具体是VAD以一定的步长进行滑动窗口在当前语音输入数据上的滑动;
步骤505:智能手机、具体是VAD在滑动窗口在当前语音输入数据的依次滑动过程中,获得第一临界帧和第二临界帧;
在步骤504、505中,假定滑动窗口以步长P=1(P通常小于N)进行滑动,也即滑动窗口每次滑动一个帧长,假定滑动窗口的长度为B帧(B为大于等于2的正整数),则在滑动窗口的初始位置,滑动窗口内的帧语音为当前语音输入数据中的第1帧~第B帧语音;从初始位置开始依次做P=1个步长的滑动,例如从初始位置开始滑动第1个步长的情况下,滑动窗口内的帧语音为当前语音输入数据中的第2帧~第B+1帧语音;从初始位置开始滑动第2个步长的情况下,滑动窗口内的帧语音为当前语音输入数据中的第3帧~第B+2帧语音;以此类推,进行滑动窗口的依次滑动。
可以理解,在自然语言中,对于用户输入的一段语音,例如用户如果想要向智能手机输入唤醒词,那么其通常输入的语音通常是从静音段到语音段,从该语音段再到静音段,如果智能手机、具体是VAD能够识别出N帧语音中哪帧开始用户的输入从最开始的静音变成了输入有语音、以及从输入有语音又变成了最后的静音,则是必能够找到用户输入的有效语音段。具体实现上,采用如下方式:
滑动窗口在滑动的过程中,依据对位于滑动窗口内的帧语音为静音帧或为语音帧的区分结果,计算在每次滑动中位于滑动窗口内的帧语音为静音帧和为语音帧的数量。如果在一次滑动中,位于该次滑动的滑动窗口内的帧语音为语音帧的数量达到第一阈值,则位于此时滑动窗口中的最后一帧数据为第一临界帧,说明从第一临界帧开始,输入从静音段变成了语音段。如果在一次滑动中,位于该次滑动的滑动窗口内的帧语音为静音帧的数量达到第二阈值,则位于此时滑动窗口中的最后一帧数据为第二临界帧,说明从第二临界帧开始,输入从语音段变成了静音段。由此实现了何时从静音段变成语音段、以及从语音段变成静音段的识别。该识别方案可为准确识别有效语音数据提供一定的保障。
其中,第一阈值和第二阈值均为小于滑动窗口长度B的正整数,二者可相同也可不同,均可为数值,也可以为数值范围,由经验而得,根据实际情况而灵活设定。如第一阈值为20帧,第二阈值为15帧。
步骤506:智能手机、具体是VAD将第一临界帧与第二临界帧之间的至少一帧语音确定为有效语音;
本步骤中,视有效语音为第一临界帧与第二临界帧之间的帧语音。举个例子,假定通过步骤505确定出第一临界帧为当前输入语音的第5帧,第二临界帧为当前输入语音的第13帧,则当前输入语音的第5帧~第13帧均为用户输入的有效语音。第1帧~第4帧、以及第14帧~第N帧均为静音段。
在步骤506之后还存在一个优选的方案:删除有效语音数据中的噪音数据,如果在采集当前语音输入数据之后未对当前语音输入数据进行噪音的删除、或者为保证对唤醒词的识别准确性在采集当前语音输入数据之后已对当前语音输入数据进行噪音的删除的情况下,还可以进一步对有效语音数据中的噪音数据进行删除。如复制有效语音数据的前几帧如第1~3帧作为前置音频添加至有效语音的前面,估计前置音频中噪音数据的能量,并删除有效语音数据中具有该能量的音频数据。也可以通过高通滤波器进行噪音数据的滤除。
步骤507:智能手机、具体是VAD传输有效语音至唤醒系统,唤醒系统进行唤醒词的识别;
本步骤中,获得有效语音数据、具体是组成有效语音数据的各个元素如汉字或词的发音信息,将各个发音信息组成发音序列,得到有效语音数据的发音序列,在有效语音数据的发音序列中判断是否存在有与唤醒词的发音序列相同的发音序列,如果存在,则视为有效语音数据的发音序列中存在有与唤醒词的发音序列相匹配的发音序列,确定当前语音输入数据中存在有唤醒词。其中,获得发音序列的过程请参见自然语音处理中的相关技术而理解,此处不赘述。依据自然语言的发音特性,进行唤醒词的识别,可保证唤醒词的识别准确性。
在具体实现上,唤醒系统利用神经网络模型、具体是深度学习模型进行唤醒词的识别。可以理解,本申请实施例中的唤醒词是预先设置的,在利用神经网络模型进行唤醒词的识别之前,需要利用预先设置好的唤醒词对深度学习模型中的参数进行训练,以利用更好的参数来保证识别唤醒词的准确性。具体的训练过程请参见前述相关说明,不赘述。利用已经训练好的深度学习模型进行唤醒词的识别方案,在具体实现上可以如下所述:得到组成有效语音数据的各个元素如汉字的发音,利用训练好的深度学习模型,依据各个元素的发音,对输入至模型的有效语音数据进行逐个汉字的识别,利用分类器计算在有效语音数据中组成唤醒词的各个元素如汉字的概率,在组成唤醒词的各个汉字按照唤醒词中的组成顺序出现的概率之和达到预定概率阈值的情况下,确定有效语音数据中存在有唤醒词。举个例子,以唤醒词为“京东你好”为例,针对当前输入的有效语音数据,利用前述的深度学习模型,得到按照“京”、“东”、“你”、“好”这个顺序出现的这几个汉字的概率之和,当该概率之和达到预定概率阈值如0.8的情况下,确定有效语音数据中存在有唤醒词“京东你好”。
本领域技术人员可以理解,神经网络模型、具体是深度学习模型具有较强的鲁棒性和健壮性,通过其、以及自然语言本身的发音特性进行唤醒词的识别,可使得唤醒词的识别更为准确。
从步骤501~507的方案可以看出,筛选出当前语音输入数据中的有效语音数据的方案由智能手机的VAD来完成,识别有效语音数据中是否存在有唤醒词的智能由智能手机的唤醒系统来完成,也即由智能手机来完成的筛选和识别这两大部分工作通过不同的系统来完成,主要考虑到了唤醒系统通常为低功耗系统,由低功耗系统来完成两大部分工作的一部分工作,可大大节省唤醒系统的功耗,进而使得唤醒系统能够更好的为目标设备进行唤醒服务。可以理解,这种低功耗的唤醒,不会造成智能手机的功率的损耗,能够适应智能手机的低功耗发展需求。此外,依据对输入的用户语音进行静音帧或语音帧的区分结果确定有效语音,依据有效语音的发音特性来确定是否存在唤醒词,可保证唤醒词的识别准确性。
本领域技术人员可以理解,本申请实施例中,为避免智能手机对唤醒词的识别出现错误,还需要服务器端进行唤醒词的进一步识别,以进一步肯定智能手机识别唤醒词的准确性。基于此,所述语音识别方法还包括:
步骤508:在智能手机、具体是唤醒系统识别出当前语音输入数据中存在有唤醒词的情况下,至少发送当前语音输入数据中的有效语音数据至服务器;
步骤509:服务器、具体是语音识别系统接收到有效语音数据,对有效语音数据进行识别;
在步骤508中,智能手机、具体是唤醒系统可以仅发送有效语音数据至服务器,还可以发送当前语音输入数据至服务器;相应的,服务器、具体是语音识别系统可以基于有效语音数据进行识别或基于当前语音输入数据进行识别。
步骤510:确定识别出的数据中是否存在唤醒词;
存在时,执行步骤511;
否则,执行步骤514;
步骤511:服务器、具体是语音识别系统发送识别出的数据中存在有唤醒词的结果至智能手机;
步骤512:智能手机、具体是唤醒系统接收确定结果,以使智能手机、具体是唤醒系统确认自身识别的结果与服务器的识别结果一致,自身识别较为准确。
步骤513:智能手机、具体是唤醒系统产生唤醒指令,发送唤醒指令至目标设备以唤醒目标设备。
可以理解,目标设备被唤醒,可以响应用户在唤醒词之后输入的语音指令。如目标设备接收智能手机在识别出唤醒词“京东你好”的情况下产生的唤醒指令,响应用户在说出“京东你好”之后产生的语音指令“今天天气怎么样”,目标设备查找天气结果,并反馈查找结果至用户。
步骤514:服务器、具体是语音识别系统发送识别出的数据中未存在有唤醒词的结果至智能手机;
本步骤中,服务器、具体是语音识别系统丢弃或删除自身所接收到的有效语音数据。
步骤515:智能手机、具体是唤醒系统丢弃或删除当前语音输入数据和/或有效语音数据,通知VAD采集下一段语音输入数据,返回至步骤501继续执行。
在步骤515中,可以理解,在智能手机与服务器进行通信或交互的过程中,智能手机通常作为客户端,往往由于其体积较为小巧、服务器体积较为庞大,所以作为客户端的智能手机主要用于与用户进行交互,为用户提供良好的体验,服务器用于负责相关内容的主要运算。本申请实施例中,考虑到与客户端相比,服务器的计算能力更强、计算结果更为精准,在智能手机识别是否存在唤醒词的识别结果与服务器识别是否存在唤醒词的识别结果不一致的情况下,智能手机以服务器的识别结果作为最终的识别结果。这种智能手机将服务器识别结果考虑在内的方案,至少能够减少了由于智能手机的误识别而导致的目标设备被错误唤醒的概率。
可以理解,前述的服务器可位于云端,为云端的服务器,服务器的语音识别系统具体可以是云端的NLP(语音识别系统)。前述方案可通过云端与智能手机分别进行唤醒词的识别结果确定最终的识别结果,可保证识别准确性。
以上方案,智能手机对唤醒词进行识别,服务器也对唤醒词进行识别,相当于是一种进行两次识别来确定当前输入至智能手机的语音数据是否存在唤醒词的确认方案,这种两次确认方案,至少能够提升唤醒准确率和降低误唤醒率。这种方案也可看成是智能手机联合服务器进行唤醒词识别的方案,为一种联合对唤醒词进行识别的方案,主要利用了服务器识别更为精准、智能手机能够更好的与用户进行语音互动的特性,能够保证识别准确性,使得唤醒词识别的方案得到进一步优化。
前述方案中,考虑到客户端的小巧性,智能手机、具体是VAD在有输入语音的情况下才处于工作状态,唤醒系统在VAD识别出有效语音的状态下才处于工作状态,这种工作状态可以是在智能手机不需要连网的工作状态下进行也即在离线状态下进行,可减少一定的网络消耗。而在结合服务器识别结果的方案中,服务器需要在连网状态下接收有效语音,为一种在线识别是否存在唤醒词的方案,可帮助客户端提高识别准确性。
本申请还提供一种电子设备的实施例,如图6所示,所述电子设备包括:第一获得单元601、第二获得单元602、第三获得单元603、第四获得单元604及确定单元605;其中,
第一获得单元601,用于获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
第二获得单元602,用于获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
第三获得单元603,用于依据各帧语音的属性,获得所述语音输入数据中的有效语音;
第四获得单元604,用于获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
确定单元605,用于基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
在一个可选的实施例中,所述第二获得单元602,用于:
针对所述N帧语音中的目标帧语音,所述目标帧语音为所述N帧语音中的任意一帧,
获得目标帧语音的能量;基于所述能量,得到所述目标帧语音的属性;
或者,获得所述目标帧语音的至少两帧上下文语音;获得目标数据的平均能量,所述目标数据包括所述目标帧语音和所述至少两帧上下文语音;基于所述目标数据的平均能量,得到所述目标帧语音的属性。
在一个可选的实施例中,所述第二获得单元602,用于:
在所述平均能量小于预设的能量门限的情况下,确定所述目标帧语音为静音帧;
在所述平均能量大于或等于预设的能量门限的情况下,确定所述目标帧语音为语音帧。
在一个可选的实施例中,所述第三获得单元603,用于:
以预定步长在所述语音输入数据中滑动预设的窗口,其中所述窗口每滑动预定步长位于所述窗口内的帧语音至少部分不同;
获得第一临界帧,所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧语音;
获得第二临界帧,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧语音;
确定第一临界帧与第二临界帧之间的至少一帧语音确定为有效语音。
在一个可选的实施例中,所述确定单元605,还用于:
在有效语音数据的发音序列中存在有与所述预定语音数据匹配的发音序列,确定所述语音输入数据中存在有所述预定语音数据。
在一个可选的实施例中,所述电子设备还包括:
发送单元,用于至少发送所述有效语音数据以获得基于所述有效语音数据而得到所述有效语音数据是否存在有所述预定语音数据的确定结果;
接收单元,用于至少接收所述确定结果;
相应的,所述确定单元605,还用于:
基于所述有效语音数据的属性和所述确定结果,确定所述语音输入数据中是否存在有所述预定语音数据。
在一个可选的方案中,所述确定单元605,还用于基于有效语音数据的属性确定所述语音输入数据中未存在有所述预定语音数据的情况下,触发所述电子设备的丢弃或删除单元丢弃或删除所述语音输入数据和/或所述有效语音;
在一个可选的方案中,所述确定单元605,还用于基于有效语音数据的属性确定所述语音输入数据中存在有预定语音数据的情况下,触发所述电子设备的发送单元向与所述电子设备进行通信的设备发送唤醒指令。
在一个可选的方案中,所述电子设备还包括删除单元,用于在获得所述语音输入数据或所述有效语音之后,删除所述语音输入数据或所述有效语音中的噪音数据。
进一步的,所述删除单元,还用于:利用所述语音输入数据或所述有效语音中的至少部分音频数据,获得噪音数据,进行所述语音输入数据或所述有效语音中的所述噪音数据的删除;其中,所述至少部分音频数据为所述语音输入数据或所述有效语音的前置音频、或者为所述语音输入数据或所述有效语音中位于所述预定语音数据之前的至少部分音频;和/或,对所述语音输入数据或所述有效语音进行滤波。
本申请实施例中,所述第一获得单元601、第二获得单元602、第三获得单元603、第四获得单元604及确定单元605,在实际应用中均可由所述电子设备中的中央处理器(CPU,Central Processing Unit)、数字信号处理器(DSP,Digital Signal Processor)、微控制单元(MCU,Microcontroller Unit)或可编程门阵列(FPGA,Field-Programmable GateArray)实现。
本申请还提供一种服务器的实施例,如图7所示,所述服务器能够与所述电子设备进行通信,所述服务器包括:接收单元701、识别单元702及确定单元703;其中,
接收单元701,用于至少接收有效语音数据,所述有效语音数据为从所述电子设备的语音输入数据中得到的有效语音;
识别单元702,用于对所述有效语音数据进行预定语音数据的识别,所述预定语音数据为能够唤醒与所述电子设备进行通信的设备的数据;
确定单元703,用于根据识别结果,至少确定所述有效语音数据中是否存在所述预定语音数据。
在一个可选的实施例中,所述服务器还包括丢弃或删除单元,用于:丢弃或删除所述有效语音数据。
本申请实施例中,所述接收单元701、识别单元702及确定单元703,在实际应用中均可由服务器中的CPU、DSP、MCU或FPGA实现。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时至少用于执行图1至图3、以及图5任一所示方法的步骤。所述计算机可读存储介质具体可以为存储器。
本申请实施例还提供一种语音识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时至少实现图1至图3、以及图5任一所示方法的步骤。
可以理解,存储器可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请还提供一种语音检测系统实施例,如图8所示,包括:第一获得单元801、第二获得单元802、第三获得单元803和传输单元804;其中,
第一获得单元801,用于获得语音输入数据,所述语音输入数据包括N帧语音,N为大于等于1的正整数;
第二获得单元802,用于获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
第三获得单元803,用于依据各帧语音的属性,获得所述语音输入数据中的有效语音;
传输单元804,用于传输所述有效语音。
在一个可选方案中,所述第二获得单元802,还用于:
针对所述N帧语音中的目标帧语音,所述目标帧语音为所述N帧语音中的任意一帧,
获得目标帧语音的能量;基于所述能量,得到所述目标帧语音的属性;
或者,获得所述目标帧语音的至少两帧上下文语音;获得目标数据的平均能量,所述目标数据包括所述目标帧语音和所述至少两帧上下文语音;基于所述目标数据的平均能量,得到所述目标帧语音的属性。
在所述第二获得单元802,还用于:所述平均能量小于预设的能量门限的情况下,确定所述目标帧语音为静音帧;在所述平均能量大于或等于预设的能量门限的情况下,确定所述目标帧语音为语音帧。
在一个可选方案中,第三获得单元803,用于以预定步长在所述语音输入数据中滑动预设的窗口,其中所述窗口每滑动预定步长位于所述窗口内的帧语音至少部分不同;
获得第一临界帧,所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧语音;
获得第二临界帧,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧语音;
确定第一临界帧与第二临界帧之间的至少一帧语音确定为有效语音。
在一个可选方案中,所述语音检测系统还包括删除单元,用于删除所述语音输入数据或所述有效语音中的噪音数据。
本申请还一种唤醒系统的实施例,如图9所示,包括:接收单元901、获得单元902和确定单元903;其中,
接收单元901,用于接收有效语音;
获得单元902,用于获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
确定单元903,用于基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述唤醒系统进行通信的设备。
在一个可选的实施例中,所述唤醒系统还包括丢弃或删除单元,用于丢弃或删除所述有效语音数据。进一步的,用于利用所述语音输入数据或所述有效语音中的至少部分音频数据,获得噪音数据,进行所述语音输入数据或所述有效语音中的所述噪音数据的删除;其中,所述至少部分音频数据为所述语音输入数据或所述有效语音的前置音频、或者为所述语音输入数据或所述有效语音中位于所述预定语音数据之前的至少部分音频;和/或,对所述语音输入数据或所述有效语音进行滤波。
在一个可选的实施例中,获得单元902,用于获得组成所述有效语音数据的各个元素的发音信息,基于各个元素的发音信息,得到所述有效语音数据的发音序列;
相应的,确定单元903,用于判断在所述有效语音数据的发音序列中是否存在有与所述预定语音数据的发音序列相同的发音序列;
如果存在,则确认为所述语音输入数据中存在有所述预定语音数据。
在一个可选的实施例中,确定单元903在基于有效语音数据的属性确定所述语音输入数据中未存在有所述预定语音数据的情况下,所述唤醒系统的丢弃或删除单元用于丢弃或删除所述语音输入数据和/或所述有效语音;
在一个可选的实施例中,确定单元903在基于有效语音数据的属性确定所述语音输入数据中存在有预定语音数据的情况下,所述唤醒系统的发送单元向目标设备发送唤醒指令。
需要说明的是,本申请实施例的电子设备、语音检测系统、唤醒系统和服务器,由于电子设备、语音检测系统、唤醒系统和服务器解决问题的原理与前述的语音识别方法相似,因此,电子设备、语音检测系统、唤醒系统和服务器的实施过程及实施原理均可以参见前述语音识别方法的实施过程及实施原理描述,重复之处不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:滑动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:滑动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (24)
1.一种语音识别方法,其特征在于,应用于电子设备中,所述方法包括:
获得语音输入数据,所述语音输入数据包括N帧语音,N为大于1的正整数;
获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
以预定步长在所述语音输入数据中滑动预设的窗口,其中所述窗口每滑动预定步长位于所述窗口内的帧语音至少部分不同;获得第一临界帧,所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;获得第二临界帧,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;确定第一临界帧与第二临界帧之间的至少一帧语音为有效语音;
获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
2.根据权利要求1所述的方法,其特征在于,所述获得所述N帧语音中各帧语音的属性,包括:
针对所述N帧语音中的目标帧语音,所述目标帧语音为所述N帧语音中的任意一帧,
获得目标帧语音的能量;基于所述能量,得到所述目标帧语音的属性;
或者,获得所述目标帧语音的至少两帧上下文语音;获得目标数据的平均能量,所述目标数据包括所述目标帧语音和所述至少两帧上下文语音;基于所述目标数据的平均能量,得到所述目标帧语音的属性。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标数据的平均能量,得到所述目标帧语音的属性,包括:
在所述平均能量小于预设的能量门限的情况下,确定所述目标帧语音为静音帧;
在所述平均能量大于或等于预设的能量门限的情况下,确定所述目标帧语音为语音帧;
确定第一临界帧与第二临界帧之间的至少一帧语音为有效语音。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
在有效语音数据的发音序列中存在有与所述预定语音数据匹配的发音序列,确定所述语音输入数据中存在有所述预定语音数据。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
至少发送所述有效语音数据以获得基于所述有效语音数据而得到所述有效语音数据是否存在有所述预定语音数据的确定结果;
至少接收所述确定结果;
相应的,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
基于所述有效语音数据的属性和所述确定结果,确定所述语音输入数据中是否存在有所述预定语音数据。
6.根据权利要求1所述的方法,其特征在于,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
基于有效语音数据的属性确定所述语音输入数据中未存在有所述预定语音数据的情况下,丢弃或删除所述语音输入数据和/或所述有效语音;
基于有效语音数据的属性确定所述语音输入数据中存在有预定语音数据的情况下,向与所述电子设备进行通信的设备发送唤醒指令。
7.根据权利要求1所述的方法,其特征在于,在获得所述语音输入数据或所述有效语音之后,所述方法还包括:
删除所述语音输入数据或所述有效语音中的噪音数据。
8.根据权利要求7所述的方法,其特征在于,所述删除所述语音输入数据或所述有效语音中的噪音数据,包括:
利用所述语音输入数据或所述有效语音中的至少部分音频数据,获得噪音数据,进行所述语音输入数据或所述有效语音中的所述噪音数据的删除;其中,所述至少部分音频数据为所述语音输入数据或所述有效语音的前置音频、或者为所述语音输入数据或所述有效语音中位于所述预定语音数据之前的至少部分音频;
和/或,对所述语音输入数据或所述有效语音进行滤波。
9.一种语音识别方法,其特征在于,应用于服务器中,所述服务器能够与电子设备进行通信,所述方法包括:
至少接收有效语音数据,所述有效语音数据为所述电子设备依据语音输入数据中各帧语音的属性,以预定步长在所述语音输入数据中滑动预设的窗口,获得第一临界帧和第二临界帧之间的至少一帧数据;所述各帧语音的属性表征为相应帧为静音帧或语音帧;所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;
对所述有效语音数据进行预定语音数据的识别,所述预定语音数据为能够唤醒与所述电子设备进行通信的设备的数据;
根据识别结果,确定所述有效语音数据中是否存在所述预定语音数据。
10.根据权利要求9所述的方法,其特征在于,在根据识别结果,确定所述有效语音数据中未存在所述预定语音数据的情况下,所述方法还包括:
丢弃或删除所述有效语音数据。
11.一种语音识别方法,其特征在于,应用于语音检测系统,所述方法包括:
获得语音输入数据,所述语音输入数据包括N帧语音,N为大于1的正整数;
获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
依据语音输入数据中各帧语音的属性,以预定步长在所述语音输入数据中滑动预设的窗口,获得第一临界帧和第二临界帧之间的至少一帧语音;确定第一临界帧与第二临界帧之间的至少一帧语音为有效语音;所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;
传输所述有效语音。
12.根据权利要求11所述的方法,其特征在于,所述获得所述N帧语音中各帧语音的属性,包括:
针对所述N帧语音中的目标帧语音,所述目标帧语音为所述N帧语音中的任意一帧,
获得目标帧语音的能量;基于所述能量,得到所述目标帧语音的属性;
或者,获得所述目标帧语音的至少两帧上下文语音;获得目标数据的平均能量,所述目标数据包括所述目标帧语音和所述至少两帧上下文语音;基于所述目标数据的平均能量,得到所述目标帧语音的属性。
13.根据权利要求12所述的方法,其特征在于,所述基于所述目标数据的平均能量,得到所述目标帧语音的属性,包括:
在所述平均能量小于预设的能量门限的情况下,确定所述目标帧语音为静音帧;
在所述平均能量大于或等于预设的能量门限的情况下,确定所述目标帧语音为语音帧。
14.根据权利要求11所述的方法,其特征在于,在获得所述语音输入数据或所述有效语音之后,所述方法还包括:
删除所述语音输入数据或所述有效语音中的噪音数据。
15.根据权利要求14所述的方法,其特征在于,所述删除所述语音输入数据或所述有效语音中的噪音数据,包括:
利用所述语音输入数据或所述有效语音中的至少部分音频数据,获得噪音数据,进行所述语音输入数据或所述有效语音中的所述噪音数据的删除;其中,所述至少部分音频数据为所述语音输入数据或所述有效语音的前置音频、或者为所述语音输入数据或所述有效语音中位于所述预定语音数据之前的至少部分音频;
和/或,对所述语音输入数据或所述有效语音进行滤波。
16.一种语音识别方法,其特征在于,应用于唤醒系统,所述方法包括:
接收语音检测系统发送的有效语音;
所述有效语音,是语音检测系统依据语音输入数据中各帧语音的属性,以预定步长在所述语音输入数据中滑动预设的窗口,获得第一临界帧和第二临界帧之间的至少一帧语音;所述各帧语音的属性表征为相应帧为静音帧或语音帧;所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;
获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述唤醒系统进行通信的设备。
17.根据权利要求16所述的方法,其特征在于,所述获得有效语音的属性,包括:
获得组成所述有效语音数据的各个元素的发音信息,基于各个元素的发音信息,得到所述有效语音数据的发音序列;
相应的,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
判断在所述有效语音数据的发音序列中是否存在有与所述预定语音数据的发音序列相同的发音序列;
如果存在,则确认为所述语音输入数据中存在有所述预定语音数据。
18.根据权利要求16或17所述的方法,其特征在于,所述基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,包括:
基于有效语音数据的属性确定所述语音输入数据中未存在有所述预定语音数据的情况下,丢弃或删除所述语音输入数据和/或所述有效语音;
基于有效语音数据的属性确定所述语音输入数据中存在有预定语音数据的情况下,向与电子设备进行通信的设备发送唤醒指令。
19.一种电子设备,其特征在于,包括:
第一获得单元,用于获得语音输入数据,所述语音输入数据包括N帧语音,N为大于1的正整数;
第二获得单元,用于获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
第三获得单元,用于依据各帧语音的属性,以预定步长在所述语音输入数据中滑动预设的窗口,获得第一临界帧和第二临界帧之间的至少一帧语音;所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;确定第一临界帧与第二临界帧之间的至少一帧语音为有效语音;
第四获得单元,用于获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
确定单元,用于基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述电子设备进行通信的设备。
20.一种服务器,其特征在于,所述服务器能够与电子设备进行通信,所述服务器包括:
接收单元,用于至少接收有效语音数据,所述有效语音数据为所述电子设备依据语音输入数据中各帧语音的属性,以预定步长在所述语音输入数据中滑动预设的窗口,获得第一临界帧和第二临界帧之间的至少一帧语音;所述各帧语音的属性表征为相应帧为静音帧或语音帧;所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;
识别单元,用于对所述有效语音数据进行预定语音数据的识别,所述预定语音数据为能够唤醒与所述电子设备进行通信的设备的数据;
确定单元,用于根据识别结果,至少确定所述有效语音数据中是否存在所述预定语音数据。
21.一种语音检测系统,其特征在于,包括:
第一获得单元,用于获得语音输入数据,所述语音输入数据包括N帧语音,N为大于1的正整数;
第二获得单元,用于获得所述N帧语音中各帧语音的属性,所述各帧语音的属性表征为相应帧为静音帧或语音帧;
第三获得单元,用于依据各帧语音的属性,依据语音输入数据中各帧语音的属性,以预定步长在所述语音输入数据中滑动预设的窗口,获得第一临界帧和第二临界帧之间的至少一帧语音;所述各帧语音的属性表征为相应帧为静音帧或语音帧;所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;
确定第一临界帧与第二临界帧之间的至少一帧语音为有效语音;
传输单元,用于传输所述有效语音。
22.一种唤醒系统,其特征在于,包括:
接收单元,用于接收有效语音,所述有效语音是语音检测系统以预定步长在所述语音输入数据中滑动预设的窗口,其中所述窗口每活动预定步长位于所述窗口内的帧语音至少部分不同;
获得第一临界帧,所述第一临界帧为使得位于所述窗口内的多帧语音中为语音帧的数量达到第一阈值的帧数据;
获得第二临界帧,所述第二临界帧为使得位于在所述窗口内的多帧语音中为静音帧的数量达到第二阈值的帧数据;所述第一临界帧还表征为所述语音输入数据从静音状态切换到存在有输入语音状态的帧数据;所述第二临界帧还表征为从所述存在有输入语音状态切换到静音状态的帧数据;
确定第一临界帧与第二临界帧之间的至少一帧语音为有效语音;
获得单元,用于获得有效语音的属性,所述有效语音的属性表征为有效语音数据的发音特性;
确定单元,用于基于有效语音数据的属性,确定所述语音输入数据中是否存在有预定语音数据,所述预定语音数据至少用于唤醒能够与所述唤醒系统进行通信的设备。
23.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至8、权利要求9至10、权利要求11至15、和/或权利要求16至18任一所述方法的步骤。
24.一种语音识别设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8、权利要求9至10、权利要求11至15、和/或权利要求16至18任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882970.1A CN111739515B (zh) | 2019-09-18 | 2019-09-18 | 语音识别方法、设备、电子设备和服务器、相关系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910882970.1A CN111739515B (zh) | 2019-09-18 | 2019-09-18 | 语音识别方法、设备、电子设备和服务器、相关系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739515A CN111739515A (zh) | 2020-10-02 |
CN111739515B true CN111739515B (zh) | 2023-08-04 |
Family
ID=72646096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910882970.1A Active CN111739515B (zh) | 2019-09-18 | 2019-09-18 | 语音识别方法、设备、电子设备和服务器、相关系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739515B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112259114A (zh) * | 2020-10-20 | 2021-01-22 | 网易(杭州)网络有限公司 | 语音处理方法及装置、计算机存储介质、电子设备 |
CN116705025A (zh) * | 2023-08-02 | 2023-09-05 | 泉州市三川通讯技术股份有限责任公司 | 一种车载终端通信方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050143978A1 (en) * | 2001-12-05 | 2005-06-30 | France Telecom | Speech detection system in an audio signal in noisy surrounding |
CN1763844A (zh) * | 2004-10-18 | 2006-04-26 | 中国科学院声学研究所 | 基于滑动窗口的端点检测方法、装置和语音识别系统 |
US20130054236A1 (en) * | 2009-10-08 | 2013-02-28 | Telefonica, S.A. | Method for the detection of speech segments |
EP3002751A1 (en) * | 2008-07-11 | 2016-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding audio samples |
JP6266380B2 (ja) * | 2014-02-27 | 2018-01-24 | 大東精機株式会社 | H形鋼の開先加工方法及び開先加工装置 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108986822A (zh) * | 2018-08-31 | 2018-12-11 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及非暂态计算机存储介质 |
CN110232916A (zh) * | 2019-05-10 | 2019-09-13 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06266380A (ja) * | 1993-03-12 | 1994-09-22 | Toshiba Corp | 音声検出回路 |
-
2019
- 2019-09-18 CN CN201910882970.1A patent/CN111739515B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050143978A1 (en) * | 2001-12-05 | 2005-06-30 | France Telecom | Speech detection system in an audio signal in noisy surrounding |
CN1763844A (zh) * | 2004-10-18 | 2006-04-26 | 中国科学院声学研究所 | 基于滑动窗口的端点检测方法、装置和语音识别系统 |
EP3002751A1 (en) * | 2008-07-11 | 2016-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and decoder for encoding and decoding audio samples |
US20130054236A1 (en) * | 2009-10-08 | 2013-02-28 | Telefonica, S.A. | Method for the detection of speech segments |
JP6266380B2 (ja) * | 2014-02-27 | 2018-01-24 | 大東精機株式会社 | H形鋼の開先加工方法及び開先加工装置 |
CN108010515A (zh) * | 2017-11-21 | 2018-05-08 | 清华大学 | 一种语音端点检测和唤醒方法及装置 |
CN108986822A (zh) * | 2018-08-31 | 2018-12-11 | 出门问问信息科技有限公司 | 语音识别方法、装置、电子设备及非暂态计算机存储介质 |
CN110232916A (zh) * | 2019-05-10 | 2019-09-13 | 平安科技(深圳)有限公司 | 语音处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111739515A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534099B (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
CN109448719B (zh) | 神经网络模型建立方法及语音唤醒方法、装置、介质和设备 | |
US9899021B1 (en) | Stochastic modeling of user interactions with a detection system | |
CN105190746B (zh) | 用于检测目标关键词的方法和设备 | |
JP2019204073A (ja) | 音声区間の認識方法、装置及び機器 | |
CN112185352B (zh) | 语音识别方法、装置及电子设备 | |
US20180152163A1 (en) | Noise control method and device | |
CN110570840B (zh) | 一种基于人工智能的智能设备唤醒方法和装置 | |
CN110875059B (zh) | 收音结束的判断方法、装置以及储存装置 | |
CN108055617B (zh) | 一种麦克风的唤醒方法、装置、终端设备及存储介质 | |
CN112489648A (zh) | 唤醒处理阈值调整方法、语音家电、存储介质 | |
KR20180081922A (ko) | 전자 장치의 입력 음성에 대한 응답 방법 및 그 전자 장치 | |
CN110968353A (zh) | 中央处理器的唤醒方法、装置、语音处理器以及用户设备 | |
US11030994B2 (en) | Selective activation of smaller resource footprint automatic speech recognition engines by predicting a domain topic based on a time since a previous communication | |
CN111739515B (zh) | 语音识别方法、设备、电子设备和服务器、相关系统 | |
CN103514882A (zh) | 一种语音识别方法及系统 | |
CN111667843B (zh) | 终端设备的语音唤醒方法、系统、电子设备、存储介质 | |
CN110910885A (zh) | 基于解码网络的语音唤醒方法和装置 | |
CN110706691B (zh) | 语音验证方法及装置、电子设备和计算机可读存储介质 | |
CN111386566A (zh) | 设备控制方法、云端设备、智能设备、计算机介质及设备 | |
CN110992953A (zh) | 一种语音数据处理方法、装置、系统及存储介质 | |
CN110895930B (zh) | 语音识别方法及装置 | |
CN114333774A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN112863496B (zh) | 一种语音端点检测方法以及装置 | |
US10818298B2 (en) | Audio processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |