CN106601233A - 语音命令识别方法、装置及电子设备 - Google Patents
语音命令识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN106601233A CN106601233A CN201611199064.4A CN201611199064A CN106601233A CN 106601233 A CN106601233 A CN 106601233A CN 201611199064 A CN201611199064 A CN 201611199064A CN 106601233 A CN106601233 A CN 106601233A
- Authority
- CN
- China
- Prior art keywords
- voice
- voice command
- threshold
- speech data
- short
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 claims description 10
- 238000009432 framing Methods 0.000 claims description 3
- 238000000926 separation method Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- KLDZYURQCUYZBL-UHFFFAOYSA-N 2-[3-[(2-hydroxyphenyl)methylideneamino]propyliminomethyl]phenol Chemical compound OC1=CC=CC=C1C=NCCCN=CC1=CC=CC=C1O KLDZYURQCUYZBL-UHFFFAOYSA-N 0.000 description 1
- 241000214155 Anacrusis Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 201000001098 delayed sleep phase syndrome Diseases 0.000 description 1
- 208000033921 delayed sleep phase type circadian rhythm sleep disease Diseases 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
- G10L2025/937—Signal energy in various frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开涉及一种语音命令识别方法、装置及电子设备。该语音命令识别方法包括:接收语音数据,所述语音数据包括预设条数的语音命令;获取所述语音数据的短时能量值;根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;拼接相同预设阈值范围内的语音段获得至少一条语音命令。本公开可以实现交织语音命令的分离。
Description
技术领域
本公开涉及语音信号处理技术领域,具体而言,涉及一种语音命令识别方法、装置及电子设备。
背景技术
语音信号处理的应用大致有语音输入和语音命令两个方向。由于语音命令的识别准确率相对较高、应用场景众多而得到广泛应用。
暗号是自古以来通用的一种安全保密措施,复杂的暗号可以加入轻读、重读等信息加以区分。例如,“我们南后向买西”这句话,按重读标记(加粗文字下面的黑圆点)可以取得一条隐含的内容为“到湖北再去东”,这句话中一条有效语音命令和其他的无效语音命令以交织形式出现。再例如,“小心气水凉”这句话,按重读标记可以得到一条隐含的内容为“今天有雨”,而不重读的部分可以得到另一条隐含的内容为“小心汽(音译)水凉”,即根据一句话可以得到两句识别结果,这句话中两条有效语音命令以交织形式出现。
而现有技术中的语音命令识别技术通常只针对一句完整的语音数据进行识别,即把一次语音输入只看作是一条语音命令,而没有针对暗号式交织内容组成的语音命令进行分辨的能力,只能将整句话全部分析。因此,现有技术中的技术方案还存在有待改进之处。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种语音命令识别方法、装置及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
本公开的其他特性和优点将通过下面的详细描述变得清晰,或者部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种语音命令识别方法,包括:
接收语音数据,所述语音数据包括预设条数的语音命令;
获取所述语音数据的短时能量值;
根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;
拼接相同预设阈值范围内的语音段获得至少一条语音命令。
在本公开的一种示例性实施例中,所述语音命令识别方法还包括:
识别所述至少一条语音命令。
在本公开的一种示例性实施例中,所述获取所述语音数据的短时能量值包括:
对所述语音数据进行分帧处理后得到预设帧长的n帧语音信号;
获得所述预设帧长的n帧语音信号的平均短时能量值。
在本公开的一种示例性实施例中,所述预设阈值包括第一阈值和第二阈值,其中所述第二阈值大于所述第一阈值。
在本公开的一种示例性实施例中,所述预设阈值还包括第三阈值,其中所述第三阈值大于所述第二阈值。
在本公开的一种示例性实施例中,所述根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段包括:
以所述平均短时能量值大于所述第二阈值的点为参考点,分别向左和向右查找不小于且最近所述第一阈值的第一点和第二点;
以所述第一点和所述第二点区间内的平均短时能量段所对应的语音数据作为大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段。
在本公开的一种示例性实施例中,所述拼接相同预设阈值范围内的语音段获得至少一条语音命令包括:
拼接大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段获得第一条语音命令。
根据本公开的一个方面,提供一种语音命令识别装置,包括:
语音数据接收模块,用于接收语音数据,所述语音数据包括预设条数的语音命令;
短时能量获取模块,用于获取所述语音数据的短时能量值;
语音段划分模块,用于根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;
语音命令拼接模块,用于拼接相同预设阈值范围内的语音段获得至少一条语音命令。
在本公开的一种示例性实施例中,所述语音命令识别装置还包括:
识别模块,用于识别所述至少一条语音命令。
在本公开的一种示例性实施例中,所述短时能量获取模块包括:
分帧单元,用于对所述语音数据进行分帧处理后得到预设帧长的n帧语音信号;
平均短时能量获取单元,用于获得所述预设帧长的n帧语音信号的平均短时能量值。
在本公开的一种示例性实施例中,所述预设阈值包括第一阈值和第二阈值,其中所述第二阈值大于所述第一阈值。
在本公开的一种示例性实施例中,所述预设阈值还包括第三阈值,其中所述第三阈值大于所述第二阈值。
在本公开的一种示例性实施例中,所述语音段划分模块包括:
查找单元,用于以所述平均短时能量值大于所述第二阈值的点为参考点,分别向左和向右查找不小于且最近所述第一阈值的第一点和第二点;
语音段划分单元,用于以所述第一点和所述第二点区间内的平均短时能量段所对应的语音数据作为大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段。
在本公开的一种示例性实施例中,所述语音命令拼接模块包括:
第一拼接单元,用于拼接所大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段获得第一条语音命令。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中所述处理器配置为经由执行所述可执行指令来执行以下操作:
接收语音数据,所述语音数据包括预设条数的语音命令;
获取所述语音数据的短时能量值;
根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;
拼接相同预设阈值范围内的语音段获得至少一条语音命令。
本公开实施方式所提供的语音命令识别方法、装置及电子设备中,通过计算语音数据的短时能量值及阈值的设置,能够分离出交织形式的语音数据中的语音命令,可以实现以暗号形式传输语音数据,起到一定的保密作用。因此,相比于现有技术,在示例性实施例中的语音命令识别方案可以实现更高的安全性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开示例性实施例中一种语音命令识别方法的流程示意图。
图2为本公开示例性实施例中一种语音时域信号波形示意图。
图3为图2所示的语音时域信号的帧长为200时的平均短时能量谱示意图。
图4为基于图3所示的平均短时能量谱截取语音段的示意图。
图5为图4所示的虚线圆形内的局部放大示意图。
图6为本公开示例性实施例中一种语音命令识别装置的方框示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在示例性实施例中首先提供了一种语音命令识别方法,可以应用于一电子设备。在示例性实施例中,所述电子设备例如可以为手机、平板电脑以及PDA等。所述电子设备操作系统可以为Android操作系统,也可以为iOS、Windows等其他操作系统,本示例性实施例中对此不做特殊限定。参考图1中所示,在示例性实施例中,所述语音命令识别方法可以包括以下步骤:
步骤S110.接收语音数据,所述语音数据包括预设条数的语音命令。
在示例性实施例中,接收的所述语音数据中是以交织形式存在至少一条语音命令的。在一实施例中,所述语音数据可以包括有效语音数据与无效语音数据两部分。其中所述有效语音数据为包括语音命令的语音数据部分,所述无效语音数据为所述语音数据中夹杂的背景噪声以及所述语音数据中的非语音命令的语音数据部分。
其中,当所述语音数据中仅存在一条语音命令时,所述语音数据中的语音命令和非语音命令以交织形式交替出现。例如,假设该语音数据中的重读语音段可以拼接组成一条语音命令,识别时仅识别出该一条语音命令即可;而其他语音段是非语音命令,可以不对其进行拼接。
当所述语音数据中存在两条语音命令时,又可以分为两种情形。一种是该语音数据中只包括两条语音命令,不包括非语音命令。例如,假设该语音数据中的重读语音段可以拼接组成第一条语音命令,该语音数据中的轻读语音段/非重读语音段还可以拼接组成第二条语音命令。另一种是该语音数据中除了该两条语音命令外,还可以包括非语音命令。这种情形下,不仅需要将该两条语音命令分离开,还需要将该两条语音命令与非语音命令分离开。识别时分别识别出该第一条语音命令和该第二条语音命令。
在示例性实施例中,所述预设条数不仅限于上述例举的一条或者两条,其可以是任意多条,本公开对此不作限定。
步骤S120.获取所述语音数据的短时能量值。
由于语音信号本身的特点,在10-30ms的短时间范围内,其特性可以看作是一个准稳态过程,即具有短时性。
在示例性实施例中,所述获取所述语音数据的短时能量值包括:对所述语音数据进行分帧处理后得到预设帧长的n帧语音信号;获得所述预设帧长的n帧语音信号的平均短时能量值。
其中,所述语音数据的短时能量定义为:设语音时域信号为x(l),加窗分帧处理后得到第n帧语音信号为xn(m),则xn(m)满足下式:
xn(m)=w(m)x(n+m) (1)
其中,0≤m≤N-1,w(m)为窗函数:
其中,n=0,1T,2T,...,并且N为帧长,T为帧移长度。
假设第n帧语音信号xn(m)的短时能量用En表示,则其计算公式如下所示:`
以“们工农子弟”这句话为例,如图2所示为该语音时域信号的波形示意图。图2的横坐标是时间,单位是毫秒,纵坐标是采样值,是对应语音数据的声强的动态范围,通常对应0-96dB,示图精度为16位。
正如前面提到,语音信号在10-30ms具有短时性,在此区间内的帧视作具有短时性的片段,因此在对语音信号进行分析时,可以将语音信号以10-30ms中的任意一选定的时间间隔(例如20ms,但不限定于此)为一段分为若干帧来进行分析。而可分析的数据个数是由设定的时间间隔和帧率决定的,即时间间隔乘以帧率。时间间隔在10-30ms之间,而帧率为语音数据回放时的单位时间播放帧数,可依采样频率而定,如果保持同速则与采样频率一致。
在示例性实施例中,在计算短时能量之前,还可以先将语音信号通过一个一阶高通滤波器进行预加重,主要是去除低频干扰。而后使幅度归一化求其短时能量值。
图3所示为基于图2所示的语音时域信号的N=1、n=200时的平均短时能量示意图。其横坐标是帧,纵坐标是帧所对应平均短时能量值。
将各帧的采样值代入上面的公式,即每间隔200帧将200帧的能量值求和取平均值,即为X200的平均短时能量值。
即,由上述公式(3)可得X200的短时能量值为:
则X200的平均短时能量值为:
同样X400的平均短时能量值为200-399帧时的能量值求和取平均值。与上述计算类似的,可求得为简化计算,可只取整数倍的平均能量值,即等等,但本公开不限定于此。
步骤S130.根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段。
在示例性实施例中,所述预设阈值的设定可以为多个。其中所述预设阈值的数目可以根据当前需要识别的语音数据中包括的语音命令的条数来设置。
例如,当该语音数据中仅包括一条或者两条语音命令时,可以设置一第二阈值,也可以设置一第一阈值和一第二阈值,第二阈值可以大于第一阈值。其中该第二阈值可以用于区分该语音数据中的重读与轻读语音段,例如大于等于该第二阈值的为重读语音段,而小于该第二阈值且大于该第一阈值的为轻读语音段。其中该第一阈值可以作为信噪分界点,即该第一阈值以上部分为非噪声部分,而该第一阈值以下部分假设为噪声部分。该第二阈值的选择会影响交织语音命令的分离,而该第一阈值的选择会影响语音识别的准确度和速度。
在其他示例性实施例中,如果有多于两条语音命令交织在一起,可以设置最下(最小)的预设阈值为信噪分界点,而每一对相邻的上下预设阈值对包含相应声强的语音段,这样可以细分出更多语音命令。例如一条语音数据中包括K条有效的语音命令,则可以设置K+1个阈值,假设第j个阈值小于第j+1个阈值(1≤j≤K),则第1个阈值为信噪分界点,小于第1个阈值的语音段被丢弃;小于第j+1个阈值同时大于第j个阈值(1≤j≤K-1)的语音段被划分为第j(1≤j≤K)条语音命令中的语音段。
下面的实施例中以两个阈值、语音数据中包括一条或者两条语音命令为例进行说明。
在示例性实施例中,所述预设阈值可包括第一阈值和第二阈值,其中所述第二阈值大于所述第一阈值。
为短时能量确定两个门限,一个是较低的门限(第一阈值或者称为下阈值),其数值较小,对信号的变化比较敏感,很容易就会被超过,低门限被超过有可能是时间很短的噪声引起的,超过第一阈值的可以认为是语音段。另一个是较高的门限(第二阈值或者称为上阈值),数值较大,信号必须达到一定的强度,该门限才可能被超过,高门限被超过则可以基本确定是由语音信号引起的。在一实施例中,超过第二阈值的可认为是重读的语音段。
其中阈值的选择方法可以依经验设定,也可动态选择。比如下阈值可选择为40000,上阈值可选择为需处理完整语音数据的平均短时能量值的算术平均值的5倍等。可参考图3,获取平均短时能量曲线上的所有平均短时能量值求和,再除以平均短时能量值总个数得其平均短时能量值的算术平均值。但本公开对此不作限定,平均短时能量值的算术平均值的5倍选择作为上阈值仅为示例性经验值,用较简单的方式区分重读语音信号与非重读语音信号。
需要说明的是,选用平均短时能量值的算术平均值的5倍也是出于动态调整阈值的考虑,也就是说第二阈值可以针对每一段语音信号单独决定,这样可在声音强弱差异不剧烈时也能找到合适的第二阈值。此为第二阈值的一种设定方案,不强制规定,也可以使用固定值作第二阈值。
在示例性实施例中,所述根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段包括:以所述平均短时能量值大于所述第二阈值的点为参考点,分别向左和向右查找不小于且最接近所述第一阈值的第一点和第二点;以所述第一点和所述第二点区间内的平均短时能量段所对应的语音数据作为大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段。
参考图4,平均短时能量值大于下阈值且存在大于等于所述上阈值的至少一个点的区域为所需截取的语音平均短时能量段(称为有效区域)。截取方法如图5所示,以超过上阈值的点为参考点C,分别向左、向右查找不小于且最接近下阈值的两个点L和R,而所得最接近参考点C的两个不小于且最接近下阈值的两个点L,R区间[L,R]内的平均短时能量段作为大于所述第一阈值且存在大于等于所述参考点的至少一个点的一语音段。
步骤S140.拼接相同预设阈值范围内的语音段获得至少一条语音命令。
在示例性实施例中,当所述语音数据中仅存在一条语音命令时,所述拼接相同预设阈值范围内的语音段获得至少一条语音命令可包括:拼接大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段获得第一条语音命令。
在示例性实施例中,当所述语音数据中存在二条语音命令时,所述拼接相同预设阈值范围内的语音段获得至少一条语音命令可包括:首先拼接有效区域中所述第二阈值以上的其他语音段获得第二条语音命令,即假设有效区域中中大于所述第二阈值的语音段为重读语音段,将语音数据中的重读语音段拼接成第二条语音命令;然后再拼接有效区域中所述第一阈值与所述第二阈值间的语音段获得第一条语音命令,即有效区域中大于等于所述第一阈值同时小于等于所述第二阈值的语音段按顺序拼接成第一条语音命令。本实施例中,有效区域是指:平均短时能量值大于第一阈值且存在大于等于第二阈值的至少一个点的区域为所述有效区域。
需要说明的是,上述实施例中需要先确定重读语音段部分,然后再确定轻读语音段部分,因为重读语音段是含有大于或者等于第二阈值的最大连续有效语音段,即包含相邻的小于等于第二阈值且大于等于第一阈值的部分,而不是简单地将第二阈值看作是重读语音段的取值界限,第一阈值却是比较严格的信噪分界点。这是因为每个词甚至每个字都是有平均短时能量值小于第二阈值的时候,正常人发音是不可能一直保证声强很大的。
在示例性实施例中,所述预设阈值还可包括第三阈值,其中所述第三阈值大于所述第二阈值。此时,所述拼接相同预设阈值范围内的语音段获得至少一条语音命令可包括:首先拼接有效区域中所述第三阈值以上的语音段获得第三条语音命令;然后拼接有效区域中所述第二阈值与所述第三阈值间的语音段获得第二条语音命令;接着拼接有效区域中所述第一阈值与所述第二阈值间的语音段获得第一条语音命令。本实施例中,有效区域是指:平均短时能量值大于第一阈值且存在大于等于第三阈值的至少一个点的区域为所述有效区域。在其他实施例中,可以设置更多的预设阈值,并拼接出更多条语音命令,方式可以此类推,在此不再详述。
需要说明的是,上述实施例中需要先根据第一阈值和第K+1个阈值找出有效区域,然后在该有效区域中再区分第一至第K条语音命令的处理过程中,应当是从上而下的,即越上(或者越大)的阈值优先处理,越小的阈值最后处理。这是因为语音段具有一定的连续性,以信噪分界点为分界是为了保证一段语音(可能是一个字或者一个词)的完整性,只取声强最大的语音段部分有可能会影响识别的准确度,也会影响剩余部分的语音识别率。
为了实现语音命令的识别,在示例性实施例中所述语音命令识别方法还可以包括步骤:识别所述至少一条语音命令。
将拼接后的平均短时能量段所对应的语音命令进行识别,得到最终结果。
在示例性实施例中,语音命令的识别可以采用如下方法:穷举语音命令,依其特征码进行比对。具体可以包括:收集所有需要的语音命令,并依据其短时能量特点计算特征码并保存在特征码库中;在识别时计算出待处理语音命令的特征码,并将其与特征码库进行比对,选取差异最小的为识别结果。
进一步的,在示例性实施例中还可以根据语音频谱分析识别出语音命令。具体可以包括:根据语音频谱分析结果,得出具体音节的识别结果,可以分析到单音节,从而组合成单字、词、短语。
上述语音命令的识别方法并不限于以上所例举的两种方法,其可以采用现有的任意一种语音命令识别方法,本公开对此不作限定。其具体识别方法可以参考现有技术的方案,在此不再详述。
综上所述,本示例实施方式所提供的语音命令识别方法中根据语音数据取得短时能量值,根据预设命令条数设置相应的多个阈值,根据短时能量值和阈值取得相应阈值范围内的语音段,将相同阈值范围内的语音段拼接成若干新的语音命令,将这些语音命令分别识别,可得最终的识别结果,从而实现将交织而成的语音信号分解成多个所需要的语音命令,识别出暗号式语音令的真实意图。
进一步的,在示例性实施例中还提供了一种语音命令识别装置,可以应用于一电子设备。参考图6中所示,所述语音命令识别装置100可以包括语音数据接收模块110、短时能量获取模块120、语音段划分模块130以及语音命令拼接模块140。其中:
语音数据接收模块110可以用于接收语音数据,所述语音数据包括预设条数的语音命令。
短时能量获取模块120可以用于获取所述语音数据的短时能量值。
语音段划分模块130可以用于根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段。
语音命令拼接模块140可以用于拼接相同预设阈值范围内的语音段获得至少一条语音命令。
在在示例性实施例中,所述语音命令识别装置还可以包括识别模块。其中:识别模块可以用于识别所述至少一条语音命令。
在示例性实施例中,所述短时能量获取模块120可以包括:分帧单元,用于对所述语音数据进行分帧处理后得到预设帧长的n帧语音信号;平均短时能量获取单元,用于获得所述预设帧长的n帧语音信号的平均短时能量值。
在示例性实施例中,所述预设阈值包括第一阈值和第二阈值,其中所述第二阈值大于所述第一阈值。
在示例性实施例中,所述语音段划分模块130可以包括:查找单元,用于以所述平均短时能量值大于所述第二阈值的点为参考点,分别向左和向右查找不小于且最接近所述第一阈值的第一点和第二点;语音段划分单元,用于以所述第一点和所述第二点区间内的平均短时能量段所对应的语音数据作为大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段。
在示例性实施例中,所述语音命令拼接模块140可以包括:第一拼接单元,用于拼接大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段获得第一条语音命令。
上述语音命令识别装置中各模块/单元的具体细节已经在对应的语音命令识别方法中进行了详细的描述,因此此处不再赘述。
本公开的语音命令识别装置,根据短时能量强度的强弱,区分语音信号中的重读与轻读部分;根据区分出的重读与轻读部分拼接成相应的语音命令,可简单有效地实现交织语音命令的分离,从而达到多条交织语音命令识别的目的,起到一定的保密作用。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
进一步的,本公开示例实施方式还提供了一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令。其中所述处理器配置为经由执行所述可执行指令来执行以下操作:接收语音数据,所述语音数据包括预设条数的语音命令;获取所述语音数据的短时能量值;根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;拼接相同预设阈值范围内的语音段获得至少一条语音命令。
在示例性实施例中,电子设备可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由电子设备的处理器执行以完成在示例性实施例中的上述技术方案。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (15)
1.一种语音命令识别方法,其特征在于,包括:
接收语音数据,所述语音数据包括预设条数的语音命令;
获取所述语音数据的短时能量值;
根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;
拼接相同预设阈值范围内的语音段获得至少一条语音命令。
2.根据权利要求1所述的语音命令识别方法,其特征在于,所述语音命令识别方法还包括:
识别所述至少一条语音命令。
3.根据权利要求1所述的语音命令识别方法,其特征在于,所述获取所述语音数据的短时能量值包括:
对所述语音数据进行分帧处理后得到预设帧长的n帧语音信号;
获得所述预设帧长的n帧语音信号的平均短时能量值。
4.根据权利要求3所述的语音命令识别方法,其特征在于,所述预设阈值包括第一阈值和第二阈值,其中所述第二阈值大于所述第一阈值。
5.根据权利要求4所述的语音命令识别方法,其特征在于,所述预设阈值还包括第三阈值,其中所述第三阈值大于所述第二阈值。
6.根据权利要求4所述的语音命令识别方法,其特征在于,所述根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段包括:
以所述平均短时能量值大于所述第二阈值的点为参考点,分别向左和向右查找不小于且最近所述第一阈值的第一点和第二点;
以所述第一点和所述第二点区间内的平均短时能量段所对应的语音数据作为大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段。
7.根据权利要求6所述的语音命令识别方法,其特征在于,所述拼接相同预设阈值范围内的语音段获得至少一条语音命令包括:
拼接大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段获得第一条语音命令。
8.一种语音命令识别装置,其特征在于,包括:
语音数据接收模块,用于接收语音数据,所述语音数据包括预设条数的语音命令;
短时能量获取模块,用于获取所述语音数据的短时能量值;
语音段划分模块,用于根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;
语音命令拼接模块,用于拼接相同预设阈值范围内的语音段获得至少一条语音命令。
9.根据权利要求8所述的语音命令识别装置,其特征在于,所述语音命令识别装置还包括:
识别模块,用于识别所述至少一条语音命令。
10.根据权利要求8所述的语音命令识别装置,其特征在于,所述短时能量获取模块包括:
分帧单元,用于对所述语音数据进行分帧处理后得到预设帧长的n帧语音信号;
平均短时能量获取单元,用于获得所述预设帧长的n帧语音信号的平均短时能量值。
11.根据权利要求10所述的语音命令识别装置,其特征在于,所述预设阈值包括第一阈值和第二阈值,其中所述第二阈值大于所述第一阈值。
12.根据权利要求11所述的语音命令识别装置,其特征在于,所述预设阈值还包括第三阈值,其中所述第三阈值大于所述第二阈值。
13.根据权利要求11所述的语音命令识别装置,其特征在于,所述语音段划分模块包括:
查找单元,用于以所述平均短时能量值大于所述第二阈值的点为参考点,分别向左和向右查找不小于且最近所述第一阈值的第一点和第二点;
语音段划分单元,用于以所述第一点和所述第二点区间内的平均短时能量段所对应的语音数据作为大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段。
14.根据权利要求13所述的语音命令识别装置,其特征在于,所述语音命令拼接模块包括:
第一拼接单元,用于拼接大于所述第一阈值且存在大于等于所述参考点的至少一个点的语音段获得第一条语音命令。
15.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中所述处理器配置为经由执行所述可执行指令来执行以下操作:
接收语音数据,所述语音数据包括预设条数的语音命令;
获取所述语音数据的短时能量值;
根据预设阈值和所述短时能量值将所述语音数据划分为对应预设阈值范围内的语音段;
拼接相同预设阈值范围内的语音段获得至少一条语音命令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611199064.4A CN106601233A (zh) | 2016-12-22 | 2016-12-22 | 语音命令识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611199064.4A CN106601233A (zh) | 2016-12-22 | 2016-12-22 | 语音命令识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106601233A true CN106601233A (zh) | 2017-04-26 |
Family
ID=58602660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611199064.4A Pending CN106601233A (zh) | 2016-12-22 | 2016-12-22 | 语音命令识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106601233A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172219A (zh) * | 2017-11-14 | 2018-06-15 | 珠海格力电器股份有限公司 | 识别语音的方法和装置 |
CN109147831A (zh) * | 2018-09-26 | 2019-01-04 | 深圳壹账通智能科技有限公司 | 一种语音连接播放方法、终端设备及计算机可读存储介质 |
CN110225444A (zh) * | 2019-06-14 | 2019-09-10 | 四川长虹电器股份有限公司 | 一种麦克风阵列系统的故障检测方法及其检测系统 |
CN110853631A (zh) * | 2018-08-02 | 2020-02-28 | 珠海格力电器股份有限公司 | 智能家居的语音识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604521A (zh) * | 2008-06-12 | 2009-12-16 | Lg电子株式会社 | 移动终端和用于识别其语音的方法 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
CN103366739A (zh) * | 2012-03-28 | 2013-10-23 | 郑州市科学技术情报研究所 | 面向孤立词语音识别的自适应端点检测方法及其系统 |
KR20150011854A (ko) * | 2013-06-27 | 2015-02-03 | 고려대학교 산학협력단 | 소음이 발생되는 환경에서 소음을 제거하는 사운드 획득 시스템 |
-
2016
- 2016-12-22 CN CN201611199064.4A patent/CN106601233A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101604521A (zh) * | 2008-06-12 | 2009-12-16 | Lg电子株式会社 | 移动终端和用于识别其语音的方法 |
CN101625857A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 一种自适应的语音端点检测方法 |
CN103366739A (zh) * | 2012-03-28 | 2013-10-23 | 郑州市科学技术情报研究所 | 面向孤立词语音识别的自适应端点检测方法及其系统 |
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
KR20150011854A (ko) * | 2013-06-27 | 2015-02-03 | 고려대학교 산학협력단 | 소음이 발생되는 환경에서 소음을 제거하는 사운드 획득 시스템 |
Non-Patent Citations (1)
Title |
---|
曹强: "《数字音频规范与程序设计 基于Visual C++开发》", 30 June 2012, 中国水利水电出版社 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108172219A (zh) * | 2017-11-14 | 2018-06-15 | 珠海格力电器股份有限公司 | 识别语音的方法和装置 |
CN108172219B (zh) * | 2017-11-14 | 2021-02-26 | 珠海格力电器股份有限公司 | 识别语音的方法和装置 |
CN110853631A (zh) * | 2018-08-02 | 2020-02-28 | 珠海格力电器股份有限公司 | 智能家居的语音识别方法及装置 |
CN109147831A (zh) * | 2018-09-26 | 2019-01-04 | 深圳壹账通智能科技有限公司 | 一种语音连接播放方法、终端设备及计算机可读存储介质 |
CN110225444A (zh) * | 2019-06-14 | 2019-09-10 | 四川长虹电器股份有限公司 | 一种麦克风阵列系统的故障检测方法及其检测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105938716B (zh) | 一种基于多精度拟合的样本复制语音自动检测方法 | |
US9484036B2 (en) | Method and apparatus for detecting synthesized speech | |
US20180374487A1 (en) | Detection of replay attack | |
CN111429938B (zh) | 一种单通道语音分离方法、装置及电子设备 | |
CN103578468B (zh) | 一种语音识别中置信度阈值的调整方法及电子设备 | |
CN106601233A (zh) | 语音命令识别方法、装置及电子设备 | |
Evangelopoulos et al. | Multiband modulation energy tracking for noisy speech detection | |
KR20170087390A (ko) | 음성 웨이크업 방법 및 장치 | |
US8326610B2 (en) | Producing phonitos based on feature vectors | |
Venter et al. | Automatic detection of African elephant (Loxodonta africana) infrasonic vocalisations from recordings | |
CN108597505A (zh) | 语音识别方法、装置及终端设备 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN110265035A (zh) | 一种基于深度学习的说话人识别方法 | |
CN109147798A (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN105825857A (zh) | 基于声纹识别帮助失聪患者判断声音类别的方法 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
US11120795B2 (en) | Noise cancellation | |
US7299173B2 (en) | Method and apparatus for speech detection using time-frequency variance | |
Varela et al. | Combining pulse-based features for rejecting far-field speech in a HMM-based voice activity detector | |
KR101621780B1 (ko) | 차신호 주파수 프레임 비교법에 의한 음주 판별 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
CN112216285B (zh) | 多人会话检测方法、系统、移动终端及存储介质 | |
CN109271480A (zh) | 一种语音搜题方法及电子设备 | |
Sundaram et al. | Usable Speech Detection Using Linear Predictive Analysis–A Model-Based Approach | |
KR20180101057A (ko) | 잡음에 강인한 음성 구간 검출 방법 및 장치 | |
KR20130011002A (ko) | 음성 신호를 이용하여 사용자의 성격을 판단하는 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170426 |
|
RJ01 | Rejection of invention patent application after publication |