CN116913258B - 语音信号识别方法、装置、电子设备和计算机可读介质 - Google Patents
语音信号识别方法、装置、电子设备和计算机可读介质 Download PDFInfo
- Publication number
- CN116913258B CN116913258B CN202311154546.8A CN202311154546A CN116913258B CN 116913258 B CN116913258 B CN 116913258B CN 202311154546 A CN202311154546 A CN 202311154546A CN 116913258 B CN116913258 B CN 116913258B
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- sequence
- voice signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012545 processing Methods 0.000 claims abstract description 94
- 239000013598 vector Substances 0.000 claims abstract description 85
- 230000009466 transformation Effects 0.000 claims abstract description 32
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 230000009467 reduction Effects 0.000 claims abstract description 14
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 67
- 238000009432 framing Methods 0.000 claims description 33
- 238000001514 detection method Methods 0.000 claims description 29
- 238000001228 spectrum Methods 0.000 claims description 28
- 230000037433 frameshift Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 13
- 230000004044 response Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000005457 optimization Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 230000003068 static effect Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000009499 grossing Methods 0.000 description 8
- 238000005520 cutting process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 239000002699 waste material Substances 0.000 description 6
- 230000000694 effects Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 238000011946 reduction process Methods 0.000 description 3
- 238000013144 data compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000009751 slip forming Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本公开的实施例公开了语音信号识别方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括:采集用户的语音信号;对语音信号进行预处理,得到预处理后语音信号;对预处理后语音信号进行频域变换处理,以生成语音频谱图;根据语音频谱图,生成语音能量谱图;根据语音能量谱图,生成对数能量谱图;对对数能量谱图进行时域变换处理,得到特征参数序列;根据特征参数序列,确定差分特征参数序列;生成更新差分序列;根据更新差分序列,生成语音特征向量;对语音特征向量进行降维处理,以生成低维语音特征向量;将低维语音特征向量输入至语音信号识别模型中,得到语音信号识别结果。该实施方式可以提高语音信号识别的准确率。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及语音信号识别方法、装置、电子设备和计算机可读介质。
背景技术
语音识别又称说话人识别,通过分析语音波形来提取出能够体现说话人生物特征的语音参数,并由此参数对说话人进行识别。目前,在对语音信号进行识别操作时,通常采用的方式为:通过语音信号采集设备进行语音信号采集,以及对采集的语音信号进行静态特征提取,并基于静态特征进行语音识别。
然而,发明人发现,当采用上述方式对语音信号进行识别操作时,经常会存在如下技术问题:
第一,在进行语音识别的过程中,仅对语音信号的静态特征进行特征提取并识别,导致语音信号识别的准确率较低。
第二,在对采集的语音信号进行语音识别的过程中,未考虑到采集的语音不是活体真人的情况,导致语音信号识别的抗干扰性较弱,语音信号识别的错误率较高。
第三,在对语音信号进行语音识别的过程中,对采集的所有信号进行识别,导致进行语音信号识别的处理器处理的语音量较大,从而造成处理器资源的浪费,同时造成语音识别的时间较长,识别效率较低。该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解,并因此,其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的内容部分用于以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开的一些实施例提出了语音信号识别方法、装置、电子设备和计算机可读介质,来解决以上背景技术部分提到的技术问题中的一项或多项。
第一方面,本公开的一些实施例提供了一种语音信号识别方法,该方法包括:通过相关联的语音信号采集装置采集用户的语音信号;对上述语音信号进行预处理,得到预处理后语音信号;对上述预处理后语音信号进行频域变换处理,以生成语音频谱图;根据上述语音频谱图,生成语音能量谱图;根据上述语音能量谱图,生成对数能量谱图;对上述对数能量谱图进行时域变换处理,得到特征参数序列;根据上述特征参数序列,确定差分特征参数序列;根据上述特征参数序列和差分特征参数序列,生成更新差分序列;根据上述更新差分序列,生成语音特征向量;对上述语音特征向量进行降维处理,以生成低维语音特征向量;将上述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
第二方面,本公开的一些实施例提供了一种语音信号识别装置,装置包括:采集单元,被配置成通过相关联的语音信号采集装置采集用户的语音信号;预处理单元,被配置成对上述语音信号进行预处理,得到预处理后语音信号;第一变换处理单元,被配置成对上述预处理后语音信号进行频域变换处理,以生成语音频谱图;第一生成单元,被配置成根据上述语音频谱图,生成语音能量谱图;第二生成单元,被配置成根据上述语音能量谱图,生成对数能量谱图;第二变换处理单元,被配置成对上述对数能量谱图进行时域变换处理,得到特征参数序列;确定单元,被配置成根据上述特征参数序列,确定差分特征参数序列;第三生成单元,被配置成根据上述特征参数序列和差分特征参数序列,生成更新差分序列;第四生成单元,被配置成根据上述更新差分序列,生成语音特征向量;降维单元,被配置成对上述语音特征向量进行降维处理,以生成低维语音特征向量;输入单元,被配置成将上述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
第三方面,本公开的一些实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。
第四方面,本公开的一些实施例提供了一种计算机可读介质,其上存储有计算机程序,其中,程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的语音信号识别方法,可以提高语音信号识别的准确率。具体来说,导致语音信号识别的准确率较低的原因在于:在进行语音识别的过程中,仅对语音信号的静态特征进行特征提取并识别,导致语音信号识别的准确率较低。基于此,本公开的一些实施例的语音信号识别方法,首先,通过相关联的语音信号采集装置采集用户的语音信号。由此,可以得到用户的语音信号,从而可以通过语音信号识别用户身份。然后,对上述语音信号进行预处理,得到预处理后语音信号。由此,可以得到去噪处理和有效语音信号保留的预处理后语音信号,从而可以用于提高语音信号识别的抗干扰能力。之后,对上述预处理后语音信号进行频域变换处理,以生成语音频谱图。由此,可以得到表征语音信号频域数据信息的语音频谱图,从而可以更方便地对语音信号的特征进行提取。随后,根据上述语音频谱图,生成语音能量谱图。由此,可以得到表征语音信号能量强度的语音能量谱图。随之,根据上述语音能量谱图,生成对数能量谱图。由此,可以得到对数变换后的对数能量谱图。其次,对上述对数能量谱图进行时域变换处理,得到特征参数序列。由此,可以得到表征语音信号静态特征的特征参数序列。然后,根据上述特征参数序列,确定差分特征参数序列。由此,可得到表征语音信号动态特征的差分特征参数序列。之后,根据上述特征参数序列和差分特征参数序列,生成更新差分序列。随后,根据上述更新差分序列,生成语音特征向量。由此,可以得到语音特征向量,从而可以将不等长的语音数据进行统一数据压缩,得到更有区分度的语音信号特征向量。随之,对上述高级语音特征向量进行降维处理,以生成低维语音特征向量。由此,可以得到进行低维空间映射的低维语音特征向量。最后,将上述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。由此,可以得到语音信号识别结果。从而可以用于区分用户是否是目标用户。也因为通过确定表征语音信号静态特征的特征参数序列,可以确定表征语音信号动态特征的差分特征参数序列。还因为将特征参数序列和差分特征参数序列进行融合,可以进一步提高语音信号识别的准确率。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,元件和元素不一定按照比例绘制。
图1是根据本公开的语音信号识别方法的一些实施例的流程图;
图2是根据本公开的语音信号识别装置的一些实施例的结构示意图;
图3是适于用来实现本公开的一些实施例的电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例。相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
下面将参考附图并结合实施例来详细说明本公开。
图1示出了根据本公开的语音信号识别方法的一些实施例的流程100。该语音信号识别方法,包括以下步骤:
步骤101,通过相关联的语音信号采集装置采集用户的语音信号。
在一些实施例中,语音信号识别方法的执行主体(例如计算设备)可以通过有线连接方式或者无线连接方式且通过相关联的语音信号采集装置采集用户的语音信号。其中,上述相关联的语音信号采集装置可以为用于采集用户的语音信号的装置。例如,上述相关联的语音信号采集装置可以为麦克风。上述用户可以为任意的用户。上述用户在此不做具体限定。上述语音信号可以为上述语音信号采集装置采集的语音信号。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
步骤102,对语音信号进行预处理,得到预处理后语音信号。
在一些实施例中,上述执行主体可以对上述语音信号进行预处理,得到预处理后语音信号。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤对上述语音信号进行预处理,得到预处理后语音信号:
第一步,对上述语音信号进行预加重处理,以生成预加重处理信号。实践中,上述执行主体可以利用一阶FIR高通数字滤波器对上述语音信号进行预加重处理,以生成预加重处理信号。作为示例,上述预加重处理信号可以通过以下公式表示:
。
其中,表示预加重处理信号的第/>个预加重处理后的信号值。/>表示语音信号第/>个采样点的信号值。/>表示预设预加重系数。这里,上述预设预加重系数可以为0.97。/>表示语音信号第/>个采样点的信号值。
第二步,对上述预加重处理信号进行分帧处理,以生成分帧控制信号序列。
第三步,对上述分帧控制信号序列进行加窗处理,以生成加窗控制信号序列。实践中,上述执行主体可以将预设窗函数和上述分帧控制信号序列包括的各个分帧控制信号的乘积确定为加窗控制信号序列。其中,上述预设窗函数可以通过以下公式表示:
。
其中,表示预设帧长。这里,预设帧长可以为200。/>表示分帧控制信号序列包括的分帧控制信号中的信号序号。/>表示预设窗函数。
第四步,对上述加窗控制信号序列进行静音检测处理,以生成静音检测控制信号序列。
第五步,对上述静音检测控制信号序列进行数字转换处理,以生成语音数字信号序列。实践中,上述执行主体可以利用模数转换器对上述静音检测控制信号序列进行数字转换处理,以生成语音数字信号序列。
第六步,根据上述语音数字信号序列,生成预处理后语音信号。实践中,上述执行主体可以对上述语音数字信号序列包括的各个语音数字信号进行信号组合处理,得到组合处理后的语音数字信号序列作为预处理后语音信号。这里,组合处理的方式可以为信号拼接。
可选地,上述执行主体可以通过以下步骤对上述预加重处理信号进行分帧处理,以生成分帧控制信号序列:
第一步,以预设帧长阈值为帧长,以预设帧移阈值为帧移对上述预加重处理信号进行分帧处理,得到分帧处理后的预加重处理信号作为分帧控制信号集合。其中,上述预设帧移阈值小于上述预设帧长阈值,帧移为后一帧对前一帧的位移量。上述预设帧移阈值可以为预先设定的帧移阈值。例如上述预设帧移阈值可以为100。上述预设帧长阈值可以为预先设定的帧长阈值。例如上述预设帧长阈值可以为200。
第二步,对上述分帧控制信号集合包括的各个分帧控制信号进行排序处理,得到分帧控制信号序列。实践中,上述执行主体可以对上述分帧控制信号集合包括的各个分帧控制信号按照信号生成的时间进行排序处理,得到分帧控制信号序列。
在一些实施例的一些可选的实现方式中,上述执行主体可以通过以下步骤对上述加窗控制信号序列进行静音检测处理,以生成静音检测控制信号:
第一步,对上述加窗控制信号序列进行平滑处理,以生成平滑控制信号序列。其中,上述平滑处理的方式可以包括但不限于:中值滤波算法、均值滤波算法和高斯滤波算法。这里,上述平滑处理的方式可以为中值滤波算法。实践中,上述执行主体可以利用中值滤波算法对上述分帧控制信号序列进行平滑处理,以生成平滑控制信号序列。
第二步,将上述平滑控制信号序列中满足预设无效控制信号条件的各个平滑控制信号确定为无效控制信号集合。其中,上述预设无效控制信号条件可以为上述平滑控制信号序列中平滑控制信号的序列号小于等于预设序列号阈值。上述预设序列号阈值可以为预先设定的序列号阈值。例如,上述序列号阈值可以为2。这里,序列号可以为平滑控制信号序列中各个平滑控制信号在平滑控制信号序列中的序号。
第三步,根据上述无效控制信号集合,生成短时能量均值。其中,短时能量可以表征每一帧语音信号的能量大小。实践中,上述执行主体可以将上述无效控制信号集合包括的各个无效控制信号对应的各个短时能量的平均值确定为短时能量均值。作为示例,上述无效控制信号集合包括的各个无效控制信号对应的各个短时能量可以用以下公式表示:
。
其中,可以表示第/>个短时能量。/>可以表示无效控制信号的第/>个信号采样点。/>可以表示无效控制信号的帧长。/>可以表示无效控制信号集合包括的第/>个无效控制信号中第/>个信号采样点的信号值的平方。/>可以表示无效控制信号集合中无效控制信号的序号。
第四步,根据第一预设能量系数和上述短时能量均值,确定短时能量低门限阈值。实践中,上述执行主体可以将第一预设能量系数和上述短时能量均值的乘积确定为短时能量低门限阈值。
第五步,根据第二预设能量系数和上述短时能量均值,确定短时能量高门限阈值。实践中,上述执行主体可以将第二预设能量系数和上述短时能量均值的乘积确定为短时能量高门限阈值。
第六步,根据上述无效控制信号集合,生成短时平均过零率。其中,短时过零率可以表征无效控制信号集合中的无效控制信号波形穿越零轴的次数。可以理解为相邻的两个信号采样点的信号值如果正负不同,则表明无效控制信号波形穿越零轴一次。实践中,上述执行主体可以将上述无效控制信号集合包括的各个无效控制信号对应的各个短时过零率的平均值确定为短时平均过零率。作为示例,无效控制信号集合包括的各个无效控制信号对应的各个短时过零率可以用以下公式表示:
。
。
其中,上述是符号函数。上述/>可以表示第/>个短时过零率。上述可以表示无效控制信号集合包括的第/>个无效控制信号中第/>个信号采样点的信号值。/>可以表示无效控制信号的第/>个信号采样点。/>可以表示无效控制信号集合中无效控制信号的序号。
第七步,对上述平滑控制信号序列进行中心截幅处理,得到中心截幅处理后的平滑控制信号序列作为中心截幅控制信号序列。作为示例,上述中心截幅控制信号序列可以通过以下公式表示:
。
其中,上述可以表示中心截幅控制信号序列中第/>个中心截幅控制信号。上述/>可以表示中心截幅控制信号序列中中心截幅控制信号的序列号。上述/>可以表示预设漂移阈值。上述预设漂移阈值的符号为正。例如,上述预设漂移阈值可以为10的负三次幂。上述/>可以表示平滑控制信号序列中第/>个平滑控制信号。由此,通过中心截幅处理,可以减弱语音信号微小零漂移的影响。
第八步,根据上述中心截幅控制信号序列,生成短时能量序列。实践中,上述执行主体生成短时能量序列中的短时能量的方式与上述生成上述无效控制信号集合对应的各个短时能量的方式相同,在此不再赘述。
第九步,对上述短时能量序列包括的各个短时能量进行曲线拟合,以生成短时能量曲线信息。其中,上述短时能量曲线信息可以为上述短时能量序列包括的各个短时能量进行曲线拟合后的曲线的信息。
第十步,根据上述中心截幅控制信号序列,生成短时过零率序列。实践中,上述执行主体生成短时过零率序列中的短时过零率的方式与上述生成无效控制信号集合对应的各个短时过零率的方式相同,在此不再赘述。
第十一步,对上述短时过零率序列包括的各个短时过零率进行曲线拟合,以生成短时过零率曲线信息。其中,上述短时过零率曲线信息包括的各个短时过零率对应上述短时能量曲线信息包括的各个短时能量。上述短时过零率曲线信息可以为上述短时过零率序列包括的各个短时过零率进行曲线拟合后的曲线的信息。
第十二步,将上述短时能量高门限阈值与上述短时能量曲线信息对应的短时能量曲线的最外层交点确定为语音信号的能量高门限起始点和能量高门限终止点。其中,上述短时能量高门限阈值与上述短时能量曲线的最左侧的交点为能量高门限起始点。上述短时能量高门限阈值与上述短时能量曲线的最右侧的交点为能量高门限终止点。
第十三步,将上述短时能量低门限阈值与上述短时能量曲线信息对应的短时能量曲线的最外层交点确定为语音信号的能量低门限起始点和能量低门限终止点。其中,上述短时能量低门限阈值与上述短时能量曲线的最左侧的交点为能量低门限起始点。上述短时能量低门限阈值与上述短时能量曲线的最右侧的交点为能量低门限终止点。上述能量低门限起始点在上述能量高门限起始点的左侧。上述能量低门限终止点在上述能量高门限终止点的右侧。
第十四步,将上述短时平均过零率与上述短时过零率曲线信息对应的短时过零率曲线的最外层的交点确定为语音信号的过零率起始点和过零率终止点。其中,上述短时平均过零率与上述短时过零率曲线的最左侧的交点为过零率起始点。上述短时平均过零率与上述短时过零率曲线的最右侧的交点为过零率终止点。上述过零率起始点在上述能量低门限起始点的左侧。上述过零率终止点在上述能量低门限终止点的右侧。
第十五步,根据上述过零率起始点和上述过零率终止点,确定静音检测控制信号。实践中,上述执行主体可以将上述过零率起始点和上述过零率终止点之间的各个加窗控制信号所组成的控制信号确定为静音检测控制信号。
上述第一步至第十五步及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题三“在对语音信号进行语音识别的过程中,对采集的所有信号进行识别,导致进行语音信号识别的处理器处理的语音量较大,从而造成处理器资源的浪费,同时造成语音识别的时间较长,识别效率较低。”。导致进行语音信号识别的处理器处理的语音量较大,从而造成处理器资源的浪费,同时造成语音识别的时间较长,识别效率较低的因素往往如下:在对语音信号进行语音识别的过程中,对采集的所有信号进行识别,导致进行语音信号识别的处理器处理的语音量较大,从而造成处理器资源的浪费,同时造成语音识别的时间较长,识别效率较低。如果解决了上述因素,就能达到减少进行语音信号识别的处理器处理的语音量,减少处理器资源的浪费,缩短语音识别的时间,提高识别效率的效果。为了达到这一效果,首先,对上述分帧控制信号序列进行平滑处理,以生成平滑控制信号序列。由此,可以得到去噪处理后的平滑控制信号序列。然后,将上述平滑控制信号序列中满足预设无效控制信号条件的各个平滑控制信号确定为无效控制信号集合。由此,可以得到无效控制信号集合。从而可以用于减少无效的静音语音信号。之后,根据上述无效控制信号集合,生成短时能量均值。由此,可以得到短时能量均值。从而可以用于衡量语音信号是否是静音语音信号。随后,根据第一预设能量系数和上述短时能量均值,确定短时能量低门限阈值。由此,可以得到用于衡量语音信号是否是静音信号的短时能量低门限阈值。随之,根据第二预设能量系数和上述短时能量均值,确定短时能量高门限阈值。由此,可以得到用于衡量语音信号是否是静音信号的短时能量高门限阈值。随着,根据上述无效控制信号集合,生成短时平均过零率。由此,可以得到短时平均过零率。从而可以用于衡量语音中语音信号波形穿过横轴(零点)的次数。接着,对上述平滑控制信号序列进行中心截幅处理,得到中心截幅处理后的平滑控制信号序列作为中心截幅控制信号序列。由此,可以得到中心截幅控制信号序列,从而可以用于减少语音信号的微小的漂移,提高过零率的稳定性。其次,根据上述中心截幅控制信号序列,生成短时能量序列。由此,可以得到表征中心截幅控制信号序列中各个中心截幅控制信号能量大小的短时能量序列。之后,对上述短时能量序列包括的各个短时能量进行曲线拟合,以生成短时能量曲线信息。由此,可以得到表征语音信号短时能量的短时能量曲线信息。然后,根据上述中心截幅控制信号序列,生成短时过零率序列。由此,可以得到表征中心截幅控制信号序列中各个中心截幅控制信号过零频率的短时过零率序列。随之,对上述短时过零率序列包括的各个短时过零率进行曲线拟合,以生成短时过零率曲线信息。其中,上述短时过零率曲线信息包括的各个短时过零率对应上述短时能量曲线信息包括的各个短时能量。由此,可以得到表征语音信号过零频率的短时过零率曲线信息。随着,将上述短时能量高门限阈值与上述短时能量曲线信息对应的短时能量曲线的最外层交点确定为语音信号的能量高门限起始点和能量高门限终止点。其中,上述短时能量高门限阈值与上述短时能量曲线的最左侧的交点为能量高门限起始点。上述短时能量高门限阈值与上述短时能量曲线的最右侧的交点为能量高门限终止点。由此,可以得到语音信号的能量高门限起始点和能量高门限终止点,从而可以用于确定有效语音信号的起始点和终止点。接着,将上述短时能量低门限阈值与上述短时能量曲线信息对应的短时能量曲线的最外层交点确定为语音信号的能量低门限起始点和能量低门限终止点。其中,上述短时能量低门限阈值与上述短时能量曲线的最左侧的交点为能量低门限起始点。上述短时能量低门限阈值与上述短时能量曲线的最右侧的交点为能量低门限终止点。上述能量低门限起始点在上述能量高门限起始点的左侧。上述能量低门限终止点在上述能量高门限终止点的右侧。由此,可以得到能量低门限起始点和能量低门限终止点,从而可以用于进一步确定有效语音信号的起始点和终止点。随后,将上述短时平均过零率与上述短时过零率曲线信息对应的短时过零率曲线的最外层的交点确定为语音信号的过零率起始点和过零率终止点。其中,上述短时平均过零率与上述短时过零率曲线的最左侧的交点为过零率起始点,上述短时平均过零率与上述短时过零率曲线的最右侧的交点为过零率终止点。上述过零率起始点在上述能量低门限起始点的左侧,上述过零率终止点在上述能量低门限终止点的右侧。由此,可以得到过零率起始点和过零率终止点,从而可以用于确定最终的有效语音信号的起始点和终止点。最后,根据上述过零率起始点和上述过零率终止点,确定静音检测控制信号。由此,可以得到表征有效语音信号的静音检测控制信号。也因为通过对语音信号进行中心截幅处理,可以减少语音信号的微小漂移,提高过零率的稳定性。还因为通过三次确定语音信号的起始点和终止点,进一步提高了确定的有效语音信号的准确性。从而可以减少进行语音信号识别的处理器处理的语音量,减少处理器资源的浪费,缩短语音识别的时间,提高识别效率。
步骤103,对预处理后语音信号进行频域变换处理,以生成语音频谱图。
在一些实施例中,上述执行主体可以对上述预处理后语音信号进行频域变换处理,以生成语音频谱图。实践中,上述执行主体可以通过快速傅里叶变换对对预处理后语音信号进行频域变换处理,以生成语音频谱图。
可选地,在上述对上述预处理后语音信号进行频域变换处理,以生成语音频谱图之后,上述执行主体还可以执行以下步骤:
第一步,根据上述语音频谱图,生成伽马通频谱图。实践中,上述执行主体可以通过伽马通滤波器组对上述语音频谱图进行滤波处理,以生成伽马通频谱图。
第二步,根据上述伽马通频谱图,生成立方根图谱。实践中,上述执行主体可以对上述伽马通频谱图进行立方根处理,以生成立方根图谱。
第三步,对上述立方根图谱进行离散余弦变换处理,得到离散余弦变换处理后的立方根图谱作为活体检测特征参数序列。
第四步,将上述活体检测特征参数序列输入至预先训练的语音活体检测模型的局部语音信号特征提取层,得到局部语音信号特征向量。其中,上述语音活体检测模型还可以包括:高级抽象特征提取层、全局语音信号特征提取层、时间序列特征提取层和分类器层。其中,上述语音活体检测模型是以活体检测特征参数序列为输入,以语音活体预测结果为输出的神经网络模型。其中,上述局部语音信号特征提取层可以为对输入信息进行局部特征提取的网络层。上述局部语音信号特征提取层可以包括:二维卷积模块、最大特征图模块、归一化模块和最大池化模块。上述高级抽象特征提取层可以为对上述局部语音信号特征向量进行进一步特征提取,得到高级复杂抽象特征的网络层。也可以用于进一步降维和防止过拟合。上述高级抽象特征提取层可以包括四个残差模块。其中,第一个残差模块和第二个残差模块均可以包括:2个二维卷积模块、2个最大特征图模块、归一化模块和最大池化模块。第三个残差模块和第四个残差模块均可以包括:2个二维卷积模块、2个最大特征图模块和归一化模块。上述全局语音信号特征提取层可以为对输入特征向量进行全局特征提取的网络层。上述全局语音信号特征提取层可以包括通道注意力模块和空间注意力模块。上述时间序列特征提取层可以为对输入特征向量进行前后帧信息特征提取的网络层。上述时间序列特征提取层可以包括:最大池化模块、时间序列模块、全连接模块、最大特征模块和Dropout模块。其中,时间序列模块可以为门控循环单元(Gated Recurrent Unit,GRU)模块。上述分类器层可以为能够对非线性的语音信号进行活体分类预测的网络层。例如,上述分类器层可以为支持向量机(Support Vector Machines,SVM)分类器。
第五步,将上述局部语音信号特征向量输入至上述高级抽象特征提取层,得到语音信号高级抽象特征向量。
第六步,将上述语音信号高级抽象特征向量输入至上述全局语音信号特征提取层,得到全局语音信号特征向量。作为示例,上述全局语音信号特征向量可以通过以下公式表示:。
其中,上述可以表示全局语音信号特征向量。上述/>可以表示对应元素相乘。上述/>可以表示空间注意力操作。上述/>表示通道注意力操作。上述/>可以表示语音信号高级抽象特征向量。
第七步,将上述全局语音信号特征向量输入至上述时间序列特征提取层,得到时间序列特征向量。
第八步,将上述时间序列特征向量输入至上述分类器层,得到语音活体预测结果。其中,上述语音活体预测结果可以表征语音为采集的真人语音信号的概率。
第九步,响应于确定上述语音活体预测结果不满足预设真人语音概率阈值,生成陌生人访问报警提示信息,以及将上述陌生人访问报警提示信息发送至相关联的移动控制终端。其中,上述预设真人语音概率阈值可以为预先设定的真人语音概率阈值。例如,上述预设真人语音概率阈值可以为0.8。上述相关联的移动控制终端可以为用户的手机移动终端。上述陌生人访问报警提示信息可以为提醒用户有陌生人访问的提示信息。例如,上述陌生人访问报警提示信息可以为“请主人注意,有陌生人在访问我”。实践中,响应于确定上述语音活体预测结果不满足预设真人语音概率阈值,上述执行主体可以将上述预设陌生人访问报警提示信息对应的字符串确定为陌生人访问报警提示信息,以及将陌生人访问报警提示信息发送至相关联的移动控制终端。上述预设陌生人访问报警提示信息对应的字符串可以为预先设定的与上述陌生人访问报警提示信息对应的字符串。
上述第一步至第九步及其相关内容作为本公开的实施例的一个发明点,解决了背景技术提及的技术问题二“在对采集的语音信号进行语音识别的过程中,未考虑到采集的语音不是活体真人的情况,导致语音信号识别的抗干扰性较弱,语音信号识别的错误率较高”。导致语音信号识别的抗干扰性较弱,语音信号识别的错误率较高的因素往往如下:在对采集的语音信号进行语音识别的过程中,未考虑到采集的语音不是活体真人的情况,导致语音信号识别的抗干扰性较弱,语音信号识别的错误率较高。如果解决了上述因素,就能达到增强语音信号识别的抗干扰性,降低语音信号识别的错误率的效果。为了达到这一效果,首先,根据上述语音频谱图,生成伽马通频谱图。由此,可以得到伽马通频谱图,从而可以用于对语音信号进行分解,并用于语音信号特征的提取。然后,根据上述伽马通频谱图,生成立方根图谱。由此,可以得到立方根图谱,从而可以用于对语音信号进行变换处理。之后,对上述立方根图谱进行离散余弦变换处理,得到离散余弦变换处理后的立方根图谱作为活体检测特征参数序列。从而可以得到活体检测特征参数序列,从而可以用于增强语音信号,并且把语音能量集中在低频部分,便于语音信号特征提取。随后,将上述活体检测特征参数序列输入至预先训练的语音活体检测模型的局部语音信号特征提取层,得到局部语音信号特征向量,其中,上述语音活体检测模型还可以包括:高级抽象特征提取层、全局语音信号特征提取层、时间序列特征提取层和分类器层。由此,可以得到表征语音信号局部特征的局部语音信号特征向量。其次,将上述局部语音信号特征向量输入至上述高级抽象特征提取层,得到语音信号高级抽象特征向量。由此,可以得到语音信号高级抽象特征向量,从而可以用于对提取到的特征进行进一步降维和进一步特征提取,且可以用于降低过拟合。然后,将上述语音信号高级抽象特征向量输入至上述全局语音信号特征提取层,得到全局语音信号特征向量。由此,可以得到表征语音信号全局特征的全局语音信号特征向量。之后,将上述全局语音信号特征向量输入至上述时间序列特征提取层,得到时间序列特征向量。由此,可以得到时间序列特征向量。从而可以用于提取具有前后帧影响关系的时间序列特征向量。随后,将上述时间序列特征向量输入至上述分类器层,得到语音活体预测结果。其中,上述语音活体预测结果可以表征语音为采集的真人语音信号的概率。由此,可以得到语音活体预测结果,从而可以用于区分采集到的语音信号是否是活体的语音信号。最后,响应于确定上述语音活体预测结果不满足预设真人语音概率阈值,生成陌生人访问报警提示信息,以及将陌生人访问报警提示信息发送至相关联的移动控制终端。由此,可以针对预测得到的语音活体预测结果,对目标用户做出相关的报警提示操作。也因为对采集到的语音信号进行特征提取,并将提取的语音信号特征输入至语音活体检测模型中,可以确定采集到的语音信号是否是活体的语音信号。从而更一步提高了语音信号识别的正确率。以及可以根据预测得到的结果,进行相关的报警提示操作。
步骤104,根据语音频谱图,生成语音能量谱图。
在一些实施例中,根据上述语音频谱图,上述执行主体可以生成语音能量谱图。实践中,首先,对于上述语音频谱图中的每个语音频谱,上述执行主体可以将上述语音频谱的模的平方确定为语音能量谱。然后,可以将所确定的各个语音能量谱作为语音能量谱图。
步骤105,根据语音能量谱图,生成对数能量谱图。
在一些实施例中,根据上述语音能量谱图,上述执行主体可以生成对数能量谱图。实践中,上述执行主体可以对语音能量谱图包括的各个语音能力谱进行对数变换处理,得到对数变换处理后的语音能量谱图作为对数能量谱图。
步骤106,对对数能量谱图进行时域变换处理,得到特征参数序列。
在一些实施例中,上述执行主体可以对上述对数能量谱图进行时域变换处理,得到特征参数序列。实践中,上述执行主体可以对对数能量谱图进行离散余弦变换处理,得到离散余弦变换处理后的对数能量谱图作为特征参数序列。
步骤107,根据特征参数序列,确定差分特征参数序列。
在一些实施例中,根据上述特征参数序列,上述执行主体可以确定差分特征参数序列。实践中,差分特征参数序列可以通过以下公式表示:
。
其中,上述可以表示预设时间差。这里上述预设时间差可以为2。上述/>可以表示预设阶数。这里,上述预设阶数可以为12。上述/>可以表示差分特征参数序列中第/>个差分特征参数。上述/>可以表示差分特征参数序列中第/>个差分特征参数。上述/>可以表示差分特征参数序列中第/>个差分特征参数。上述/>可以表示第/>个差分特征参数。/>可以表示差分特征参数序列中差分特征参数在差分特征参数序列的序列号。
步骤108,根据特征参数序列和差分特征参数序列,生成更新差分序列。
在一些实施例中,根据上述特征参数序列和差分特征参数序列,上述执行主体可以生成更新差分序列。实践中,对于上述特征参数序列中的每个特征参数,上述执行主体可以将上述特征参数与上述差分特征参数序列中与上述特征参数对应的差分特征参数的和确定更新差分参数。然后,可以将所确定的各个更新差分参数确定为更新差分序列。
步骤109,根据更新差分序列,生成语音特征向量。
在一些实施例中,根据上述更新差分序列,上述执行主体可以生成语音特征向量。实践中,上述执行主体可以将更新差分序列输入至预设特征提取模型中,得到语音特征向量。上述预设特征提取模型可以为预先设定的特征提取模型。可以用于将不等长的语音信号压缩成可供分类的特征向量。例如,上述预设特征提取模型可以为GMM-UBM(GaussianMixture Model-Universal Background Model,高斯混合模型-通用背景模型)。
步骤110,对语音特征向量进行降维处理,以生成低维语音特征向量。
在一些实施例中,上述执行主体可以对上述语音特征向量进行降维处理,以生成低维语音特征向量。实践中,上述执行主体可以通过I-Vector(Identity-Vector,身份向量)对语音特征向量进行降维处理,以生成低维语音特征向量。
步骤111,将低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
在一些实施例中,上述执行主体可以将上述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。其中,上述语音信号识别模型可以为以语音特征向量为输入,以语音信号识别结果为输出的网络模型。上述语音信号识别结果可以包括语音识别概率和语音识别对象。上述语音识别概率可以为识别到的语音为预设语音识别对象集合中的预设语音识别对象的概率。上述语音识别对象可以为预设语音识别对象集合中的预设语音识别对象。上述预设语音识别对象集合可以为预先设定的存储在上述执行主体所在内存空间的各个用户。上述目标用户可以为对上述语音信号采集设备有合法访问权限的用户。实践中,上述执行主体可以将低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
可选地,响应于确定上述语音信号识别结果表征语音信号识别成功,控制相关联的智能门锁的门锁组件执行开锁操作。实践中,响应于确定上述语音信号识别结果表征语音信号识别成功,上述执行主体可以控制相关联的智能门锁的门锁组件执行开锁操作。其中,上述门锁组件可以为用于打开和关闭门锁的组件。上述开锁操作可以为开锁的操作。上述语音信号识别结果表征语音信号识别成功可以理解为上述语音识别概率大于等于预设语音识别概率阈值。上述预设语音识别概率阈值可以为预先设定的语音识别概率阈值。例如,上述预设语音识别概率阈值可以为0.8。
可选地,响应于确定上述语音信号识别结果表征语音信号识别失败,控制相关联的声音播放设备播放识别失败提示信息。其中,相关联的声音播放设备可以为用于播放声音的设备。例如,上述相关联的声音播放设备可以功放播放器。上述语音信号识别结果表征语音信号识别失败可以理解为上述语音识别概率小于预设语音识别概率阈值。
在一些实施例的一些可选的实现方式中,语音信号识别模型是可以通过以下方式训练得到的:
第一步,获取样本集。其中,上述样本集中的样本包括样本低维语音特征,以及与样本低维语音特征对应的样本语音信号识别结果。上述样本语音信号识别结果可以为上述样本低维语音特征对应的样本标签。需要说明的是,训练上述语音信号识别模型的执行主体可以是上述执行主体,也可以是其他计算设备。
第二步,基于样本集执行以下训练步骤:
第一训练步骤,将样本集中的至少一个样本的样本低维语音特征分别输入至初始语音信号识别模型中,得到上述至少一个样本中的每个样本对应的语音信号识别结果。其中,上述初始语音信号识别模型是能够根据低维语音特征得到语音信号识别结果的神经网络模型。上述初始语音信号识别模型是待训练的初始语音信号识别模型。
第二训练步骤,将上述至少一个样本中的每个样本对应的语音信号识别结果与对应的样本语音信号识别结果进行比较。这里,比较可以为上述至少一个样本中的每个样本对应的语音信号识别结果与对应的样本语音信号识别结果是否指向同一个用户。
第三训练步骤,根据比较结果确定初始语音信号识别模型是否达到预设的优化目标。这里,上述优化目标可以为上述待训练的初始语音信号识别模型的损失函数值小于等于预设损失阈值。上述预设损失阈值可以为预先设定的损失阈值。例如,上述预设损失阈值可以为0.1。上述损失函数值对应的损失函数可以为交叉熵损失函数。
第四训练步骤,响应于确定初始语音信号识别模型达到上述优化目标,将初始语音信号识别模型确定为训练完成的语音信号识别模型。作为示例,可以采用反向传播算法(Back Propagation Algorithm,BP算法)和梯度下降法(例如小批量梯度下降算法)对上述初始语音信号识别模型的网络参数进行调整。
可选地,训练得到上述语音信号识别模型的步骤还包括:
第五训练步骤,响应于确定初始语音信号识别模型未达到上述优化目标,调整初始语音信号识别模型的网络参数,以及使用未用过的样本组成样本集,使用调整后的初始语音信号识别模型作为初始语音信号识别模型,再次执行上述训练步骤。
由此,基于样本集,完成了对语音信号识别模型的训练。根据比较结果确定初始语音信号识别模型是否达到预设的优化目标,以及将达到优化目标的初始语音信号识别模型确定为语音信号识别模型,为采集的用户语音信号的识别提供了模型支持。在初始语音信号识别模型未达到上述优化目标时,对初始语音信号识别模型的网络参数不断的进行调优,不断的使用未用过的样本组成样本集进行模型的训练,为语音信号的识别提供了更优的模型支持。由此,进一步提高了语音信号识别的准确性。
本公开的上述各个实施例具有如下有益效果:通过本公开的一些实施例的语音信号识别方法,可以提高语音信号识别的准确率。具体来说,导致语音信号识别的准确率较低的原因在于:在进行语音识别的过程中,仅对语音信号的静态特征进行特征提取并识别,导致语音信号识别的准确率较低。基于此,本公开的一些实施例的语音信号识别方法,首先,通过相关联的语音信号采集装置采集用户的语音信号。由此,可以得到用户的语音信号,从而可以通过语音信号识别用户身份。然后,对上述语音信号进行预处理,得到预处理后语音信号。由此,可以得到去噪处理和有效语音信号保留的预处理后语音信号,从而可以用于提高语音信号识别的抗干扰能力。之后,对上述预处理后语音信号进行频域变换处理,以生成语音频谱图。由此,可以得到表征语音信号频域数据信息的语音频谱图,从而可以更方便地对语音信号的特征进行提取。随后,根据上述语音频谱图,生成语音能量谱图。由此,可以得到表征语音信号能量强度的语音能量谱图。随之,根据上述语音能量谱图,生成对数能量谱图。由此,可以得到对数变换后的对数能量谱图。其次,对上述对数能量谱图进行时域变换处理,得到特征参数序列。由此,可以得到表征语音信号静态特征的特征参数序列。然后,根据上述特征参数序列,确定差分特征参数序列。由此,可得到表征语音信号动态特征的差分特征参数序列。之后,根据上述特征参数序列和差分特征参数序列,生成更新差分序列。随后,根据上述更新差分序列,生成语音特征向量。由此,可以得到语音特征向量,从而可以将不等长的语音数据进行统一数据压缩,得到更有区分度的语音信号特征向量。随之,对上述高级语音特征向量进行降维处理,以生成低维语音特征向量。由此,可以得到进行低维空间映射的低维语音特征向量。最后,将上述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。由此,可以得到语音信号识别结果。从而可以用于区分用户是否是目标用户。也因为通过确定表征语音信号静态特征的特征参数序列,可以确定表征语音信号动态特征的差分特征参数序列。还因为将特征参数序列和差分特征参数序列进行融合,可以进一步提高语音信号识别的准确率。
进一步参考图2,作为对上述各图所示方法的实现,本公开提供了一种语音信号识别装置的一些实施例,这些装置实施例与图1所示的那些方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图2所示,一些实施例的语音信号识别装置200包括:采集单元201、预处理单元202、第一变换处理单元203、第一生成单元204、第二生成单元205、第二变换处理单元206、确定单元207、第三生成单元208、第四生成单元209、降维单元210和输入单元211。其中,采集单元201被配置成通过相关联的语音信号采集装置采集用户的语音信号;预处理单元202被配置成对上述语音信号进行预处理,得到预处理后语音信号;第一变换处理单元203被配置成对上述预处理后语音信号进行频域变换处理,以生成语音频谱图;第一生成单元204被配置成根据上述语音频谱图,生成语音能量谱图;第二生成单元205被配置成根据上述语音能量谱图,生成对数能量谱图;第二变换处理单元206被配置成对上述对数能量谱图进行时域变换处理,得到特征参数序列;确定单元207被配置成根据上述特征参数序列,确定差分特征参数序列;第三生成单元208被配置成根据上述特征参数序列和差分特征参数序列,生成更新差分序列;第四生成单元209被配置成根据上述更新差分序列,生成高级语音特征向量;降维单元210被配置成对上述高级语音特征向量进行降维处理,以生成低维语音特征向量;输入单元211被配置成将上述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
可以理解的是,该语音信号识别装置200中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作、特征以及产生的有益效果同样适用于语音信号识别装置200及其中包含的单元,在此不再赘述。
下面参考图3,其示出了适于用来实现本公开的一些实施例的电子设备300(例如计算设备)的结构示意图。本公开的一些实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本公开的实施例的功能和使用范围带来任何限制。
如图3所示,电子设备300可以包括处理装置301(例如中央处理器、图形处理器等),其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备300操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备300与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备300,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的一些实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的一些实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本公开的一些实施例的方法中限定的上述功能。
需要说明的是,本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(Hyper Text TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:通过相关联的语音信号采集装置采集用户的语音信号;对上述语音信号进行预处理,得到预处理后语音信号;对上述预处理后语音信号进行频域变换处理,以生成语音频谱图;根据上述语音频谱图,生成语音能量谱图;根据上述语音能量谱图,生成对数能量谱图;对上述对数能量谱图进行时域变换处理,得到特征参数序列;根据上述特征参数序列,确定差分特征参数序列;根据上述特征参数序列和差分特征参数序列,生成更新差分序列;根据上述更新差分序列,生成语音特征向量;对上述语音特征向量进行降维处理,以生成低维语音特征向量;将上述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开的一些实施例中的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括采集单元、预处理单元、第一变换处理单元、第一生成单元、第二生成单元、第二变换处理单元、确定单元、第三生成单元、第四生成单元、降维单元和输入单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,采集单元还可以被描述为“通过相关联的语音信号采集装置采集用户的语音信号的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开的实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (8)
1.一种语音信号识别方法,包括:
通过相关联的语音信号采集装置采集用户的语音信号;
对所述语音信号进行预处理,得到预处理后语音信号,其中,所述对所述语音信号进行预处理,得到预处理后语音信号,包括:
对所述语音信号进行预加重处理,以生成预加重处理信号;
对所述预加重处理信号进行分帧处理,以生成分帧控制信号序列,其中,所述对所述预加重处理信号进行分帧处理,以生成分帧控制信号序列,包括:
以预设帧长阈值为帧长,以预设帧移阈值为帧移对所述预加重处理信号进行分帧处理,得到分帧处理后的预加重处理信号作为分帧控制信号集合,其中,所述预设帧移阈值小于所述预设帧长阈值,帧移为后一帧对前一帧的位移量;
对所述分帧控制信号集合包括的各个分帧控制信号进行排序处理,得到分帧控制信号序列;
对所述分帧控制信号序列进行加窗处理,以生成加窗控制信号序列;
对所述加窗控制信号序列进行静音检测处理,以生成静音检测控制信号序列;
对所述静音检测控制信号序列进行数字转换处理,以生成语音数字信号序列;
根据所述语音数字信号序列,生成预处理后语音信号;
对所述预处理后语音信号进行频域变换处理,以生成语音频谱图;
根据所述语音频谱图,生成语音能量谱图;
根据所述语音能量谱图,生成对数能量谱图;
对所述对数能量谱图进行时域变换处理,得到特征参数序列;
根据所述特征参数序列,确定差分特征参数序列;
根据所述特征参数序列和差分特征参数序列,生成更新差分序列;
根据所述更新差分序列,生成语音特征向量;
对所述语音特征向量进行降维处理,以生成低维语音特征向量;
将所述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
2.根据权利要求1所述的方法,其中,所述语音信号识别模型是通过以下方式训练得到的:
获取样本集,其中,所述样本集中的样本包括样本低维语音特征,以及与样本低维语音特征对应的样本语音信号识别结果;
基于样本集执行以下训练步骤:
将样本集中的至少一个样本的样本低维语音特征分别输入至初始语音信号识别模型中,得到所述至少一个样本中的每个样本对应的语音信号识别结果;
将所述至少一个样本中的每个样本对应的语音信号识别结果与对应的样本语音信号识别结果进行比较;
根据比较结果确定初始语音信号识别模型是否达到预设的优化目标;
响应于确定初始语音信号识别模型达到所述优化目标,将初始语音信号识别模型确定为训练完成的语音信号识别模型。
3.根据权利要求2所述的方法,其中,训练得到所述语音信号识别模型的步骤还包括:
响应于确定初始语音信号识别模型未达到所述优化目标,调整初始语音信号识别模型的网络参数,以及使用未用过的样本组成样本集,使用调整后的初始语音信号识别模型作为初始语音信号识别模型,再次执行所述训练步骤。
4.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定所述语音信号识别结果表征语音信号识别成功,控制相关联的智能门锁的门锁组件执行开锁操作。
5.根据权利要求1所述的方法,其中,所述方法还包括:
响应于确定所述语音信号识别结果表征语音信号识别失败,控制相关联的声音播放设备播放识别失败提示信息。
6.一种语音信号识别装置,包括:
采集单元,被配置成通过相关联的语音信号采集装置采集用户的语音信号;
预处理单元,被配置成对所述语音信号进行预处理,得到预处理后语音信号,其中,所述对所述语音信号进行预处理,得到预处理后语音信号,包括:
对所述语音信号进行预加重处理,以生成预加重处理信号;
对所述预加重处理信号进行分帧处理,以生成分帧控制信号序列,其中,所述对所述预加重处理信号进行分帧处理,以生成分帧控制信号序列,包括:
以预设帧长阈值为帧长,以预设帧移阈值为帧移对所述预加重处理信号进行分帧处理,得到分帧处理后的预加重处理信号作为分帧控制信号集合,其中,所述预设帧移阈值小于所述预设帧长阈值,帧移为后一帧对前一帧的位移量;
对所述分帧控制信号集合包括的各个分帧控制信号进行排序处理,得到分帧控制信号序列;
对所述分帧控制信号序列进行加窗处理,以生成加窗控制信号序列;
对所述加窗控制信号序列进行静音检测处理,以生成静音检测控制信号序列;
对所述静音检测控制信号序列进行数字转换处理,以生成语音数字信号序列;
根据所述语音数字信号序列,生成预处理后语音信号;
第一变换处理单元,被配置成对所述预处理后语音信号进行频域变换处理,以生成语音频谱图;
第一生成单元,被配置成根据所述语音频谱图,生成语音能量谱图;
第二生成单元,被配置成根据所述语音能量谱图,生成对数能量谱图;
第二变换处理单元,被配置成对所述对数能量谱图进行时域变换处理,得到特征参数序列;
确定单元,被配置成根据所述特征参数序列,确定差分特征参数序列;
第三生成单元,被配置成根据所述特征参数序列和差分特征参数序列,生成更新差分序列;
第四生成单元,被配置成根据所述更新差分序列,生成语音特征向量;
降维单元,被配置成对所述语音特征向量进行降维处理,以生成低维语音特征向量;
输入单元,被配置成将所述低维语音特征向量输入至预先训练的语音信号识别模型中,得到语音信号识别结果。
7.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154546.8A CN116913258B (zh) | 2023-09-08 | 2023-09-08 | 语音信号识别方法、装置、电子设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311154546.8A CN116913258B (zh) | 2023-09-08 | 2023-09-08 | 语音信号识别方法、装置、电子设备和计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116913258A CN116913258A (zh) | 2023-10-20 |
CN116913258B true CN116913258B (zh) | 2023-11-24 |
Family
ID=88367097
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311154546.8A Active CN116913258B (zh) | 2023-09-08 | 2023-09-08 | 语音信号识别方法、装置、电子设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116913258B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117131366B (zh) * | 2023-10-26 | 2024-02-06 | 北京国电通网络技术有限公司 | 变压器维修设备控制方法、装置、电子设备和可读介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794194A (en) * | 1989-11-28 | 1998-08-11 | Kabushiki Kaisha Toshiba | Word spotting in a variable noise level environment |
CN103077709A (zh) * | 2012-12-28 | 2013-05-01 | 中国科学院声学研究所 | 一种基于共有鉴别性子空间映射的语种识别方法及装置 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
CN105989838A (zh) * | 2015-01-30 | 2016-10-05 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN115373280A (zh) * | 2021-05-20 | 2022-11-22 | 海信集团控股股份有限公司 | 一种远程语音控制方法、装置及系统 |
CN116682463A (zh) * | 2023-05-30 | 2023-09-01 | 广东工业大学 | 一种多模态情感识别方法及系统 |
-
2023
- 2023-09-08 CN CN202311154546.8A patent/CN116913258B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5794194A (en) * | 1989-11-28 | 1998-08-11 | Kabushiki Kaisha Toshiba | Word spotting in a variable noise level environment |
CN103077709A (zh) * | 2012-12-28 | 2013-05-01 | 中国科学院声学研究所 | 一种基于共有鉴别性子空间映射的语种识别方法及装置 |
CN103544963A (zh) * | 2013-11-07 | 2014-01-29 | 东南大学 | 一种基于核半监督判别分析的语音情感识别方法 |
CN105989838A (zh) * | 2015-01-30 | 2016-10-05 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
CN107978311A (zh) * | 2017-11-24 | 2018-05-01 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法、装置以及语音交互设备 |
CN115373280A (zh) * | 2021-05-20 | 2022-11-22 | 海信集团控股股份有限公司 | 一种远程语音控制方法、装置及系统 |
CN116682463A (zh) * | 2023-05-30 | 2023-09-01 | 广东工业大学 | 一种多模态情感识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116913258A (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
US20230306954A1 (en) | Speech synthesis method, apparatus, readable medium and electronic device | |
CN108335694B (zh) | 远场环境噪声处理方法、装置、设备和存储介质 | |
CN116913258B (zh) | 语音信号识别方法、装置、电子设备和计算机可读介质 | |
EP4266308A1 (en) | Voice extraction method and apparatus, and electronic device | |
CN113257283B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
CN111312223B (zh) | 语音分割模型的训练方法、装置和电子设备 | |
CN112259116A (zh) | 一种音频数据的降噪方法、装置、电子设备及存储介质 | |
CN111722696A (zh) | 用于低功耗设备的语音数据处理方法和装置 | |
CN111369968B (zh) | 语音合成方法、装置、可读介质及电子设备 | |
WO2022213825A1 (zh) | 基于神经网络的端到端语音增强方法、装置 | |
CN113160823B (zh) | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 | |
CN112382266B (zh) | 一种语音合成方法、装置、电子设备及存储介质 | |
CN113763976B (zh) | 音频信号的降噪方法、装置、可读介质和电子设备 | |
CN111312224B (zh) | 语音分割模型的训练方法、装置和电子设备 | |
CN111899747B (zh) | 用于合成音频的方法和装置 | |
CN116403594B (zh) | 基于噪声更新因子的语音增强方法和装置 | |
CN116884402A (zh) | 语音转文本的方法、装置、电子设备及存储介质 | |
CN110660399A (zh) | 声纹识别的训练方法、装置、终端及计算机存储介质 | |
CN111276134A (zh) | 语音识别方法、装置和计算机可读存储介质 | |
CN112634930B (zh) | 多通道声音增强方法、装置及电子设备 | |
CN114783455A (zh) | 用于语音降噪的方法、装置、电子设备和计算机可读介质 | |
CN110875043B (zh) | 声纹识别方法、装置、移动终端及计算机可读存储介质 | |
CN114898737A (zh) | 声学事件检测方法、装置、电子设备和存储介质 | |
CN114373465A (zh) | 声纹识别方法、装置、电子设备和计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |