CN112908309A - 语音识别方法、装置、设备及按摩沙发 - Google Patents
语音识别方法、装置、设备及按摩沙发 Download PDFInfo
- Publication number
- CN112908309A CN112908309A CN202110165585.2A CN202110165585A CN112908309A CN 112908309 A CN112908309 A CN 112908309A CN 202110165585 A CN202110165585 A CN 202110165585A CN 112908309 A CN112908309 A CN 112908309A
- Authority
- CN
- China
- Prior art keywords
- signal
- characteristic parameters
- sub
- memory
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000015654 memory Effects 0.000 claims abstract description 108
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 11
- 230000009191 jumping Effects 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 17
- 230000005236 sound signal Effects 0.000 claims description 11
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000003321 amplification Effects 0.000 claims description 2
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 2
- 210000003128 head Anatomy 0.000 description 12
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 210000000988 bone and bone Anatomy 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 210000000214 mouth Anatomy 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 210000001202 rhombencephalon Anatomy 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 210000004704 glottis Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- A—HUMAN NECESSITIES
- A47—FURNITURE; DOMESTIC ARTICLES OR APPLIANCES; COFFEE MILLS; SPICE MILLS; SUCTION CLEANERS IN GENERAL
- A47C—CHAIRS; SOFAS; BEDS
- A47C17/00—Sofas; Couches; Beds
- A47C17/86—Parts or details for beds, sofas or couches only not fully covered in a single one of the sub-groups A47C17/02, A47C17/04, A47C17/38, A47C17/52, A47C17/64, or A47C17/84; Drawers in or under beds
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Nursing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明适用于声音识别技术领域,公开了一种语音识别方法、装置、设备及按摩沙发,上述方法包括:对语音信号进行分段处理,选取第一段语音子信号作为目标语音子信号,并提取其特征参数;若目标语音子信号的能量不大于预设能量阈值,则将特征参数存储于第一存储器中,选取新的目标语音子信号,并跳转至提取其特征参数的步骤循环执行;若目标语音子信号的能量大于预设能量阈值,则将特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数存储于第二存储器中;将第一存储器中的特征参数和第二存储器中的特征参数合并,并输入预先训练完成的分类模型中,得到语音识别结果。本发明能在保证一定准确率的同时减小运算量。
Description
技术领域
本发明属于声音识别技术领域,尤其涉及一种语音识别方法、装置、设备及按摩沙发。
背景技术
传统的语音识别通常是将语音拆解为喉咙声门的基频振动和口腔咬字变化的包络线变化,并根据两者随着时变的状态来进行识别。这种语音识别方法虽然结果较为精准,但是运算量却非常庞大。
目前,需要进行语音识别的产品,基本都是轻巧型的产品,例如,无线耳机等等,这种产品需要运算量相对较小且具有准确率相对较高的语音识别方法,而现有的语音识别方法无法兼顾相对较小的运算量和相对较高的准确率。
发明内容
有鉴于此,本发明实施例提供了一种语音识别方法、装置、设备及按摩沙发,以解决现有技术无法兼顾相对较小的运算量和相对较高的准确率的问题。
本发明实施例的第一方面提供了一种语音识别方法,包括:
获取语音信号,并对语音信号进行分段处理,得到多段语音子信号;
选取多段语音子信号中的第一段语音子信号作为目标语音子信号,并提取目标语音子信号的特征参数;
若目标语音子信号的能量不大于预设能量阈值,则将特征参数存储于第一存储器中,选取目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至提取目标语音子信号的特征参数的步骤循环执行;
若目标语音子信号的能量大于预设能量阈值,则将特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,并将第一预设数量的语音子信号的特征参数存储于第二存储器中;
将第一存储器中的特征参数和第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果。
本发明实施例的第二方面提供了一种语音识别装置,包括:
获取模块,用于获取语音信号,并对语音信号进行分段处理,得到多段语音子信号;
选取模块,用于选取多段语音子信号中的第一段语音子信号作为目标语音子信号,并提取目标语音子信号的特征参数;
信号处理模块,用于若目标语音子信号的能量不大于预设能量阈值,则将特征参数存储于第一存储器中,选取目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至提取目标语音子信号的特征参数的步骤循环执行;若目标语音子信号的能量大于预设能量阈值,则将特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,并将第一预设数量的语音子信号的特征参数存储于第二存储器中;
语音识别模块,用于若将第一存储器中的特征参数和第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果。
本发明实施例的第三方面提供了一种语音识别设备,包括程序存储器、处理器以及存储在程序存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如第一方面所述语音识别方法的步骤。
本发明实施例的第四方面提供了一种按摩沙发,包括头部靠垫和如第三方面所述的语音识别设备;
所述语音识别设备设于所述头部靠垫中。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过对语音信号进行分段处理,并在目标语音子信号的能量不大于预设能量阈值时,将其特征参数存储于第一存储器中,并继续判断下一段语音子信号的能量是否大于预设能量阈值;在目标语音子信号的能量大于预设能量阈值时,将其特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,存储于第二存储器,最后将第一存储器中的特征参数和第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果,能够在获取到足够多的特征参数后即可进行语音识别,无需对每段语音子信号均进行特征提取,能够在保证一定的准确率的同时减小运算量,可以兼顾相对较小的运算量和相对较高的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的语音识别方法的实现流程示意图;
图2是本发明一实施例提供的语音识别装置的示意框图;
图3是本发明一实施例提供的语音识别设备的示意框图;
图4是本发明一实施例提供的按摩沙发的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1是本发明一实施例提供的语音识别方法的实现流程示意图,为了便于说明,仅示出了与本发明实施例相关的部分。本发明实施例的执行主体可以是语音识别设备包含的处理器。如图1所示,该方法可以包括以下步骤:
S101:获取语音信号,并对语音信号进行分段处理,得到多段语音子信号。
其中,语音信号可以为数字化声音信号。将分段后的每段语音信号均称为语音子信号。
可选地,可以对语音信号按照等时间间隔且不重叠的方式进行分段处理,例如,可以每32ms为一段,即0-32ms为第一段语音子信号,32-64ms为第二段语音子信号,以此类推;也可以对语音信号按照等时间间隔且部分重叠的方式进行分段处理,例如,可以每32ms为一段,重叠16ms,即0-32ms为第一段语音子信号,16ms-48ms为第二段语音子信号,以此类推;也可以对语音信号按照非等时间间隔的方式进行分段;可以根据实际需求进行分段处理,在此不做具体限制。
具体地,可以用音框对语音信号进行分段处理,每个音框对应一段语音子信号。
S102:选取多段语音子信号中的第一段语音子信号作为目标语音子信号,并提取目标语音子信号的特征参数。
在本发明的一个实施例中,上述S102中的“选取多段语音子信号中的第一段语音子信号作为目标语音子信号”,可以包括:
按照时间由早到晚的顺序,选取所述多段语音子信号中的第一段语音子信号作为目标语音子信号。
具体地,第一段语音子信号为按照时间顺序,时间最早的语音子信号,例如,可以为上述示例中的0-32ms的语音子信号。将第一段语音子信号作为目标语音子信号,并采用现有方法提取目标语音子信号的特征参数。后续选取目标语音子信号均是按照时间由早到晚的顺序选取的。
在本发明的一个实施例中,特征参数为梅尔倒频谱参数。
其中,梅尔倒频谱参数可以为MFCC(Mel-frequency Cepstral Coefficient,梅尔频率倒谱系数)。
S103:若目标语音子信号的能量不大于预设能量阈值,则将特征参数存储于第一存储器中,选取目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至提取目标语音子信号的特征参数的步骤循环执行;若目标语音子信号的能量大于预设能量阈值,则将特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,并将第一预设数量的语音子信号的特征参数存储于第二存储器中。
其中,目标语音子信号的能量可以为目标语音子信号的短时能量。
在本发明实施例中,计算目标语音子信号的能量,并判断目标语音子信号的能量是否大于预设能量阈值。若目标语音子信号的能量不大于预设能量阈值,则将目标语音子信号的特征参数按照时间顺序存储在第一存储器中,并按照时间顺序选取目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至提取目标语音子信号的特征参数的步骤循环执行,直至目标语音子信号的能量大于预设能量阈值。
若目标语音子信号的能量大于预设能量阈值,则将目标语音子信号的特征参数按照时间顺序存储在第二存储器中,并继续提取接下来第一预设数量的语音子信号的特征参数,将提取到的第一预设数量的语音子信号的特征参数按照时间顺序存储在第二存储器中。
其中,预设能量阈值、第一预设数量可以根据实际需求进行设置。大于预设能量阈值的目标语音子信号可以为有声音的语音信号。
目标语音子信号的下一段语音子信号为初始时间在目标语音子信号的初始时间之后且初始时间与目标语音子信号的初始时间最接近的语音子信号。
第一存储器和第二存储器可以为暂存器。
S104:将第一存储器中的特征参数和第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果。
具体地,当上述第一预设数量的语音子信号的特征参数均提取完毕,并均存储于第二存储器中时,获取第一存储器中的所有的特征参数和第二存储器中的所有的特征参数,并将第一存储器中的所有的特征参数和第二存储器中的所有的特征参数合并得到合并后的特征参数,将合并后的特征参数输入到预先训练完成的分类模型中,得到语音识别结果。
其中,将第一存储器中的特征参数和第二存储器中的特征参数合并可以是将第一存储器中的特征参数在前,第二存储器中的特征参数在后,组成一个特征向量。
分类模型可以是用于语音识别的神经网络模型。
由上述描述可知,本发明实施例通过对语音信号进行分段处理,并在目标语音子信号的能量不大于预设能量阈值时,将其特征参数存储于第一存储器中,并继续判断下一段语音子信号的能量是否大于预设能量阈值;在目标语音子信号的能量大于预设能量阈值时,将其特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,存储于第二存储器,最后将第一存储器中的特征参数和第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果,能够在获取到足够多的特征参数后即可进行语音识别,无需对每段语音子信号均进行特征提取,能够在保证一定的准确率的同时减小运算量,可以兼顾相对较小的运算量和相对较高的准确率。
在本发明的一个实施例中,上述S103中的“将特征参数存储于第一存储器中”,可以包括:
若第一存储器中已存储的特征参数的数量不小于第二预设数量,则将第一存储器中最先存储的特征参数删除,并将目标语音子信号的特征参数按时间顺序存储于第一存储器中;
若第一存储器中已存储的特征参数的数量小于第二预设数量,则将目标语音子信号的特征参数按时间顺序存储于第一存储器中。
在本发明的一个实施例中,第一存储器以环形队列的方式存储数据,且第一存储器的容量为第二预设数量。
其中,第二预设数量可以根据实际需求进行设置。
当第一存储器中存储的特征参数的数量等于第一存储器的容量时,若再存储新的特征参数,则新的特征参数会覆盖第一存储器中最先保存的特征参数,从而保证第一存储器中保存的都是最新提取到的第二预设数量的特征参数。
在语音识别过程中,为了达到省电、减小计算量的目的,可以计算每段语音子信号的能量大小,超过预设能量阈值的才进行语音识别,然而能量大于预设能量阈值的语音子信号并不一定是人声语音起始的语音子信号,无声子音开头的字的能量可能达不到预设能量阈值,但是可能包含重要信息,因此将第一存储器中存储的最新提取到的第二预设数量的特征参数和第二存储器中存储的特征参数进行合并,可以根据在能量达到预设能量阈值的语音子信号之前的部分语音子信号和能量达到预设能量阈值后的部分语音子信号一起进行语音识别,可以在较小的运算量的同时提高语音识别的准确率。
在本发明的一个实施例中,在将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果之前,上述语音识别方法还包括:
获取训练样本集,并提取训练样本集中的每个训练样本的特征参数;
对每个训练样本的特征参数分别进行降维处理,得到每个训练样本对应的降维后的特征参数;
基于每个训练样本对应的降维后的特征参数,对预设的分类模型进行训练,得到预先训练完成的分类模型。
其中,每个训练样本均已标注正确的语音识别结果。降维处理可以包括但不限于传统平均、依音框取权重、PCA(Principal Component Analysis,主成分分析)、K-means等。
可选地,为了防止误唤醒的问题,可以在训练样本集中增加负样本,或增加分类模型的分类类别。
上述训练过程可以在产品上线前完成。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上述语音识别方法,本发明一实施例还提供了一种语音识别装置,具有与上述语音识别方法同样的有益效果。图2是本发明一实施例提供的语音识别装置的示意框图,为了便于说明,仅示出与本发明实施例相关的部分。
在本发明实施例中,语音识别装置30可以包括获取模块301、选取模块302、信号处理模块303和语音识别模块304。
其中,获取模块301,用于获取语音信号,并对语音信号进行分段处理,得到多段语音子信号;
选取模块302,用于选取多段语音子信号中的第一段语音子信号作为目标语音子信号,并提取目标语音子信号的特征参数;
信号处理模块303,用于若目标语音子信号的能量不大于预设能量阈值,则将特征参数存储于第一存储器中,选取目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至提取目标语音子信号的特征参数的步骤循环执行;若目标语音子信号的能量大于预设能量阈值,则将特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,并将第一预设数量的语音子信号的特征参数存储于第二存储器中;
语音识别模块304,用于若将第一存储器中的特征参数和第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果。
在本发明的一个实施例中,上述信号处理模块303还可以用于:
若第一存储器中已存储的特征参数的数量不小于第二预设数量,则将第一存储器中最先存储的特征参数删除,并将目标语音子信号的特征参数按时间顺序存储于第一存储器中;
若第一存储器中已存储的特征参数的数量小于第二预设数量,则将目标语音子信号的特征参数按时间顺序存储于第一存储器中。
在本发明的一个实施例中,上述选取模块302还可以用于:
按照时间由早到晚的顺序,选取多段语音子信号中的第一段语音子信号作为目标语音子信号。
在本发明的一个实施例中,第一存储器以环形队列的方式存储数据,且第一存储器的容量为第二预设数量。
在本发明的一个实施例中,语音识别装置30还可以包括训练模块。
训练模块,可以用于:
获取训练样本集,并提取训练样本集中的每个训练样本的特征参数;
对每个训练样本的特征参数分别进行降维处理,得到每个训练样本对应的降维后的特征参数;
基于每个训练样本对应的降维后的特征参数,对预设的分类模型进行训练,得到预先训练完成的分类模型。
在本发明的一个实施例中,特征参数为梅尔倒频谱参数。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述语音识别装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图3是本发明一实施例提供的语音识别设备的示意框图。如图3所示,该实施例的语音识别设备40包括:一个或多个处理器401、程序存储器402以及存储在所述程序存储器402中并可在所述处理器401上运行的计算机程序403。所述处理器401执行所述计算机程序403时实现上述各个语音识别方法实施例中的步骤,例如图1所示的步骤S101至S104。或者,所述处理器401执行所述计算机程序403时实现上述语音识别装置实施例中各模块/单元的功能,例如图2所示模块301至304的功能。
示例性地,所述计算机程序403可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述程序存储器402中,并由所述处理器401执行,以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序403在所述语音识别设备40中的执行过程。例如,所述计算机程序403可以被分割成获取模块、选取模块、信号处理模块和语音识别模块,各模块具体功能如下:
获取模块,用于获取语音信号,并对语音信号进行分段处理,得到多段语音子信号;
选取模块,用于选取多段语音子信号中的第一段语音子信号作为目标语音子信号,并提取目标语音子信号的特征参数;
信号处理模块,用于若目标语音子信号的能量不大于预设能量阈值,则将特征参数存储于第一存储器中,选取目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至提取目标语音子信号的特征参数的步骤循环执行;若目标语音子信号的能量大于预设能量阈值,则将特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,并将第一预设数量的语音子信号的特征参数存储于第二存储器中;
语音识别模块,用于若将第一存储器中的特征参数和第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果。
其它模块或者单元可参照图2所示的实施例中的描述,在此不再赘述。
所述语音识别设备40可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备,还可以是具体的语音识别设备。所述语音识别设备40包括但不仅限于处理器401、程序存储器402。本领域技术人员可以理解,图3仅仅是语音识别设备40的一个示例,并不构成对语音识别设备40的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述语音识别设备40还可以包括输入设备、输出设备、网络接入设备、总线等。
所述处理器401可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述程序存储器402可以是所述语音识别设备40的内部存储单元,例如语音识别设备40的硬盘或内存。所述程序存储器402也可以是所述语音识别设备40的外部存储设备,例如所述语音识别设备40上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述程序存储器402还可以既包括语音识别设备40的内部存储单元也包括外部存储设备。所述程序存储器402用于存储所述计算机程序403以及所述语音识别设备40所需的其他程序和数据。所述程序存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
在本发明的一个实施例中,上述语音识别设备40还可以包括声音采集装置;
声音采集装置与处理器401连接;
声音采集装置用于采集外部声音信号,将外部声音信号转换为模拟电流信号,并对模拟电流信号分别进行放大处理、滤波处理和模数转换处理得到语音信号,将语音信号发送至处理器401。
可选地,声音采集装置可以包括依次连接的麦克风、放大器、滤波器和模数转换器,模数转换器与处理器401连接。
麦克风用于采集声音信号,并将声音信号转换为模拟电流信号,将模拟电流信号发送至放大器。
放大器用于对模拟电流信号进行放大处理,并将放大后的模拟电流信号发送至滤波器。其中,放大器可以根据用户需求,预先设定多种灵敏度,根据实际需求,选择合适的灵敏度对模拟电流信号进行放大。
滤波器用于对放大后的模拟电流信号进行滤波处理,并将滤波后的模拟电路信号发送至模数转换器。在滤波处理中,可以调整信号的频谱响应,做声音加强、等化处理、滤噪声处理等。
模数转换器用于对滤波后的模拟电流信号进行模数转换得到数字化声音信号,即语音信号,并发送至处理器401。模数转换器可以设定好合适的采样频率、位数等,将模拟信号转换成数字信号。
为了避免硬件失真及能量损耗,使用放大器和滤波器进行硬件补偿,再进入模数转换器进行模数转换。
可选地,上述语音识别设备40还可以包括第一存储器和第二存储器,第一存储器和第二存储器均与处理器401连接。
第一存储器和第二存储器的作用参见上述语音识别方法中的具体描述,在此不再赘述。
可选地,麦克风可以为骨导式麦克风。
参见图4,对应于上述语音识别设备40,本发明实施例还提供了一种按摩沙发,包括头部靠垫20和上述语音识别设备40;
语音识别设备40设于头部靠垫20中。
优选地,语音识别设备40设于头部靠垫20的中部。
其中,在按摩沙发中,语音识别设备40的语音识别结果为按摩指令,用于指示对应的按摩器按摩。
可选地,参见图4,上述按摩沙发还可以包括沙发本体10和设置于沙发本体10中的按摩器30,沙发本体10包括沙发靠背11,上述头部靠垫20设于沙发靠背11的上部。
语音识别设备40与按摩器连接;
语音识别设备40用于接收声音信号,根据声音信号识别得到按摩指令,并将按摩指令发送至按摩器;
按摩器用于根据按摩指令进行按摩。
其中,语音识别设备40可以安装在头部靠垫20的表面层,可以使用网纱等布料覆盖。当用户坐在按摩沙发上时,后脑部分会触及到语音识别设备40即可。
头部靠垫20可以安装在沙发靠背11的上部,可以进行调节。语音识别设备40可以安装在头部靠垫20的正中间或正中间附近。
由上述描述可知,本发明实施例通过语音识别设备40来识别按摩指令,无需遥控器,只需要声音指令即可实现按摩,使用方便,能够提高用户体验,可以解决遥控器容易丢失,使用不便的问题;语音识别设备40设于头部靠垫20中,用户背靠沙发靠背11时,头部可以正好靠在语音识别设备40上,能够有效收音,降低环境噪音干扰,提高指令识别准确率。
可选地,语音识别设备40还可以包括与处理器32连接的参数存储器,用于存储处理器32运算过程的相关参数。
可选地,语音识别设备40还可以包括与处理器32连接的指令分类器,用于接收处理器32发送的按摩指令,并对按摩指令进行分类得到按摩指令对应的类别,将按摩指令发送至该类别对应的按摩器。该类别对应的按摩器根据按摩指令进行按摩。
具体地,不同的按摩指令可以对应不同的类别,例如手部按摩、腿部按摩等等。每个类别具有对应的按摩器进行按摩,例如,手部按摩对应手部按摩器,腿部按摩对应腿部按摩器,等等。
可选地,本发明实施例可以使用骨导式麦克风进行收音,具体可以是采集与骨导式麦克风接触的后脑的振动信号,可以进一步提高收音的准确性;通过骨导式麦克风与头部靠垫部分进行结合,可以大大降低环境噪音等因素干扰,提高识别准确率。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的语音识别装置和方法,可以通过其它的方式实现。例如,以上所描述的语音识别装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
获取语音信号,并对所述语音信号进行分段处理,得到多段语音子信号;
选取所述多段语音子信号中的第一段语音子信号作为目标语音子信号,并提取所述目标语音子信号的特征参数;
若所述目标语音子信号的能量不大于预设能量阈值,则将所述特征参数存储于第一存储器中,选取所述目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至所述提取所述目标语音子信号的特征参数的步骤循环执行;
若所述目标语音子信号的能量大于所述预设能量阈值,则将所述特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,并将所述第一预设数量的语音子信号的特征参数存储于所述第二存储器中;
将所述第一存储器中的特征参数和所述第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述将所述特征参数存储于第一存储器中,包括:
若第一存储器中已存储的特征参数的数量不小于第二预设数量,则将所述第一存储器中最先存储的特征参数删除,并将所述目标语音子信号的特征参数按时间顺序存储于所述第一存储器中;
若所述第一存储器中已存储的特征参数的数量小于所述第二预设数量,则将所述目标语音子信号的特征参数按时间顺序存储于所述第一存储器中。
3.根据权利要求1所述的语音识别方法,其特征在于,所述选取所述多段语音子信号中的第一段语音子信号作为目标语音子信号,包括:
按照时间由早到晚的顺序,选取所述多段语音子信号中的第一段语音子信号作为目标语音子信号。
4.根据权利要求1所述的语音识别方法,其特征在于,所述第一存储器以环形队列的方式存储数据,且所述第一存储器的容量为第二预设数量。
5.根据权利要求1至4任一项所述的语音识别方法,其特征在于,在所述将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果之前,所述语音识别方法还包括:
获取训练样本集,并提取所述训练样本集中的每个训练样本的特征参数;
对每个训练样本的特征参数分别进行降维处理,得到每个训练样本对应的降维后的特征参数;
基于每个训练样本对应的降维后的特征参数,对预设的分类模型进行训练,得到所述预先训练完成的分类模型。
6.根据权利要求1至4任一项所述的语音识别方法,其特征在于,所述特征参数为梅尔倒频谱参数。
7.一种语音识别装置,其特征在于,包括:
获取模块,用于获取语音信号,并对所述语音信号进行分段处理,得到多段语音子信号;
选取模块,用于选取所述多段语音子信号中的第一段语音子信号作为目标语音子信号,并提取所述目标语音子信号的特征参数;
信号处理模块,用于若所述目标语音子信号的能量不大于预设能量阈值,则将所述特征参数存储于第一存储器中,选取所述目标语音子信号的下一段语音子信号作为新的目标语音子信号,并跳转至所述提取所述目标语音子信号的特征参数的步骤循环执行;若所述目标语音子信号的能量大于所述预设能量阈值,则将所述特征参数存储于第二存储器中,并提取接下来第一预设数量的语音子信号的特征参数,并将所述第一预设数量的语音子信号的特征参数存储于所述第二存储器中;
语音识别模块,用于若将所述第一存储器中的特征参数和所述第二存储器中的特征参数合并,并将合并后的特征参数输入预先训练完成的分类模型中,得到语音识别结果。
8.一种语音识别设备,包括程序存储器、处理器以及存储在所述程序存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述语音识别方法的步骤。
9.根据权利要求8所述的语音识别设备,其特征在于,所述语音识别设备还包括声音采集装置;
所述声音采集装置与所述处理器连接;
所述声音采集装置用于采集外部声音信号,将所述外部声音信号转换为模拟电流信号,并对所述模拟电流信号分别进行放大处理、滤波处理和模数转换处理得到语音信号,将所述语音信号发送至所述处理器。
10.一种按摩沙发,其特征在于,包括头部靠垫和如权利要求8或9所述的语音识别设备;
所述语音识别设备设于所述头部靠垫中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110165585.2A CN112908309A (zh) | 2021-02-06 | 2021-02-06 | 语音识别方法、装置、设备及按摩沙发 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110165585.2A CN112908309A (zh) | 2021-02-06 | 2021-02-06 | 语音识别方法、装置、设备及按摩沙发 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112908309A true CN112908309A (zh) | 2021-06-04 |
Family
ID=76123441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110165585.2A Pending CN112908309A (zh) | 2021-02-06 | 2021-02-06 | 语音识别方法、装置、设备及按摩沙发 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112908309A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4625287A (en) * | 1982-10-19 | 1986-11-25 | Tokyo Shibaura Denki Kabushiki Kaisha | Monosyllable recognition apparatus |
CN1268732A (zh) * | 2000-03-31 | 2000-10-04 | 清华大学 | 基于语音识别专用芯片的特定人语音识别、语音回放方法 |
JP2001249681A (ja) * | 1999-12-28 | 2001-09-14 | Sony Corp | モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置 |
CN103366737A (zh) * | 2012-03-30 | 2013-10-23 | 株式会社东芝 | 在自动语音识别中应用声调特征的装置和方法 |
CN107945807A (zh) * | 2016-10-12 | 2018-04-20 | 厦门雅迅网络股份有限公司 | 基于静音游程的语音识别方法及其系统 |
CN108369813A (zh) * | 2017-07-31 | 2018-08-03 | 深圳和而泰智能家居科技有限公司 | 特定声音识别方法、设备和存储介质 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN111683329A (zh) * | 2020-05-30 | 2020-09-18 | 北京声智科技有限公司 | 麦克风检测方法、装置、终端及存储介质 |
-
2021
- 2021-02-06 CN CN202110165585.2A patent/CN112908309A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4625287A (en) * | 1982-10-19 | 1986-11-25 | Tokyo Shibaura Denki Kabushiki Kaisha | Monosyllable recognition apparatus |
JP2001249681A (ja) * | 1999-12-28 | 2001-09-14 | Sony Corp | モデル適応装置およびモデル適応方法、記録媒体、並びにパターン認識装置 |
CN1268732A (zh) * | 2000-03-31 | 2000-10-04 | 清华大学 | 基于语音识别专用芯片的特定人语音识别、语音回放方法 |
CN103366737A (zh) * | 2012-03-30 | 2013-10-23 | 株式会社东芝 | 在自动语音识别中应用声调特征的装置和方法 |
CN107945807A (zh) * | 2016-10-12 | 2018-04-20 | 厦门雅迅网络股份有限公司 | 基于静音游程的语音识别方法及其系统 |
CN108369813A (zh) * | 2017-07-31 | 2018-08-03 | 深圳和而泰智能家居科技有限公司 | 特定声音识别方法、设备和存储介质 |
CN108877775A (zh) * | 2018-06-04 | 2018-11-23 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备及存储介质 |
CN111683329A (zh) * | 2020-05-30 | 2020-09-18 | 北京声智科技有限公司 | 麦克风检测方法、装置、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
Lu et al. | Speakersense: Energy efficient unobtrusive speaker identification on mobile phones | |
CN109743656B (zh) | 基于脑电意念的智能运动耳机及其实现方法与系统 | |
CN106486130B (zh) | 噪声消除、语音识别方法及装置 | |
CN101023469B (zh) | 数字滤波方法和装置 | |
CN110123367B (zh) | 计算机设备、心音识别装置、方法、模型训练装置及存储介质 | |
CN107945817B (zh) | 心肺音信号分类方法、检测方法、装置、介质和计算机设备 | |
US20210193149A1 (en) | Method, apparatus and device for voiceprint recognition, and medium | |
CN103294199B (zh) | 一种基于脸部肌音信号的无声信息识别系统 | |
WO2020034628A1 (zh) | 口音识别方法、装置、计算机装置及存储介质 | |
Meltzner et al. | Signal acquisition and processing techniques for sEMG based silent speech recognition | |
CN110232933A (zh) | 音频检测方法、装置、存储介质及电子设备 | |
CN109800720A (zh) | 情绪识别模型训练方法、情绪识别方法、装置、设备及存储介质 | |
CN112294253A (zh) | 一种基于用户语音变化的疾病诊断系统及家庭智能机器人 | |
CN110946554A (zh) | 咳嗽类型识别方法、装置及系统 | |
CN112382302A (zh) | 婴儿哭声识别方法及终端设备 | |
CN113539294A (zh) | 一种生猪异常状态声音采集及识别方法 | |
CN110765868A (zh) | 唇读模型的生成方法、装置、设备及存储介质 | |
CN110415824B (zh) | 脑卒中风的患病风险评估装置和设备 | |
CN111568384A (zh) | 医学扫描中的语音降噪方法、装置和计算机设备 | |
Yin et al. | An investigation of fusion strategies for boosting pig cough sound recognition | |
CN109767750B (zh) | 一种基于语音雷达与视频的语音合成方法 | |
Usman et al. | Dataset of raw and pre-processed speech signals, Mel Frequency Cepstral Coefficients of Speech and Heart Rate measurements | |
CN112908309A (zh) | 语音识别方法、装置、设备及按摩沙发 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |