CN116564298A - 语音识别方法、电子设备及计算机可读存储介质 - Google Patents
语音识别方法、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116564298A CN116564298A CN202210113131.5A CN202210113131A CN116564298A CN 116564298 A CN116564298 A CN 116564298A CN 202210113131 A CN202210113131 A CN 202210113131A CN 116564298 A CN116564298 A CN 116564298A
- Authority
- CN
- China
- Prior art keywords
- voice
- distance
- frame
- voice signal
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 101
- 238000003062 neural network model Methods 0.000 claims description 79
- 230000007704 transition Effects 0.000 claims description 40
- 230000004044 response Effects 0.000 claims description 27
- 238000001514 detection method Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 18
- 230000005059 dormancy Effects 0.000 claims description 8
- 230000003993 interaction Effects 0.000 abstract description 33
- 230000035945 sensitivity Effects 0.000 abstract description 29
- 230000006870 function Effects 0.000 description 25
- 230000007958 sleep Effects 0.000 description 21
- 238000004891 communication Methods 0.000 description 19
- 238000007726 management method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 15
- 238000012216 screening Methods 0.000 description 15
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 12
- 238000012423 maintenance Methods 0.000 description 12
- 238000010295 mobile communication Methods 0.000 description 12
- 238000000926 separation method Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 8
- 238000012827 research and development Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 230000004913 activation Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000009432 framing Methods 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012880 independent component analysis Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000003139 buffering effect Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005316 response function Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 206010047700 Vomiting Diseases 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000015203 fruit juice Nutrition 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008673 vomiting Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请适用于语音识别技术领域,提供了一种语音识别方法、电子设备及计算机可读存储介质。在本申请提供的语音识别方法中,电子设备可以响应于用户的第一操作,设置语音识别距离。后续,当电子设备获取到第一待识别语音信号时,电子设备可以检测第一待识别语音信号对应的第一声源距离。然后,电子设备可以根据设置的语音识别距离和上述第一声源距离,从第一待识别语音信号中确定第一目标语音信号并进行语音识别,得到第一识别文本。通过上述方法,电子设备可以根据用户设置的语音识别距离间接控制语音识别模型的灵敏度,使得相同的语音识别模型可以适用于不同的语音交互场景,有效提高了用户的使用体验,具有较强的易用性和实用性。
Description
技术领域
本申请涉及语音识别领域,尤其涉及一种语音识别方法、电子设备及计算机可读存储介质。
背景技术
语音识别(Automatic Speech Recognition,ASR)技术是指对语音信号进行识别,将语音信号转化成文本信息的技术。
在使用ASR技术时,需要根据实际的语音交互场景选择合适灵敏度的ASR模型。然而,ASR模型的灵敏度是通过训练语料学习得到的,在使用期间无法进行调节。因此,在实际的语音交互场景中,有可能会出现ASR模型过于灵敏或不够灵敏的情况。
当ASR模型过于灵敏时,ASR模型可能会被远处的干扰信号影响,出现错误的识别结果,降低语音识别的准确性。当ASR模型不够灵敏时,ASR模型可能无法响应和识别用户在远处发出的语音信号,影响用户的使用体验。
此外,由于不同的电子设备可能应用于不同的语音交互场景,且ASR模型的灵敏度无法调节,所以,设备厂商需要训练不同灵敏度的ASR模型,研发成本和维护成本极高。
发明内容
本申请实施例提供了一种语音识别方法、电子设备及计算机可读存储介质,可以解决现有的语音识别方案中,语音识别的灵敏度无法调节,影响用户的使用体验,且设备厂商的研发成本和维护成本较高的问题。
第一方面,本申请实施例提供了一种语音识别方法,应用于电子设备,包括:
响应于用户的第一操作,设置语音识别距离;
获取第一待识别语音信号;
检测所述第一待识别语音信号对应的第一声源距离;
根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号;
对所述第一目标语音信号进行语音识别,得到第一识别文本。
需要说明的是,在本申请实施例中,用户可以根据实际的语音交互场景,自主地在电子设备上设置语音识别距离,该语音识别距离用于限制语音识别模型的灵敏度。
当用户想要设置电子设备的语音识别距离时,用户可以对电子设备执行第一操作。
上述第一操作的形式可以根据实际需求进行设置。示例性地,上述第一操作可以包括拖动滑块、输入数字、点击选择档位等操作形式中的一种或多种。
电子设备在检测到第一操作之后,电子设备可以响应于该第一操作,设置相应的语音识别距离。
后续,在电子设备启动了语音识别功能之后,电子设备可以采集周围环境中的语音信号,得到第一待识别语音信号。
之后,电子设备可以检测第一待识别语音信号对应的第一声源距离。
其中,电子设备检测第一声源距离的方式可以根据实际需求进行设置。例如,在一些实施例中,电子设备可以通过麦克风阵列中各个麦克风接收到第一待识别语音信号的时间,计算上述第一待识别语音信号对应的第一声源方向和第一声源距离;在另一些实施例中,电子设备也可以通过神经网络模型识别上述第一待识别语音信号对应的第一声源距离;在其他的一些实施例中,电子设备也可以通过其他方式检测第一待识别语音信号对应的第一声源距离。
在检测到第一声源距离之后,电子设备可以根据设置的语音识别距离和上述第一声源距离,从上述第一待识别语音信号中确定第一目标语音信号。
在确定了第一目标语音信号之后,电子设备可以对第一目标语音信号进行语音识别,得到第一识别文本。
在语音识别的过程中,电子设备所采用的ASR模型可以为远场ASR模型,以确保上述ASR模型具备识别近场语音信号和远场语音信号的能力。
或者,也可以理解为上述ASR模型的可识别距离应当大于或等于语音识别距离的调节范围的上限值。
在上述语音识别方法中,电子设备在获取到第一待识别语音信号之后,并不是直接使用ASR模型对上述第一待识别语音信号信号进行识别,而是使用设置的语音识别距离对上述第一待识别语音信号进行筛选,从上述第一待识别语音信号中确定第一目标语音信号,对第一目标语音信号进行语音识别。
通过上述方法,电子设备可以通过上述设置的语音识别距离控制ASR模型的识别对象(即第一目标语音信号),从而间接控制ASR模型的灵敏度,使得相同的ASR模型可以适应不同的语音交互场景。
此外,通过上述语音识别方法,设备厂商在训练ASR模型时,只需要确保ASR模型的可识别距离大于或等于语音识别距离的调节范围的上限值,不需要训练不同灵敏度的ASR模型,极大地减轻了设备厂商的前期研发成本和后期维护成本。
在第一方面的一种可能的实现方式中,所述响应于用户的第一操作,设置语音识别距离,包括:
显示所述语音识别距离的设置界面,并在所述设置界面中显示多个可选择的距离,所述多个可选择的距离对应多个不同的语音识别距离区间;
检测到用户在所述设置界面上的第一操作;
响应于所述第一操作,设置所述语音识别距离。
需要说明的是,在设置语音识别距离的过程中,电子设备可以向用户展示语音识别距离的设置界面,并在该设置界面中显示多个可选择的距离。
其中,上述多个可选择的距离可以对应多个不同的语音识别距离区间,或者,也可以理解为上述多个可选择的距离对应多级不同的语音识别距离区间。
例如,在一示例中,语音识别距离被设置为1米时,上述语音识别距离可以对应[0,1米]的语音识别距离区间,电子设备可以识别该语音识别距离区间内的语音信号;
在另一示例中,语音识别距离被设置为5米,上述语音识别距离可以对应[0,5米]的语音识别距离区间,电子设备可以识别该语音识别距离区间内的语音信号。
在另一示例中,语音识别距离被设置为5米,上述语音识别距离可以对应[4米,6米]的语音识别距离区间,电子设备可以识别该语音识别距离区间内的语音信号。
在其他的一些示例中,上述语音识别距离也可以被设置为其他数值,且上述语音识别距离也可以对应其他语音识别距离区间。本申请实施例对上述语音识别距离的具体数值以及上述语音识别距离对应的语音识别距离区间不予限制。
在用户查看了上述设置界面之后,用户可以根据自己想要设置的语音识别距离执行第一操作。
此时,电子设备可以检测到用户对上述设置界面的第一操作,并响应于该第一操作,设置相应的语音识别距离。
在第一方面的一种可能的实现方式中,所述检测所述第一待识别语音信号对应的第一声源距离,包括:
通过神经网络模型检测所述第一待识别语音信号对应的第一声源距离。
需要说明的是,在一些实施例中,电子设备可以使用神经网络模型检测第一待识别语音信号对应的第一声源距离。
电子设备在获取到上述第一待识别语音信号之后,电子设备可以将上述第一待识别语音信号输入上述神经网络模型,得到上述神经网络模型输出的第一声源距离。
上述神经网络模型的类型可以根据实际需求进行设置。例如,上述神经网络模型可以是卷积神经网络模型,或者,也可以是其他类型的神经网络模型。
当电子设备通过神经网络模型识别第一待识别语音信号对应的第一声源距离时,电子设备上可以不用设置多个麦克风,降低了对电子设备的硬件要求,有利于上述语音识别方法的推广与应用。
在第一方面的一种可能的实现方式中,所述第一待识别语音信号包括多个子语音信号;
所述检测所述第一待识别语音信号对应的第一声源距离,包括:
检测所述多个子语音信号的每个子语音信号对应的声源距离。
需要说明的是,在一些场景中,电子设备的周围可能存在多个声源,电子设备采集到的第一待识别语音信号可以包括上述多个声源对应的多个子语音信号。
电子设备在检测第一待识别语音信号对应的第一声源距离时,电子设备可以检测上述多个子语音信号中某个子语音信号对应的声源距离;或者,电子设备也可以检测上述多个子语音信号中每个子语音信号对应的声源距离。
例如,假设电子设备周围有两个声源,电子设备采集到的第一待识别语音信号中包括这两个声源各自对应的子语音信号。
在一示例中,电子设备在检测第一待识别语音信号对应的第一声源距离时,第一设备可以只检测距离电子设备最近的声源的声源距离。比如第二个声源与电子设备的距离比较近,则电子设备可以检测到第二个声源对应的声源距离。
在另一示例中,电子设备可以检测上述第一待识别语音信号中各个子语音信号的声源距离,得到两个声源距离,一个声源距离对应一个子语音信号。
在第一方面的一种可能的实现方式中,所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
根据设置的语音识别距离和所述每个子语音信号对应的声源距离,从所述多个子语音信号中确定第一目标语音信号。
需要说明的是,当电子设备检测到多个子语音信号对应的声源距离时,电子设备可以根据上述设置的语音识别距离和每个子语音信号对应的声源距离,从上述多个子语音信号中确定第一目标语音信号。
示例性地,假设电子设备检测三个子语音信号对应的三个声源距离。此时,如果第一个子语音信号对应的声源距离满足目标语音信号的筛选条件,第二个子语音信号和第三个子语音信号对应的声源距离不满足上述筛选条件,则电子设备可以将第一个子语音信号确定为第一目标语音信号,将第二个子语音信号和第三个子语音信号确定为非目标语音信号。
通过上述方法,电子设备可以更精细地检测第一待识别语音信号中的目标语音信号,从而提高语音识别的准确性。
在第一方面的一种可能的实现方式中,所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
将所述第一待识别语音信号中所述第一声源距离小于或等于所述设置的语音识别距离的语音信号确定为第一目标语音信号;或者,
根据所述语音识别距离确定距离上限值和距离下限值;
将所述第一待识别语音信号中所述第一声源距离大于或等于所述距离下限值且小于或等于所述距离上限值的语音信号,确定为第一目标语音信号。
需要说明的是,电子设备根据设置的语音识别距离确定第一目标语音信号的条件可以根据实际需求进行设置。
在一些实施例中,电子设备可以将第一待识别语音信号中第一声源距离小于或等于上述语音识别距离的语音信号确定为第一目标语音信号。
示例性的,假设上述语音识别距离为1米,第一待识别信号中前20秒的语音信号对应的第一声源距离小于1米,后25秒的语音信号对应的第一声源距离大于1米,则电子设备可以将第一待识别信号中的前20秒的语音信号确定为第一目标语音信号。
在另一些实施例中,电子设备可以根据上述语音识别距离确定距离上限值和距离下限值。
然后,电子设备可以将第一待识别语音信号中第一声源距离大于或等于距离下限值且小于或等于距离上限值的语音信号,确定为第一目标语音信号。
示例性地,假设上述语音识别距离为1米,电子设备可以根据该语音识别距离确定距离上限值为1.5米,确定距离下限值为0.5米。
然后,电子设备采集到第一待识别语音信号,第一待识别语音信号中前10秒的语音信号对应的第一声源距离为0.9米,中间10秒的语音信号对应的第一声源距离为1.8米,最后10秒的语音信号对应的第一声源距离为0.1米。
此时,电子设备可以将第一待识别语音信号中前10秒的语音信号确定为第一目标语音信号。
在其他的一些实施例中,电子设备也可以通过其他方式确定第一目标语音信号。本申请实施例对电子设备确定第一目标语音信号的具体方式不予限制。
在第一方面的一种可能的实现方式中,在所述获取第一待识别语音信号之后,还包括:
检测所述第一待识别语音信号对应的语音参数,所述语音参数包括人声概率;
所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
将所述第一待识别语音信号中所述第一声源距离小于或等于所述设置的语音识别距离且所述人声概率大于或等于预设人声概率阈值的语音信号,确定为第一目标语音信号。
需要说明的是,电子设备在确定第一目标语音信号时,电子设备除了考虑第一声源距离以外,还可以综合考虑其他语音参数。
上述语音参数可以包括待识别语音信号的人声概率、待识别信号的音频能量值等参数中的一种或多种。
当上述语音参数包括人声概率时,电子设备可以剔除第一待识别语音信号中人声概率较低的语音信号,保留人声概率较高的语音信号。
示例性地,电子设备可以获取预设的人声概率阈值。然后,电子设备可以将第一待识别语音信号中第一声源距离小于或等于设置的语音识别距离,且人声概率大于或等于预设人声概率阈值的语音信号,确定为第一目标语音信号。
在第一方面的一种可能的实现方式中,所述神经网络模型为双目标神经网络模型,所述双目标神经网络模型包括输入层、卷积子网络和全连接子网络;
所述输入层用于接收所述第一待识别语音信号,将所述第一待识别语音信号传递给所述卷积子网络;
所述卷积子网络用于通过卷积的方式对所述第一待识别语音信号进行特征提取,得到语音特征,将所述语音特征传递给所述全连接子网络;
所述全连接子网络包括第一全连接层和第二全连接层;所述第一全连接层用于对所述语音特征进行识别,输出所述待识别的语音信号对应的第一声源距离;所述第二全连接层用于对所述语音特征进行识别,输出所述第一待识别语音信号对应的人声概率。
需要说明的是,当电子设备使用神经网络模型检测第一声源距离时,上述神经网络模型可以选用双目标神经网络模型。
上述双目标神经网络模型可以包括输入层、卷积子网络和全连接子网络。
其中,上述输入层用于接收上述第一待识别语音信号,将上述第一待识别语音信号传递给上述卷积子网络;
上述卷积子网络用于通过卷积的方式对上述第一待识别语音信号进行特征提取,得到语音特征,将上述语音特征传递给上述全连接子网络;
上述全连接子网络包括第一全连接层和第二全连接层;上述第一全连接层用于对上述语音特征进行识别,输出上述待识别的语音信号对应的第一声源距离;上述第二全连接层用于对上述语音特征进行识别,输出上述第一待识别语音信号对应的人声概率。
在第一方面的一种可能的实现方式中,所述第一待识别语音信号包括至少一帧语音帧,所述第一声源距离包括所述至少一帧语音帧对应的声源距离;
所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
根据设置的语音识别距离和所述至少一帧语音帧对应的声源距离,确定所述至少一帧语音帧对应的帧标签,所述帧标签用于指示所述至少一帧语音帧为有效帧或无效帧;
根据所述至少一帧语音帧对应的帧标签,确定目标语音帧。
需要说明的是,在一些实施例中,电子设备在获取到第一待识别语音信号之后,可以根据预先设置的分帧方案,将上述第一待识别语音信号划分为至少一帧语音帧。
之后,电子设备在检测第一待识别语音信号对应的第一声源距离时,电子设备可以检测上述至少一帧语音帧中每一帧语音帧对应的声源距离。
后续,在确定第一目标语音信号的过程中,电子设备可以根据设置的语音识别距离,以及上述至少一帧语音帧对应的声源距离,确定上述至少一帧语音帧对应的帧标签。
上述帧标签的作用可以根据实际需求进行设置。在一些实施例中,上述帧标签可以用于指示上述至少一帧语音帧为有效帧或无效帧;在另一些实施例中,上述帧标签可以用于指示上述至少一帧语音帧为有效帧、保持帧或无效帧;在其他的一些实施例中,上述帧标签也可以被设置为其他用途。
电子设备确定上述帧标签的条件可以根据实际需求进行设置。例如,在一些实施例中,电子设备可以将上述至少一帧语音帧中声源距离小于或等于上述设置的语音识别距离的语音帧确定为有效帧,将上述至少一帧语音帧中声源距离大于上述设置的语音识别距离的语音帧确定为无效帧。
在另一些实施例,电子设备可以根据上述设置的语音识别距离确定距离上限值和距离下限值;然后,电子设备可以将上述至少一帧语音帧中声源距离小于或等于上述距离下限值的语音帧确定为有效帧,将上述至少一帧语音帧中声源距离大于或等于上述距离上限值的语音帧确定为无效帧,将上述至少一帧语音帧中的其他语音帧确定为保持帧。
在另一些实施例中,电子设备也可以通过其他条件确定上述至少一帧语音帧的帧标签。本申请实施例对电子设备确定帧标签的具体条件不予限制。
在确定了上述至少一帧语音帧对应的帧标签之后,电子设备可以根据上述帧标签,从上述至少一帧语音帧中确定目标语音帧。
在第一方面的一种可能的实现方式中,所述根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
当所述电子设备处于休眠态时,若检测到有效帧,则进入休眠工作转换态;
当所述电子设备处于休眠工作转换态时,开始累计有效帧的帧数;
在累计有效帧的过程中,若检测到无效帧,则停止累计有效帧的帧数,返回休眠态;若累计的有效帧的帧数大于或等于第一帧数,则进入工作态,确定一起始点;
当所述电子设备处于工作态时,若检测到无效帧,则进入工作休眠转换态;
当所述电子设备处于工作休眠转换态时,开始累计无效帧的帧数;
在累计无效帧的过程中,若检测到有效帧,则停止累计无效帧的帧数,返回工作态;若累计的无效帧的帧数大于或等于第二帧数,则进入休眠态,确定一结束点;
将所述起始点和所述结束点之间的语音帧确定为目标语音帧。
需要说明的是,在一些实施例中,电子设备可以设置有四种语音状态,包括休眠态、休眠工作转换态、工作态和工作休眠转换态。
当电子设备处于休眠态时,如果电子设备检测到无效帧或保持帧,则电子设备可以维持休眠态;如果电子设备检测到有效帧,则电子设备可以进入休眠工作转换态。
当电子设备处于休眠工作转换态时,如果电子设备检测到无效帧,则电子设备可以返回休眠态;如果电子设备检测到有效帧或保持帧,则电子设备可以维持休眠工作转换态,累计有效帧的帧数。
当电子设备累计的有效帧的帧数大于或等于第一帧数时,电子设备可以进入工作态,确定一起始点。
当电子设备处于工作态时,如果电子设备检测到有效帧或保持帧,则电子设备可以维持工作态;如果电子设备检测到无效帧,则电子设备可以进入工作休眠转换态。
当电子设备处于工作休眠转换态时,如果电子设备检测到有效帧,则电子设备可以返回工作态;如果电子设备检测到无效帧或保持帧,则电子设备可以维持工作休眠转换态,累计无效帧的帧数。
当电子设备累计的无效帧的帧数大于或等于第二帧数时,电子设备可以进入休眠态,确定一结束点。
电子设备可以将上述起始点和上述结束点之间的语音帧确定为目标语音帧。
当电子设备通过上述语音状态确定目标语音帧时,电子设备可以将休眠工作转换态和工作休眠转换态作为缓冲,避免电子设备在休眠态和工作态中频繁切换,提高识别目标语音帧的鲁棒性。
在第一方面的一种可能的实现方式中,所述根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
当检测到有效帧时,确定一起始点;
当检测到无效帧时,确定一结束点;
将所述起始点和所述结束点之间的语音帧确定为目标语音帧。
需要说明的是,在另一些实施例中,电子设备也可以不设置语音状态。
当电子设备检测到有效帧时,电子设备可以确定一起始点。当电子设备检测到无效帧时,电子设备可以确定一结束点。
然后,电子设备可以将上述起始点和上述结束点之间的语音帧确定为目标语音帧。
在第一方面的一种可能的实现方式中,所述根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
将所述有效帧确定为目标语音帧。
需要说明的是,在一些实施例中,电子设备也可以直接将有效帧确定为目标语音帧。
在第一方面的一种可能的实现方式中,所述第一目标语音信号包括多个子目标信号;
所述对所述第一目标语音信号进行语音识别,得到第一识别文本,包括:
对所述多个子目标信号进行语音识别,得到所述多个子目标信号中每个子目标信号对应的识别文本。
需要说明的是,在一些场景中,电子设备确定的第一目标语音信号中可能会包括多个声源的子目标信号。
此时,电子设备对上述第一目标语音信号进行语音识别时,可以识别其中识别概率最高的子目标信号的识别文本;或者,电子设备也可以对上述多个子目标信号分别进行语音识别,得到上述多个子目标信号中每个子目标信号对应的识别文本。
示例性地,假设电子设备确定的第一目标语音信号中包括两个人声声源的语音信号。其中一个人声声源在说:“我认为这个方案糟透了”,另一个人声声源在说:“这个方案看起来还不错”。
在一示例中,电子设备对上述第一目标语音信号进行识别时,电子设备可以识别其中识别概率较高的人声声源对应的识别文本。比如,假设第一个人声声源的声音比较大,吐字比较清晰,识别概率高于第二个人声声源,则电子设备可以识别得到第一个人声声源对应的识别文本“我认为这个方案糟透了”。
在另一示例中,电子设备可以分别识别两个子目标信号对应的识别文本,识别得到“我认为这个方案糟透了”以及“这个方案看起来还不错”。
在第一方面的一种可能的实现方式中,在所述得到第一识别文本之后,还包括:
响应于用户的第二操作,更改所述语音识别距离;
获取第二待识别语音信号;
检测所述第二待识别语音信号对应的第二声源距离;
根据更改的语音识别距离和所述第二声源距离,从所述第二待识别语音信号中确定第二目标语音信号;
对所述第二目标语音信号进行语音识别,得到第二识别文本。
需要说明的是,用户在实际使用电子设备的过程中,可以自由地根据电子设备所处的语音交互场景,对应更改上述语音识别距离。
当用户想要更改上述语音识别距离时,用户可以对电子设备执行第二操作。
此时,电子设备可以响应于上述第二操作,更改上述语音识别距离。
后续,在电子设备获取第二待识别语音信号之后,电子设备可以检测第二待识别语音信号对应的第二声源距离。
之后,电子设备可以根据更改的语音识别距离和上述第二声源距离,从上述第二待识别语音信号中确定第二目标语音信号,对第二目标语音信号进行语音识别,得到第二识别文本。
通过上述方法,用户可以根据电子设备所处的语音交互场景,对应更改电子设备的语音识别距离,从而间接调整ASR模型灵敏度,使得相同的ASR模型适用于不同的语音交互场景,极大地提高了用户的使用体验。
第二方面,本申请实施例提供了一种语音识别装置,应用于电子设备,包括:
距离设置模块,用于响应于用户的第一操作,设置语音识别距离;
语音录制模块,用于获取第一待识别语音信号;
距离检测模块,用于检测所述第一待识别语音信号对应的第一声源距离;
语音确定模块,用于根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号;
语音识别模块,用于对所述第一目标语音信号进行语音识别,得到第一识别文本。
在第二方面的一种可能的实现方式中,所述距离设置模块,具体用于实施以下步骤:
显示所述语音识别距离的设置界面,并在所述设置界面中显示多个可选择的距离,所述多个可选择的距离对应多个不同的语音识别距离区间;
检测到用户在所述设置界面上的第一操作;
响应于所述第一操作,设置所述语音识别距离。
在第二方面的一种可能的实现方式中,所述距离检测模块,具体用于通过神经网络模型检测所述第一待识别语音信号对应的第一声源距离。
在第二方面的一种可能的实现方式中,所述第一待识别语音信号包括多个子语音信号;
所述距离检测模块,具体用于检测所述多个子语音信号的每个子语音信号对应的声源距离。
在第二方面的一种可能的实现方式中,所述语音确定模块,具体用于根据设置的语音识别距离和所述每个子语音信号对应的声源距离,从所述多个子语音信号中确定第一目标语音信号。
在第二方面的一种可能的实现方式中,所述语音确定模块,具体用于实施以下步骤:
将所述第一待识别语音信号中所述第一声源距离小于或等于所述设置的语音识别距离的语音信号确定为第一目标语音信号;或者,
将根据所述语音识别距离确定距离上限值和距离下限值;
将所述第一待识别语音信号中所述第一声源距离大于或等于所述距离下限值且小于或等于所述距离上限值的语音信号,确定为第一目标语音信号。
在第二方面的一种可能的实现方式中,所述装置还包括:
人声检测模块,用于检测所述第一待识别语音信号对应的语音参数,所述语音参数包括人声概率;
所述语音确定模块,具体用于将所述第一待识别语音信号中所述第一声源距离小于或等于所述设置的语音识别距离且所述人声概率大于或等于预设人声概率阈值的语音信号,确定为第一目标语音信号。
在第二方面的一种可能的实现方式中,所述神经网络模型为双目标神经网络模型,所述双目标神经网络模型包括输入层、卷积子网络和全连接子网络;
所述输入层用于接收所述第一待识别语音信号,将所述第一待识别语音信号传递给所述卷积子网络;
所述卷积子网络用于通过卷积的方式对所述第一待识别语音信号进行特征提取,得到语音特征,将所述语音特征传递给所述全连接子网络;
所述全连接子网络包括第一全连接层和第二全连接层;所述第一全连接层用于对所述语音特征进行识别,输出所述待识别的语音信号对应的第一声源距离;所述第二全连接层用于对所述语音特征进行识别,输出所述第一待识别语音信号对应的人声概率。
在第二方面的一种可能的实现方式中,所述第一待识别语音信号包括至少一帧语音帧,所述第一声源距离包括所述至少一帧语音帧对应的声源距离;
所述语音确定模块,具体用于实施以下步骤:
根据设置的语音识别距离和所述至少一帧语音帧对应的声源距离,确定所述至少一帧语音帧对应的帧标签,所述帧标签用于指示所述至少一帧语音帧为有效帧或无效帧;
根据所述至少一帧语音帧对应的帧标签,确定目标语音帧。
在第二方面的一种可能的实现方式中,根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
当所述电子设备处于休眠态时,若检测到有效帧,则进入休眠工作转换态;
当所述电子设备处于休眠工作转换态时,开始累计有效帧的帧数;
在累计有效帧的过程中,若检测到无效帧,则停止累计有效帧的帧数,返回休眠态;若累计的有效帧的帧数大于或等于第一帧数,则进入工作态,确定一起始点;
当所述电子设备处于工作态时,若检测到无效帧,则进入工作休眠转换态;
当所述电子设备处于工作休眠转换态时,开始累计无效帧的帧数;
在累计无效帧的过程中,若检测到有效帧,则停止累计无效帧的帧数,返回工作态;若累计的无效帧的帧数大于或等于第二帧数,则进入休眠态,确定一结束点;
将所述起始点和所述结束点之间的语音帧确定为目标语音帧。
在第二方面的一种可能的实现方式中,根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
当检测到有效帧时,确定一起始点;
当检测到无效帧时,确定一结束点;
将所述起始点和所述结束点之间的语音帧确定为目标语音帧。
在第二方面的一种可能的实现方式中,根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
将所述有效帧确定为目标语音帧。
在第二方面的一种可能的实现方式中,所述第一目标语音信号包括多个子目标信号;
所述语音识别模块,具体用于对所述多个子目标信号进行语音识别,得到所述多个子目标信号中每个子目标信号对应的识别文本。
在第二方面的一种可能的实现方式中,
距离设置模块,还用于响应于用户的第二操作,更改所述语音识别距离;
语音录制模块,还用于获取第二待识别语音信号;
距离检测模块,还用于检测所述第二待识别语音信号对应的第二声源距离;
语音确定模块,还用于根据更改的语音识别距离和所述第二声源距离,从所述第二待识别语音信号中确定第二目标语音信号;
语音识别模块,还用于对所述第二目标语音信号进行语音识别,得到第二识别文本。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述电子设备被配置为执行所述计算机程序时实现如第一方面和第一方面可能的实现方式中任一所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质被配置为存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如第一方面和第一方面可能的实现方式中任一所述的方法。
第五方面,本申请实施例提供了一种计算机程序产品,所述计算机程序产品被配置为在电子设备上运行时,使得电子设备执行如第一方面和第一方面可能的实现方式中任一所述的方法。
第六方面,本申请实施例提供了一种芯片系统,所述芯片系统包括存储器和处理器,所述处理器被配置为执行所述存储器中存储的计算机程序,以实现如第一方面和第一方面可能的实现方式中任一所述的方法。
本申请实施例与现有技术相比存在的有益效果是:
在本申请提供的语音识别方法中,第一设备可以响应于用户的第一操作,设置语音识别距离。然后,第一设备可以根据设置的语音识别距离以及第一待识别语音信号对应的第一声源距离,从第一待识别语音信号中确定第一目标语音信号,对第一目标语音信号进行语音识别,得到第一识别文本。
由于上述语音识别距离用于限制语音识别的对象(即第一目标语音信号),所以,在上述方法中,用户可以通过设置语音识别距离的方式,间接控制语音识别模型的灵敏度,从而使相同的语音识别模型可以适用于不同的语音交互场景。
此外,由于上述语音识别距离可以用于间接控制语音识别模型的灵敏度,所以,设备厂商在训练语音识别模型时,不需要训练不同灵敏度的语音识别模型,极大地减轻了设备厂商的前期研发成本和后期维护成本。
附图说明
图1为本申请实施例提供的一种电子设备的结构示意图;
图2为本申请实施例提供的一种语音识别方法的流程示意图;
图3为本申请实施例提供的一种场景示意图;
图4为本申请实施例提供的另一种场景示意图;
图5为本申请实施例提供的一种双目标神经网络模型的结构示意图;
图6为本申请实施例提供的一种卷积子网络的结构示意图;
图7为本申请实施例提供的一种卷积块的结构示意图;
图8为本申请实施例提供的一种状态转换图;
图9为本申请实施例提供的另一种场景示意图;
图10为本申请实施例提供的另一种场景示意图;
图11为本申请实施例提供的另一种状态转换图;
图12为本申请实施例提供的另一种场景示意图;
图13为本申请实施例提供的另一种状态转换图;
图14为本申请实施例提供的另一种状态转换图;
图15为本申请实施例提供的另一种语音识别方法的流程示意图;
图16为本申请实施例提供的另一种场景示意图;
图17为本申请实施例提供的另一种场景示意图;
图18为本申请实施例提供的另一种场景示意图;
图19为本申请实施例提供的另一种语音识别方法的流程示意图;
图20为本申请实施例提供的另一种场景示意图;
图21为本申请实施例提供的另一种语音识别方法的流程示意图;
图22为本申请实施例提供的另一种场景示意图;
图23为本申请实施例提供的一种语音识别装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
语音识别(Automatic Speech Recognition,ASR)技术是指对语音信号进行识别,将语音信号转化成文本信息的技术,目前广泛应用于人机交互领域。
在使用ASR技术时,需要根据实际的语音交互场景选择合适灵敏度(对声音的敏感程度)的ASR模型。例如,对于手机、无线耳机等主要应用于近场语音交互场景的电子设备,可以配置灵敏度较低的ASR模型,减少远场干扰信号的影响;对于智慧大屏、智能音箱等主要应用于远场语音交互场景的电子设备,可以配置灵敏度较高的ASR模型,以使得这些电子设备可以识别远处的语音信号。
然而,ASR模型的灵敏度是通过训练语料学习得到的,在使用期间无法进行调节。因此,在实际的语音交互场景中,有可能出现ASR模型过于灵敏或不够灵敏的情况。
当ASR模型过于灵敏时,ASR模型可能会被远处的干扰信号影响,出现错误的识别结果,降低语音识别的准确性。当ASR模型不够灵敏时,ASR模型可能无法响应和识别用户在远处发出的语音信号,影响用户的使用体验。
此外,由于不同的电子设备可能应用在不同的语音交互场景,且ASR模型的灵敏度无法调节,所以,设备厂商需要根据不同的语音识别场景,训练不同灵敏度的ASR模型,研发成本极高。
在后期维护的过程中,如果设备厂商发现电子设备上的ASR模型过于灵敏,或者不够灵敏,则设备厂商需要调整训练语料,重新训练ASR模型,维护难度大,维护成本高。
有鉴于此,本申请实施例提供了一种语音识别方法,可以解决现有方案中用户无法自主调节语音识别的灵敏度,且设备厂商的研发成本和维护成本高的问题,具有较强的易用性和实用性。
本申请实施例所提供的语音识别方法可以适用于电子设备,该电子设备可以为手机、平板电脑、可穿戴设备、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、个人数字助理(personal digital assistant,PDA)、上网本等具有麦克风的电子设备,本申请实施例对电子设备的具体类型不作任何限制。
参考图1,图1示例性示出了本申请实施例提供的电子设备100的结构示意图。
如图1所示,电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(universal serial bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,摄像头180,显示屏181,以及用户标识模块(subscriber identification module,SIM)卡接口182等。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(application processor,AP),调制解调处理器,图形处理器(graphics processingunit,GPU),图像信号处理器(image signal processor,ISP),控制器,视频编解码器,数字信号处理器(digital signal processor,DSP),基带处理器,和/或神经神经网络处理器(neural-network processing unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在一些实施例中,处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在一些实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit,I1C)接口,集成电路内置音频(inter-integrated circuitsound,I1S)接口,脉冲编码调制(pulse code modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(mobile industry processor interface,MIPI),通用输入输出(general-purposeinput/output,GPIO)接口,用户标识模块(subscriber identity module,SIM)接口,和/或通用串行总线(universal serial bus,USB)接口等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏181,摄像头180,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(low noise amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在一些实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出语音信号,或通过显示屏181显示图像或视频。在一些实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks,WLAN)(如无线保真(wireless fidelity,Wi-Fi)网络),蓝牙(bluetooth,BT),全球导航卫星系统(global navigation satellite system,GNSS),调频(frequency modulation,FM),近距离无线通信技术(near field communication,NFC),红外技术(infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在一些实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications,GSM),通用分组无线服务(general packet radio service,GPRS),码分多址接入(codedivision multiple access,CDMA),宽带码分多址(wideband code division multipleaccess,WCDMA),时分码分多址(time-division code division multiple access,TD-SCDMA),长期演进(long term evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system,GPS),全球导航卫星系统(global navigation satellite system,GLONASS),北斗卫星导航系统(beidounavigation satellite system,BDS),准天顶卫星系统(quasi-zenith satellitesystem,QZSS)和/或星基增强系统(satellite based augmentation systems,SBAS)。
电子设备100通过GPU,显示屏181,以及应用处理器等实现显示功能。GPU为图像处理的微处理器,连接显示屏181和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏181用于显示图像,视频等。显示屏181包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display,LCD),或者采用有机发光二极管(organic light-emitting diode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的,AMOLED),柔性发光二极管(flex light-emitting diode,FLED),Miniled,MicroLed,Micro-oLed,量子点发光二极管(quantum dotlight emitting diodes,QLED)等材料制成。在一些实施例中,电子设备100可以包括1个或N个显示屏181,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(moving picture experts group,MPEG)1,MPEG1,MPEG3,MPEG4等。
NPU为神经网络(neural-network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
外部存储器接口120可以用于连接外部存储卡,例如Micro SD卡,实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等媒体文件保存在外部存储卡中。
内部存储器121可以用于存储计算机可执行程序代码,所述可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。其中,存储程序区可存储操作系统,至少一个功能所需的应用程序(比如声音播放功能,图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据,视频数据等)等。此外,内部存储器121可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件,闪存器件,通用闪存存储器(universal flash storage,UFS)等。处理器110通过运行存储在内部存储器121的指令,和/或存储在设置于处理器中的存储器的指令,执行电子设备100的各种功能应用以及数据处理。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为语音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成语音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将语音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将语音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集语音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集语音信号,降噪,还可以识别声源的方向和距离等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform,OMTP)标准接口,美国蜂窝电信工业协会(cellular telecommunications industry association of the USA,CTIA)标准接口。
SIM卡接口182用于连接SIM卡。SIM卡可以通过插入SIM卡接口182,或从SIM卡接口182拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。
可以理解的是,本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
以下,将根据图1所示的电子设备并结合具体的应用场景,对本申请实施例提供的语音识别方法进行详细说明。
如上所述,ASR模型的灵敏度是通过训练语料学习得到的,在使用ASR模型的过程中无法进行调节。因此,在本申请实施例提供的语音识别方法中,电子设备可以在使用ASR模型进行语音识别之前,根据用户设置的目标识别距离(即上述语音识别距离)以及待识别语音信号的声源距离,从待识别语音信号中筛选目标语音信号,对目标语音信号进行语音识别。
通过上述方法,用户可以根据实际的语音交互场景灵活调节目标识别距离,通过目标识别距离间接控制ASR模型的灵敏度,从而使相同的ASR模型可以适用于不同的语音交互场景,提高用户的使用体验,降低设备厂商的前期研发成本和后期维护成本。
具体地,请参阅图2,图2示出了本申请实施例提供的一种语音识别方法的流程示意图。如图2所示,该语音识别方法包括:
S201、获取待识别语音信号。
在本实施例中,电子设备可以在启动了语音识别功能之后,采集周围环境中的语音信号,得到待识别语音信号。
S202、检测待识别语音信号对应的声源距离。
在电子设备获取到待识别语音信号之后,电子设备可以检测待识别语音信号的声源距离。
其中,电子设备检测声源距离的方式可以根据实际需求进行设置。
在一些实施例中,电子设备上设置有麦克风阵列,电子设备可以根据麦克风阵列中各个麦克风接收到待识别语音信号的时间,计算上述待识别语音信号的声源方向和声源距离。
在另一些实施例中,电子设备也可以通过神经网络模型识别待识别语音信号的声源距离。
当电子设备获取到待识别语音信号时,电子设备可以将待识别语音信号输入上述神经网络模型,得到上述神经网络模型输出的声源距离。
其中,电子设备输入到神经网络模型的可以是完整的待识别语音信号;或者,电子设备输入的也可以是待识别语音信号对应的语音片段,例如,上述语音片段可以是从上述待识别语音信号截取的,任意长度的语音片段;或者,电子设备输入的也可以是待识别信号对应的语音帧,例如,电子设备可以根据预设分帧方式,将上述待识别语音信号划分为若干语音帧,将若干语音帧输入上述神经网络模型。
上述神经网络模型可以是卷积神经网络模型,或者,也可以是其他类型的神经网络模型。上述神经网络模型的具体类型和内部结构可以根据实际需求进行设置。
需要说明的是,当电子设备通过神经网络模型识别待识别语音信号的声源距离时,电子设备上可以不用设置多个麦克风,降低了对电子设备的硬件要求,可以适用于设置有单个麦克风的电子设备和设置有多个麦克风的电子设备。
在另一些实施例中,电子设备也可以通过其他方式检测声源距离。本申请实施例对电子设备检测待识别语音信号的声源距离的具体方式不予限制。
在一种示例中,当上述待识别语音信号包括单个声源的语音信号时,电子设备可以基于上述声源距离检测方式,检测该声源对应的声源距离。
在另一种示例中,当上述待识别语音信号中包括多个声源的语音信号(即上述子语音信号)时,电子设备可以基于上述声源距离检测方式检测其中一个声源的声源距离。例如,电子设备可以基于上述声源检测方式,检测距离电子设备最近的声源的声源距离。
在另一种示例中,当上述待识别语音信号中包括多个声源的语音信号时,电子设备也可以基于上述声源距离检测方式,检测待识别语音信号对应的各个声源的声源距离。例如,当上述待识别语音信号包含两个声源的语音信号时,电子设备可以基于上述声源距离检测方式对上述待识别语音信号进行检测,分别得到上述两个声源对应的声源距离。
S203、根据目标识别距离和上述声源距离,确定目标语音信号。
上述目标识别距离(即上述语音识别距离)用于限制ASR模型的灵敏度。上述目标识别距离可以是设备厂商预先设置的,或者,上述目标识别距离也可以是上述电子设备的实际使用者设置的。
例如,在一示例中,设备厂商可以在电子设备出厂前,根据该电子设备对应的语音交互场景,在该电子设备上预先设置一目标识别距离。
在另一示例中,用户可以在实际使用电子设备的过程中,根据电子设备当前所处的语音交互场景,对电子设备执行距离调节操作(即上述第一操作或第二操作)。
电子设备可以响应于用户的距离调节操作,确定目标识别距离。
上述距离调节操作可以包括拖动滑块、输入数字、点击选择档位等操作形式中的一种或多种,上述距离调节操作的具体表现形式可以根据实际场景确定。
例如,在一示例中,如图3中的(a)所示,假设电子设备的距离设置界面31中设置有滑动条32,滑动条32上设置有可以左右滑动的滑块33。
当用户想要调节目标识别距离时,用户可以拖动该滑动条32上的滑块33。
此时,电子设备可以根据滑块33所处的位置,确定目标识别距离并显示。
在另一示例中,如图3中的(b)所示,假设电子设备的距离设置界面31中设置有数字输入框34。
当用户想要调节目标识别距离时,用户可以点击该数字输入框34,唤起虚拟键盘35,在虚拟键盘35中输入相应的数字。
此时,电子设备可以根据用户输入的数字,确定目标识别距离。
在另一示例中,如图3中的(c)所示,假设电子设备的距离设置界面中设置有“远距离语音交互”、“中距离语音交互”、“近距离语音交互”三个档位。
当用户想要调节目标识别距离时,用户可以通过点击操作选择相应的档位。
此时,电子设备可以根据用户选择的档位,确定目标识别距离。
在其他的一些示例中,上述距离调节操作也可以表现为其他形式。本申请实施例对上述距离调节操作的具体表现形式不予限制。
电子设备在获取到待识别语音信号的声源距离之后,可以根据目标识别距离和声源距离,从待识别语音信号中筛选目标语音信号。
其中,电子设备筛选目标语音信号的条件可以根据实际需求进行设置。
例如,在一些实施例中,电子设备可以将声源距离小于或等于目标识别距离的待识别语音信号确定为目标语音信号。
在另一些实施例中,电子设备可以根据目标识别距离设置距离上限值和距离下限值;当电子设备检测到声源距离小于或等于距离下限值的待识别语音信号时,电子设备可以确定一起始点;当电子设备检测到声源距离大于或等于距离上限值的待识别语音信号时,电子设备可以确定一结束点;电子设备可以将上述起始点和上述结束点之间的待识别语音信号确定为目标语音信号。
在另一些实施例中,电子设备也可以根据其他条件筛选目标语音信号。本申请实施例对电子设备筛选目标语音信号的条件不予限制。
此外,在筛选目标语音信号时,电子设备除了考虑声源距离以外,还可以综合考虑其他语音参数。
上述语音参数可以包括待识别语音信号的人声概率、待识别信号的音频能量值等参数中的一种或多种。
例如,在一示例中,电子设备可以根据待识别语音信号的声源距离和人声概率筛选目标语音信号。
电子设备可以对待识别语音信号进行检测,得到待识别语音信号对应的声源距离和人声概率。
然后,电子设备可以将声源距离小于或等于目标识别距离,且人声概率大于或等于预设人声概率阈值的待识别语音信号确定为目标语音信号。
此外,当上述待识别语音信号中包括若干个声源的语音信号时,电子设备可以分别检测各个声源的语音信号是否满足上述筛选目标语音信号的条件,或者,电子设备也可以将上述若干个声源的语音信号视为一个整体,检测待识别信号整体是否满足上述筛选目标语音信号的条件。
当电子设备分别检测各个声源的语音信号是否满足上述筛选目标语音信号的条件时,电子设备可以将满足上述筛选条件的一个或多个声源的语音信号确定为目标语音信号。
此时,电子设备可以在确定了目标语音信号之后,对上述待识别语音信号进行语音分离处理,从上述待识别语音信号中分离出目标语音信号。
上述语音分离处理可以采用算法或神经网络模型进行实现,本申请实施例对上述语音分离处理的具体实现方式不予限制。示例性地,上述语音分离处理所采用的算法可以包括独立成分分析法(Independent Component Analysis,ICA)、听觉场景分析法(Computational Auditory Scene Analysis,CASA)、空间滤波法(Spatial Filtering,SF)等算法中的一种或多种。
当电子设备将上述若干个声源的语音信号视为一个整体时,若任意一个声源的语音信号满足上述筛选条件,则电子设备可以确认待识别语音信号整体满足上述筛选条件,将该待识别语音信号确定为目标语音信号。
S204、对上述目标语音信号进行语音识别,得到上述目标语音信号对应的识别文本。
在确定了目标语音信号之后,电子设备可以使用ASR模型对上述目标语音信号进行语音识别,得到上述目标语音信号对应的识别文本。
其中,设置在电子设备上的ASR模型可以为远场ASR模型,以确保上述ASR模型具备识别近场语音信号和远场语音信号的能力。
或者,也可以理解为上述ASR模型的可识别距离应当大于或等于目标识别距离的调节范围的上限值。
例如,假设目标识别距离的调节范围为0至5米,则上述ASR模型的可识别距离应当大于或等于5米,以确保上述ASR模型可以识别5米处的语音信号。
此外,当上述目标语音信号包含一个声源的语音信号时,电子设备可以识别该语音信号对应的识别文本。
当上述目标语音信号包含若干个声源的语音信号(即上述子目标信号)时,电子设备可以识别到其中一个声源对应的识别文本,或者,电子设备也可以分别识别目标语音信号中各个声源的语音信号,得到各个声源对应的识别文本。
例如,假设上述目标语音信号包含两个声源的语音信号。
在一示例中,电子设备对该目标语音信号进行语音识别之后,可以输出识别概率较高的语音信号对应的识别文本。
在另一示例中,电子设备对该目标语音信号进行语音识别之后,可以分别输出两个声源对应的识别文本。
通过上述语音识别方法,用户可以根据实际的语音交互场景,自主设置电子设备的目标识别距离,间接控制ASR模型的灵敏度,使得电子设备上的ASR模型既可以在远场语音交互场景中识别远场的语音信号,又可以在近场语音交互场景中屏蔽远场干扰信号的影响,灵活适配不同的语音交互场景,提高用户的使用体验。
此外,通过上述语音识别方法,设备厂商在训练ASR模型时,只需要确保ASR模型的可识别距离大于或等于目标识别距离的调节范围的上限值,不需要训练不同灵敏度的ASR模型,极大地减轻了设备厂商的前期研发成本和后期维护成本。
为了便于理解,本申请提供的另一实施例将结合应用场景对上述语音识别方法进行详细说明。
在本实施例中,可以将上述语音识别方法的实施过程划分为第一阶段和第二阶段,第一阶段用于调节目标识别距离,第二阶段用于对待识别语音信号进行语音识别。
第一阶段、调节目标识别距离。
在使用电子设备的过程中,用户可以根据电子设备所处的语音交互场景,灵活调整电子设备的目标识别距离。
示例性地,如图4中的(a)所示,当用户想要调节电子设备的目标识别距离时,用户可以对电子设备进行操作,进入电子设备的距离设置页面41。
假设上述距离设置页面设置41中设置有滑动条42和可以在滑动条42上左右滑动的滑块43。
用户在查看了距离设置页面之后,如图4中的(b)所示,用户可以根据想要调节的目标识别距离,将滑块43拖动到相应的位置。
此时,电子设备可以根据滑块43所处的位置,确定目标识别距离为2米。
第二阶段、对待识别语音信号进行语音识别。
在用户启用了电子设备的语音识别功能之后,电子设备可以采集周围环境中的语音信号,得到待识别语音信号。
在获取到待识别语音信号之后,电子设备可以根据预先设置的分帧方案将上述待识别语音信号划分为若干语音帧。
上述分帧方案可以根据实际需求进行设置。例如,在一示例中,电子设备可以按照帧长15ms,帧移10ms的方案划分语音帧;在另一示例中,电子设备可以按照帧长10ms,帧移5ms的方案划分语音帧;在另一示例中,电子设备可以按照帧长20ms,帧移10ms的方案划分语音帧;在其他的一些示例中,电子设备也可以按照其他方案划分语音帧。本申请实施例对上述分帧方案的具体内容不予限制。
在划分了语音帧之后,电子设备可以对上述语音帧逐帧进行检测,确定各个语音帧对应的帧标签。
上述帧标签的类型可以根据实际需求进行设置。例如,在一些实施例中,上述帧标签可以包括有效帧和无效帧;在另一些实施例中,上述帧标签可以包括有效帧、保持帧、无效帧;在另一些实施例中,上述帧标签也可以根据其他方式划分。
此外,电子设备识别上述语音帧对应的帧标签的方式可以根据实际需求进行设置。
在一些实施例中,电子设备可以根据上述目标识别距离和上述语音帧的声源距离,识别上述语音帧对应的帧标签;在另一些实施中,除了上述语音帧对应的声源距离以外,电子设备还可综合考虑其他语音参数,识别上述语音帧对应的帧标签。
例如,在一示例中,电子设备可以将上述声源距离大于目标声源距离的语音帧确定为有效帧,将上述声源距离小于或等于目标声源距离的语音帧确定为无效帧。
在另一示例中,电子设备可以根据上述语音帧的声源距离、人声概率和音频能量值识别上述语音帧对应的帧标签。
在本示例中,假设电子设备上设置有距离上限值、距离下限值、人声概率上限值、人声概率下限值、音频能量上限值和音频能量下限值。
如果电子设备检测到上述语音帧的声源距离小于或等于距离下限值、人声概率大于或等于人声概率上限值,且音频能量值大于或等于音频能量上限值,则电子设备可以将该语音帧确定为有效帧。
如果电子设备检测到上述语音帧的声源距离大于或等于距离上限值、人声概率小于或等于人声概率下限值,或者音频能量值小于或等于音频能量下限值,则电子设备可以将该语音帧确定为无效帧。
在其他情况下,电子设备可以将该语音帧确定为保持帧。
其中,上述距离上限值和距离下限值可以根据目标识别距离进行设置。例如,在一些实施例中,距离上限值可以设置为目标识别距离的2倍,距离下限值可以设置为目标识别距离的1.5倍;在另一些实施例中,距离上限值可以设置为目标识别距离的1.5倍,距离下限值可以设置为与目标识别距离一致;在另一些实施例中,距离上限值可以设置为目标识别距离的2倍,距离下限值可以设置为与目标识别距离一致;在另一些实施例中,距离上限值和距离下限值也可以设置为其他数值。
上述人声概率上限值和人声概率下限值可以根据实际需求进行设置。例如,在一些实施例中,人声概率上限值可以设置为0.9,人声概率下限值可以设置为0.8;在另一些实施例中,人声概率上限值可以设置为0.8,人声概率下限值可以设置为0.6;在另一些实施例中,人声概率上限值可以设置为0.6,人声概率下限值可以设置为0.3;在另一些实施例中,人声概率上限值和人声概率下限值也可以设置为其他数值。
上述音频能量上限值和音频能量下限值可以为预先设置的固定值,或者,上述音频能量上限值和音频能量下限值也可以根据目标识别距离设置。
例如,在一些实施例中,音频能量上限值可以固定设置为50分贝,音频能量下限值可以固定设置为30分贝;在另一些实施例中,音频能量上限值可以设置为(3*d+36)分贝,音频能量下限值可以设置为(3*d+30)分贝,d为目标识别距离;在另一些实施例中,音频能量上限值和音频能量下限值也可以设置为其他数值。
此外,当电子设备检测上述语音帧对应的声源距离和人声概率时,电子设备可以采用神经网络模型进行检测。
上述神经网络模型可以是ASR模型的前置模型,或者,上述神经网络模型也可以是ASR模型的一部分。
电子设备在训练上述神经网络模型时,电子设备采用的训练样本可以是完整的样本语音信号,该样本语音信号标注有一个或多个声源的声源距离;
或者,电子设备采用的训练样本也可以是完整的样本语音信号中的若干个样本语音片段,各个样本语音片段单独标注有一个或多个声源的声源距离;
或者,电子设备采用的训练样本也可以是由完整的样本语音信号分帧得到的若干帧样本帧,各帧样本帧单独标注有一个或多个声源的声源距离。
在上述神经网络模型训练完成后,电子设备可以将待识别语音信号输入上述神经网络模型,得到上述神经网络模型输出的声源距离。
此外,当电子设备使用上述神经网络模型检测声源距离时,电子设备可以采用单目标神经网络模型。
上述单目标神经网络模型可以理解为只有一类输出数据的神经网络模型;或者,上述单目标神经网络模型也可以理解为只有一个全连接层的神经网络模型。
或者,电子设备也可以采用多目标神经网络模型,同时检测上述语音帧对应的声源距离和其他语音参数。
上述多目标神经网络模型可以理解为有多类输出数据的神经网络模型;或者,上述多目标神经网络模型也可以理解为有多个全连接层的神经网络模型,一个全连接层对应一类输出数据。
例如,在一示例中,上述神经网络模型为双目标神经网络模型,包括两个全连接层。此时,上述双目标神经网络模型的一个全连接层可以用于输出待识别语音信号的声源距离,另一个全连接层可以用于输出待识别语音信号的其他语音参数,比如人声概率。
此外,当上述神经网络模型为多目标神经网络模型时,上述训练样本除了标注声源距离以外,还需要标注相应的语音参数,以使得训练后的神经网络模型具备识别相应的语音参数的能力。
上述神经网络模型的类型可以根据实际需求进行设置。示例性地,上述神经网络模型可以为卷积神经网络模型,或者,上述神经网络模型也可以为其他类型的神经网络模型,本申请实施例对上述神经网络模型的具体类型不予限制。
示例性地,请参阅图5,图5示出了双目标神经网络模型的一种可能的结构。
如图5所示,上述双目标神经网络模型可以由输入层51、卷积子网络52和全连接子网络53依次连接而成。
上述输入层51用于接收电子设备输入的语音帧,将语音帧传递至卷积子网络52。
上述卷积子网络52用于通过卷积的方式对上述语音帧进行特征提取,得到上述语音帧对应的语音特征,将上述语音特征传递至全连接子网络53。
如图6所示,上述卷积子网络52可以由一个或多个卷积块520组成(图6中仅示例性地示出3个卷积块520的场景),每个卷积块520可以包括至少一层卷积层,每个卷积块520的具体结构可以根据实际需求进行设置。
示例性地,请参阅图7,图7示出了卷积块520的一种可能的结构。
如图7所示,上述卷积块520可以由一维卷积层521、第一激活层522、第一归一化层523、深度可分离卷积层524、第二激活层525、第二归一化层526依次连接而成。
上述一维卷积层521和上述深度可分离卷积层524用于对上述语音帧进行特征提取。
上述第一激活层522和第二激活层525用于添加激活函数,增强上述双目标神经网络模型解决非线性问题的能力。
上述第一归一化层523和上述第二归一化层526用于进行归一化处理,降低上述双目标神经网络模型的收敛难度。
上述全连接子网络53用于对上述语音特征进行识别,得到相应的识别结果。其中,上述全连接子网53可以包括第一全连接层531和第二全连接层532,第一全连接层531和第二全连接层532分别与卷积子网络52的输出端连接。
上述第一全连接层531用于输出待识别语音信号的声源距离,在训练的过程中可以选用均方误差损失函数(Mean Square Error Loss,MSE-Loss)进行迭代更新;上述第二全连接层532用于输出待识别语音信号为人声信号的概率,在训练的过程中可以选用交叉熵损失函数(Cross Entropy Loss,CE-Loss)进行迭代更新。
在训练上述双目标神经网络模型时,训练样本可以是在真实的环境中录制的真实语音信号;或者,训练样本也可以是通过音频仿真技术得到的仿真语音信号。
当上述训练样本包括仿真语音信号时,电子设备可以通过以下方式获取仿真语音信号:
1、在音频仿真平台上创建一个随机形状、随机声学吸收系数的模拟房间;
2、在该模拟房间中设置随机个数的随机位置的模拟声源,以及,设置一个随机位置的模拟麦克风,计算各个模拟声源的位置到模拟麦克风的位置的一组声学脉冲响应函数;
3、在各个模拟声源处以随机音量播放随机音频,利用所得的一组声学脉冲响应函数对各个模拟声源播放的随机音频做滤波处理,仿真得到模拟麦克风采集的一条仿真语音信号;
4、对仿真语音信号进行逐帧标注是否为人声、以及最近的模拟声源到模拟麦克风的距离。
在使用上述双目标神经网络模型的过程中,电子设备可以将上述语音帧逐帧输入至双目标神经网络模型中。上述双目标神经网络模型可以对输入的语音帧进行识别,通过第一全连接层531输出各个语音帧对应的声源距离,以及,通过第二全连接层532输出各个语音帧对应的人声概率。
在其他的一些示例中,电子设备也可以通过其他方式识别语音帧对应的帧标签。本申请实施例对电子设备识别语音帧对应的帧标签的具体方式不予限制。
在识别到上述语音帧对应的帧标签之后,电子设备可以根据上述语音帧对应的帧标签,从上述语音帧中筛选目标语音信号,对目标语音信号进行语音识别。
例如,在一示例中,电子设备可以将有效帧确定为目标语音信号,将目标语音信号输入预先设置的ASR模型进行语音识别,得到目标语音信号对应的识别文本。
在另一示例中,电子设备可以设置四种语音状态,包括休眠态、休眠工作转换态、工作态和工作休眠转换态。
如图8所示,当电子设备处于休眠态时,如果电子设备检测到无效帧或保持帧,则电子设备可以维持休眠态;如果电子设备检测到有效帧,则电子设备可以进入休眠工作转换态。
当电子设备处于休眠工作转换态时,如果电子设备检测到无效帧,则电子设备可以返回休眠态;如果电子设备检测到有效帧或保持帧,则电子设备可以维持休眠工作转换态,累计有效帧的帧数。
当电子设备累计的有效帧的帧数大于或等于m帧时,电子设备可以进入工作态,确定一起始点,将起始点之后的语音帧确定为目标语音信号,将目标语音信号依次输入ASR模型进行语音识别,得到相应的识别文本。
当电子设备处于工作态时,如果电子设备检测到有效帧或保持帧,则电子设备可以维持工作态;如果电子设备检测到无效帧,则电子设备可以进入工作休眠转换态。
当电子设备处于工作休眠转换态时,如果电子设备检测到有效帧,则电子设备可以返回工作态;如果电子设备检测到无效帧或保持帧,则电子设备可以维持工作休眠转换态,累计无效帧的帧数。
当电子设备累计的无效帧的帧数大于或等于n帧时,电子设备可以进入休眠态,确定一结束点,停止对结束点之后的语音帧进行语音识别。
上述m和n均为预先设置的正整数,其具体数值可以根据实际需求进行设置。例如,在一些实施例中,上述m可以设置为12,上述n可以设置为12;在另一些实施例中,上述m可以设置为10,上述n可以设置为10;在另一些实施例中,上述m可以设置为6,上述n可以设置为12。
其他的一些示例中,电子设备也可以通过其他方式筛选目标语音信号。本申请实施例对电子设备筛选目标语音信号的具体方式不予限制。
通过上述语音识别方法,用户可以根据实际的语音交互场景,自主设置电子设备的目标识别距离,间接控制ASR模型的灵敏度,使得电子设备上的ASR模型既可以在远场语音交互场景中识别远场的语音信号,又可以在近场语音交互场景中屏蔽远场干扰信号的影响,灵活适配不同的语音交互场景,提高用户的使用体验。
此外,通过上述语音识别方法,设备厂商在训练ASR模型时,只需要确保ASR模型的可识别距离大于或等于目标识别距离的调节范围的上限值,无需训练不同灵敏度的ASR模型,极大地减轻了设备厂商的前期研发成本和后期维护成本。
为了便于理解,以下将结合具体的应用场景对上述语音识别方法进行详细说明。
示例一:
如图9所示,在本示例中,可以将手机91理解为上述电子设备。
如图10中的(a)所示,当用户想要调节手机91的目标识别距离时,用户可以对手机91进行操作,进入手机91的距离设置页面911。
假设上述距离设置页面设置911中设置有滑动条912和可以在滑动条912上左右滑动的滑块913。
用户在查看了距离设置页面之后,如图10中的(b)所示,用户可以根据想要调节的目标识别距离,将滑块913拖动到相应的位置。
此时,手机91可以根据滑块913所处的位置,确定目标识别距离为1米。
当用户在观看智慧大屏92播放的节目时,如果手机91开启了语音识别功能,则手机91可以采集到第一语音信号,第一语音信号包括智慧大屏92播放的语音信号。
然后,手机91可以将上述第一语音信号划分为若干第一语音帧,检测各第一语音帧对应的音频能量值,以及,将各第一语音帧逐帧输入图5所示的双目标神经网络模型,得到各第一语音帧对应的声源距离和人声概率值。
假设手机91到智慧大屏92的距离为2.7米,目标识别距离为d,距离上限值为2*d=2米,距离下限值为1*d=1米。
此时,手机91可以检测到各第一语音帧对应的声源距离均大于距离上限值,所以,如图11所示,手机91可以将上述第一语音帧确定为无效帧,始终保持在休眠态,不进行语音识别。
如图12所示,当用户对手机91说“小艺小艺,设置明天早上八点的闹钟”时,手机91可以采集到第二语音信号,第二语音信号包括用户发出的人声信号和上述智慧大屏92播放的语音信号。
然后,手机91可以将上述第二语音信号划分为若干第二语音帧,检测各第二语音帧对应的音频能量值,以及,将各第二语音帧逐帧输入图5所示的双目标神经网络模型,得到各第二语音帧对应的声源距离和人声概率值。
此时,手机91可以检测到各第二语音帧对应的声源距离小于距离下限值、各第二语音帧的人声概率大于人声概率上限值,且各第二语音帧的音频能量值大于音频能量上限值,所以,手机91可以将上述第二语音帧确定为有效帧。
如图13所示,当手机91检测到有效帧时,手机91可以从休眠态进入休眠工作转换态,开始累计有效帧的帧数。
当手机91累计的有效帧的帧数大于或等于12帧时,手机91进入工作态,将后续的语音帧传输到ASR模型进行语音识别,得到相应的识别文本“小艺小艺,设置明天早上9点的闹钟”。
然后,手机91可以执行与该识别文本对应的操作,打开闹钟应用程序,设置明天早上9点的闹钟。
在用户说完上述语句之后,手机91可以采集到第三语音信号,第三语音信号包含智慧大屏92播放的语音信号。
此时,手机91可以检测到上述第三语音信号对应的第三语音帧为无效帧,所以,如图14所示,手机91可以从工作态进入工作休眠转换态,开始累计无效帧的帧数。
当手机91累计的无效帧的帧数大于或等于12帧时,手机91进入休眠态,停止对后续的语音帧进行语音识别。
示例二:
如图15所示,基于本申请实施例上述的语音识别方法,提供一种语音识别方法的示例。本申请实施例前述的语音识别方法的内容均适用于本申请的各个示例,对此不再赘述。图15所示例的语音识别方法包括:
步骤1501、响应于用户的距离调节操作,将目标识别距离调整为1米。
如图16所示,在本示例中,平板电脑161为上述电子设备。
用户在使用平板电脑161时,可以通过距离调节操作,将目标识别距离d设置为1米,屏蔽远场语音信号的干扰。
上述距离调节操作可以包括拖动滑块、输入数字、点击选择档位等操作形式中的一种或多种。例如,在一示例中,如图3中的(a)场景所示,上述距离调节操作可以包括拖动滑块33;在另一示例中,如图3中的(b)场景所示,上述距离调节操作也可以包括在数字输入框34中输入相应的数字;在另一示例中,如图3中的(c)场景所示,上述距离调节操作也可以包括选择相应的档位;在其他的一些示例中,上述距离调节操作也可以表现为其他操作形式。
此时,示例性地,平板电脑161可以响应于用户的距离调节操作,将目标识别距离d调整为1米,确定距离上限值为1.5*d=1.5*1=1.5米。
步骤1502、获取第一语音信号。
后续,用户在使用平板电脑161时,打开了平板电脑161上的备忘录应用程序,启用了备忘录应用程序中的语音速记功能。
在启用了语音速记功能之后,平板电脑161可以采集周围的待识别语音信号。
示例性地,如图17所示,用户自己对着平板电脑161说“明天早上10点去科技园开会”。此时,平板电脑161采集到了用户发出的人声信号,得到第一语音信号。
步骤1503、检测第一语音信号对应的第一声源距离,并根据上述第一声源距离确定上述第一语音信号为目标语音信号。
在获取到第一语音信号之后,平板电脑161可以检测第一语音信号对应的第一声源距离。
在检测第一声源距离时,平板电脑161可以根据麦克风阵列中各个麦克风接收到第一语音信号的时间,计算上述第一语音信号对应的第一声源距离和第一声源方向;或者,平板电脑161也可以基于神经网络模型检测第一语音信号对应的第一声源距离;或者,平板电脑161也可以采用其他方式检测第一语音信号对应的第一声源距离。
示例性地,平板电脑161可以采用图5所示的双目标神经网络模型检测第一语音信号对应的第一声源距离。
之后,平板电脑161检测到第一声源距离远小于距离上限值1.5米,所以,平板电脑161可以将第一语音信号确定为目标语音信号。
步骤1504、对第一语音信号进行语音识别,得到第一识别文本。
在确定了第一语音信号为目标语音信号之后,平板电脑161可以通过ASR模型对第一语音信号进行语音识别,得到第一语音信号对应的第一识别文本“明天早上10点去科技园开会”并显示。
步骤1505、获取第二语音信号。
后续,示例性地,如图18所示,有另一个人在距离用户3米的地方说了句:“杰克,冰箱里有果汁吗”。此时,平板电脑161采集到了另一个人发出的人声信号,得到第二语音信号。
步骤1506、检测第二语音信号对应的第二声源距离,并根据第二声源距离确定第二语音信号不是目标语音信号。
在获取到第二语音信号之后,平板电脑161可以检测第二语音信号对应的第二声源距离。
之后,平板电脑161检测到第二声源距离远大于距离上限值1.5米,所以,平板电脑161可以确定第二语音信号不是目标语音信号,平板电脑161可以不对第二语音信号进行语音识别。或者,在一种示例中,平板电脑161可以对第二语音信号进行语音识别,但是不进行显示。
在另一场景中,如图19所示,基于本申请前述实施例,提供了另一种语音识别方法的示例。图19所示例的语音识别方法包括:
步骤1901、响应于用户的距离调节操作,将目标识别距离调整为3米。
如图20所示,在本场景中,用户在一个小会议室中开会。此时,用户可以通过距离调节操作,将目标识别距离d设置为3米,使得平板电脑161既可以识别会议室内其他与会者发出的人声信号,又可以屏蔽远场语音信号的干扰。
示例性地,平板电脑161可以根据响应于用户的距离调节操作,上述目标识别距离d调整为3米,确定距离上限值为1.5*d=1.5*3=4.5米。
步骤1902、获取第三语音信号。
在会议讨论的过程中,用户打开了平板电脑161上的备忘录应用程序,启用了备忘录应用程序中的语音速记功能。
在启用了语音速记功能之后,平板电脑161可以采集环境中的待识别语音信号。
示例性地,在用户或其他与会者发言时,平板电脑161可以采集到第三语音信号。
步骤1903、检测第三语音信号对应的第三声源距离,并根据上述第三声源距离确定上述第三语音信号为目标语音信号。
在获取到第三语音信号之后,平板电脑161可以检测第三语音信号对应的第三声源距离。
后续,平板电脑161检测到第三声源距离小于距离上限值4.5米,所以,平板电脑161可以将上述第三语音信号确定为目标语音信号。
步骤1904、对第三语音信号进行语音识别,得到第三识别文本。
在确定了第三语音信号为目标语音信号之后,平板电脑161可以对第三语音信号进行语音识别,得到相应的识别文本并显示,从而记录各个与会者的发言。
此外,平板电脑161还可能采集到小会议室之外的干扰语音信号。此时,平板电脑161可以检测到上述干扰语音信号的声源距离大于上述距离上限值4.5米,所以,平板电脑161可以不对小会议室之外的干扰语音信号进行语音信号。
在另一场景中,如图21所示,基于本申请前述实施例,提供了另一种语音识别方法的示例。图21所示例的语音识别方法包括:
步骤2101、响应于用户的距离调节操作,将目标识别距离调整为最大值。
在本场景中,如图22所示,用户在一个大会议室中开会,用户与主讲人的距离较远。
此时,用户可以通过距离调节操作,将目标识别距离d设置为最大值,使得平板电脑161可以识别远场的语音信号。
示例性地,平板电脑161可以响应于用户的距离调节操作,取消距离上限值。
步骤2102、获取第四语音信号。
后续,用户打开了平板电脑161上的备忘录应用程序,启用了备忘录应用程序中的语音速记功能。
在启用了语音速记功能之后,平板电脑161可以采集环境中的待识别语音信号,得到第四语音信号。
步骤2103、对第四语音信号进行语音识别,得到第四识别文本。
由于平板电脑161取消了距离上限值,所以,平板电脑161可以直接对第四语音信号进行语音识别,得到相应的识别文本并显示,从而记录主讲人和其他与会者的发言。
在一种示例中,用户想要记录主讲人的发言,屏蔽其他与会者的发言。此时,用户可以对平板电脑161执行距离调节操作,将距离上限值设置为10米,将距离下限值设置为8米。
平板电脑可以响应于用户的距离调节操作,确定距离上限值为10米,距离下限值为8米。
之后,当平板电脑采集到主讲人的人声信号时,平板电脑可以检测到主讲人的人声信号对应的声源距离小于上述距离上限值10米,且大于上述距离下限值8米。
所以,平板电脑可以将主讲人的人声信号确定为目标语音信号,对主讲人的人声信号进行语音识别,得到相应的识别文本并显示。
当平板电脑采集到其他与会者的人声信号时,平板电脑可以检测到其他与会者的人声信号对应的声源距离小于上述距离下限值8米,所以,平板电脑可以确定其他与会者的人声信号不是目标语音信号,不对其他与会者的人声信号进行语音识别。或者,在一种示例中,平板电脑161也可以对其他与会者的人声信号进行语音识别,但是不进行显示。
通过上述示例可知,在本申请实施例提供的语音识别方法中,用户可以根据实际的语音交互场景,自主设置电子设备的目标识别距离。
然后,电子设备可以根据目标识别距离筛选目标语音信号,间接控制ASR模型的灵敏度,使得电子设备上的ASR模型适用不同的应用场景,提高用户的使用体验,减轻设备厂商的前期研发成本和后期维护成本。
在筛选目标语音信号时,电子设备除了考虑目标识别距离和声源距离以外,还可以综合考虑人声概率和音频能量值等语音参数,剔除待识别语音信号中的非人声片段,提高语音识别的效率。
在检测待识别语音信号的声源距离和人声概率时,电子设备可以采用双目标神经网络模型进行检测,提高上述声源距离和人声概率的识别准确性。
此外,在筛选目标语音信号时,电子设备可以设置休眠态、休眠工作转换态、工作态和工作休眠转换态,通过休眠工作转换态和工作休眠转换态的缓冲,可以避免电子设备因为偶然的数据抖动或数据误差,在休眠态和工作态中频繁切换,提高系统的鲁棒性。
应理解,上述实施例中描述各步骤的顺序并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
在实际应用的过程中,电子设备可以实施上述任一实施例所描述的语音识别方法,或者,电子设备也可以实施上述多种实施例的组合。本申请实施例对电子设备实施上述语音识别方法的具体实施方式不予限制。
对应于上述实施例所描述的语音识别方法,图23示出了本申请实施例提供的语音识别装置的结构框图,为了便于说明,仅示出与本申请实施例相关的部分,本申请前述实施例涉及地内容均适用于本申请实施例,对此不做限定。
该装置可以应用于电子设备,参照图23,该装置包括:
语音录制模块2301,用于获取待识别语音信号。
距离检测模块2302,用于检测待识别语音信号对应的声源距离。
语音确定模块2303,用于根据目标识别距离和上述声源距离,确定目标语音信号。
语音识别模块2304,用于对上述目标语音信号进行语音识别,得到上述目标语音信号对应的识别文本。
上述语音录制模块2301可以包括电子设备的麦克风。
当电子设备启动了语音识别功能时,电子设备可以基于麦克风,采集环境中的待识别语音信号,例如实现如图2中步骤S201所示内容。
上述距离检测模块2302可以包括神经网络模型。电子设备在获取到待识别语音信号之后,可以将待识别语音信号输入神经网络模型,得到神经网络模型输出的声源距离,例如实现如图2中步骤S202所示内容。
上述语音确定模块2303可以为预先设置了筛选条件的功能模块。电子设备在获取到上述声源距离之后,可以根据语音确定模块2303中设置的筛选条件,从上述待识别语音信号中筛选目标语音信号,例如实现如图2中步骤S203所示内容。
上述语音识别模块2304可以包括ASR模型。电子设备在确定了目标语音信号之后,可以将目标语音信号输入ASR模型,得到ASR模型输出的识别文本,例如实现如图2中步骤S204所示内容。
在一些实施例中,上述装置还可以包括距离设置模块,上述距离设置模块用于响应于用户的距离调节操作,设置目标识别距离。
此外,在一些实施例中,上述待识别信号包括若干个声源的语音信号,语音确定模块2303筛选的目标语音信号包括上述待识别信号中的一个或多个声源对应的语音信号。
此时,语音确定模块2303和语音识别模块2304之间还可以设置有语音分离模块。
上述语音分离模块,用于对上述待识别语音信号执行语音分离处理,从所述待识别语音信号中分离出目标语音信号。
在语音分离模块分离出目标语音信号之后,语音识别模块2304可以对上述目标语音信号进行语音识别,得到一个或多个声源对应的识别文本。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
最后应说明的是:以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (22)
1.一种语音识别方法,应用于电子设备,其特征在于,包括:
响应于用户的第一操作,设置语音识别距离;
获取第一待识别语音信号;
检测所述第一待识别语音信号对应的第一声源距离;
根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号;
对所述第一目标语音信号进行语音识别,得到第一识别文本。
2.如权利要求1所述的方法,其特征在于,所述响应于用户的第一操作,设置语音识别距离,包括:
显示所述语音识别距离的设置界面,并在所述设置界面中显示多个可选择的距离,所述多个可选择的距离对应多个不同的语音识别距离区间;
检测到用户在所述设置界面上的第一操作;
响应于所述第一操作,设置所述语音识别距离。
3.如权利要求1或2所述的方法,其特征在于,所述检测所述第一待识别语音信号对应的第一声源距离,包括:
通过神经网络模型检测所述第一待识别语音信号对应的第一声源距离。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述第一待识别语音信号包括多个子语音信号;
所述检测所述第一待识别语音信号对应的第一声源距离,包括:
检测所述多个子语音信号中每个子语音信号对应的声源距离。
5.如权利要求4所述的方法,其特征在于,所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
根据设置的语音识别距离和所述每个子语音信号对应的声源距离,从所述多个子语音信号中确定第一目标语音信号。
6.如权利要求1至5中任一项所述的方法,其特征在于,所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
将所述第一待识别语音信号中所述第一声源距离小于或等于所述设置的语音识别距离的语音信号确定为第一目标语音信号;或者,
根据所述语音识别距离确定距离上限值和距离下限值;
将所述第一待识别语音信号中所述第一声源距离大于或等于所述距离下限值且小于或等于所述距离上限值的语音信号,确定为第一目标语音信号。
7.如权利要求1至5中任一项所述的方法,其特征在于,在所述获取第一待识别语音信号之后,还包括:
检测所述第一待识别语音信号对应的语音参数,所述语音参数包括人声概率;
所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
将所述第一待识别语音信号中所述第一声源距离小于或等于所述设置的语音识别距离且所述人声概率大于或等于预设人声概率阈值的语音信号,确定为第一目标语音信号。
8.如权利要求3所述的方法,其特征在于,所述神经网络模型为双目标神经网络模型,所述双目标神经网络模型包括输入层、卷积子网络和全连接子网络;
所述输入层用于接收所述第一待识别语音信号,将所述第一待识别语音信号传递给所述卷积子网络;
所述卷积子网络用于通过卷积的方式对所述第一待识别语音信号进行特征提取,得到语音特征,将所述语音特征传递给所述全连接子网络;
所述全连接子网络包括第一全连接层和第二全连接层;所述第一全连接层用于对所述语音特征进行识别,输出所述待识别的语音信号对应的第一声源距离;所述第二全连接层用于对所述语音特征进行识别,输出所述第一待识别语音信号对应的人声概率。
9.如权利要求1所述的方法,其特征在于,所述第一待识别语音信号包括至少一帧语音帧,所述第一声源距离包括所述至少一帧语音帧对应的声源距离;
所述根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号,包括:
根据设置的语音识别距离和所述至少一帧语音帧对应的声源距离,确定所述至少一帧语音帧对应的帧标签,所述帧标签用于指示所述至少一帧语音帧为有效帧或无效帧;
根据所述至少一帧语音帧对应的帧标签,确定目标语音帧。
10.如权利要求9所述的方法,其特征在于,所述根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
当所述电子设备处于休眠态时,若检测到有效帧,则进入休眠工作转换态;
当所述电子设备处于休眠工作转换态时,开始累计有效帧的帧数;
在累计有效帧的过程中,若检测到无效帧,则停止累计有效帧的帧数,返回休眠态;若累计的有效帧的帧数大于或等于第一帧数,则进入工作态,确定一起始点;
当所述电子设备处于工作态时,若检测到无效帧,则进入工作休眠转换态;
当所述电子设备处于工作休眠转换态时,开始累计无效帧的帧数;
在累计无效帧的过程中,若检测到有效帧,则停止累计无效帧的帧数,返回工作态;若累计的无效帧的帧数大于或等于第二帧数,则进入休眠态,确定一结束点;
将所述起始点和所述结束点之间的语音帧确定为目标语音帧。
11.如权利要求9所述的方法,其特征在于,所述根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
当检测到有效帧时,确定一起始点;
当检测到无效帧时,确定一结束点;
将所述起始点和所述结束点之间的语音帧确定为目标语音帧。
12.如权利要求9所述的方法,其特征在于,所述根据所述至少一帧语音帧对应的帧标签,确定目标语音帧,包括:
将所述有效帧确定为目标语音帧。
13.如权利要求1至12中任一项所述的方法,其特征在于,所述第一目标语音信号包括多个子目标信号;
所述对所述第一目标语音信号进行语音识别,得到第一识别文本,包括:
对所述多个子目标信号进行语音识别,得到所述多个子目标信号中每个子目标信号对应的识别文本。
14.如权利要求1至13中任一项所述的方法,其特征在于,在所述得到第一识别文本之后,还包括:
响应于用户的第二操作,更改所述语音识别距离;
获取第二待识别语音信号;
检测所述第二待识别语音信号对应的第二声源距离;
根据更改的语音识别距离和所述第二声源距离,从所述第二待识别语音信号中确定第二目标语音信号;
对所述第二目标语音信号进行语音识别,得到第二识别文本。
15.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述电子设备被配置为执行所述计算机程序时实现如权利要求1至14中任一项所述的方法。
16.一种语音识别装置,应用于电子设备,其特征在于,包括:
距离设置模块,用于响应于用户的第一操作,设置语音识别距离;
语音录制模块,用于获取第一待识别语音信号;
距离检测模块,用于检测所述第一待识别语音信号对应的第一声源距离;
语音确定模块,用于根据设置的语音识别距离和所述第一声源距离,从所述第一待识别语音信号中确定第一目标语音信号;
语音识别模块,用于对所述第一目标语音信号进行语音识别,得到第一识别文本。
17.如权利要求16所述的装置,其特征在于,所述距离设置模块,具体用于实施以下步骤:
显示所述语音识别距离的设置界面,并在所述设置界面中显示多个可选择的距离,所述多个可选择的距离对应多个不同的语音识别距离区间;
检测到用户在所述设置界面上的第一操作;
响应于所述第一操作,设置所述语音识别距离。
18.如权利要求16或17所述的装置,其特征在于,所述距离检测模块,具体用于通过神经网络模型检测所述第一待识别语音信号对应的第一声源距离。
19.如权利要求16至18中任一项所述的装置,其特征在于,所述第一待识别语音信号包括多个子语音信号;
所述距离检测模块,具体用于检测所述多个子语音信号的每个子语音信号对应的声源距离。
20.如权利要求19所述的装置,其特征在于,所述语音确定模块,具体用于根据设置的语音识别距离和所述每个子语音信号对应的声源距离,从所述多个子语音信号中确定第一目标语音信号。
21.一种计算机可读存储介质,所述计算机可读存储介质被配置为存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至14中任一项所述的方法。
22.一种芯片系统,其特征在于,所述芯片系统包括存储器和处理器,所述处理器被配置为执行所述存储器中存储的计算机程序,以实现如权利要求1至14中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113131.5A CN116564298A (zh) | 2022-01-29 | 2022-01-29 | 语音识别方法、电子设备及计算机可读存储介质 |
PCT/CN2022/139335 WO2023142757A1 (zh) | 2022-01-29 | 2022-12-15 | 语音识别方法、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210113131.5A CN116564298A (zh) | 2022-01-29 | 2022-01-29 | 语音识别方法、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116564298A true CN116564298A (zh) | 2023-08-08 |
Family
ID=87470376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210113131.5A Pending CN116564298A (zh) | 2022-01-29 | 2022-01-29 | 语音识别方法、电子设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116564298A (zh) |
WO (1) | WO2023142757A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20080111290A (ko) * | 2007-06-18 | 2008-12-23 | 삼성전자주식회사 | 원거리 음성 인식을 위한 음성 성능을 평가하는 시스템 및방법 |
CN102789218A (zh) * | 2012-07-20 | 2012-11-21 | 大连理工大学 | 一种基于多控制器的Zigbee智能家居系统 |
CN206920917U (zh) * | 2017-08-02 | 2018-01-23 | 北京亚讯英达信息技术有限公司 | 一种基于语音控制的智能家居主机 |
CN108449507B (zh) * | 2018-03-12 | 2020-04-17 | Oppo广东移动通信有限公司 | 语音通话数据处理方法、装置、存储介质及移动终端 |
CN113436613A (zh) * | 2021-06-30 | 2021-09-24 | Oppo广东移动通信有限公司 | 语音识别方法、装置、电子设备及存储介质 |
-
2022
- 2022-01-29 CN CN202210113131.5A patent/CN116564298A/zh active Pending
- 2022-12-15 WO PCT/CN2022/139335 patent/WO2023142757A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2023142757A1 (zh) | 2023-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110364151B (zh) | 一种语音唤醒的方法和电子设备 | |
EP4191579A1 (en) | Electronic device and speech recognition method therefor, and medium | |
CN113393856B (zh) | 拾音方法、装置和电子设备 | |
CN113448482B (zh) | 触控屏的滑动响应控制方法及装置、电子设备 | |
WO2022022585A1 (zh) | 电子设备及其音频降噪方法和介质 | |
CN113473013A (zh) | 图像美化效果的显示方法、装置和终端设备 | |
CN114822525A (zh) | 语音控制方法和电子设备 | |
CN113660369B (zh) | 来电处理及模型训练方法、装置、终端设备和存储介质 | |
CN116052648A (zh) | 一种语音识别模型的训练方法、使用方法及训练系统 | |
CN116825076B (zh) | 语音通话降噪方法、电子设备及可读存储介质 | |
CN116665692B (zh) | 语音降噪方法和终端设备 | |
CN114449333B (zh) | 视频笔记生成方法及电子设备 | |
CN116612458B (zh) | 基于深度学习的泊车路径确定方法与系统 | |
CN109285563B (zh) | 在线翻译过程中的语音数据处理方法及装置 | |
CN116055951B (zh) | 信号处理方法和电子设备 | |
CN116564298A (zh) | 语音识别方法、电子设备及计算机可读存储介质 | |
CN114666444B (zh) | 设备控制方法、装置和电子设备 | |
CN114120950A (zh) | 一种人声屏蔽方法和电子设备 | |
CN113889084A (zh) | 音频识别方法、装置、电子设备及存储介质 | |
CN112820317A (zh) | 语音处理方法和电子设备 | |
CN116665643B (zh) | 韵律标注方法、装置和终端设备 | |
WO2023065854A1 (zh) | 分布式语音控制方法及电子设备 | |
CN114093380B (zh) | 一种语音增强方法、电子设备、芯片系统及可读存储介质 | |
WO2023098412A1 (zh) | 字幕控制方法、电子设备及计算机可读存储介质 | |
CN114697953B (zh) | 一种网络制式确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |