CN115223553B - 语音识别方法和驾驶辅助系统 - Google Patents
语音识别方法和驾驶辅助系统 Download PDFInfo
- Publication number
- CN115223553B CN115223553B CN202210243302.6A CN202210243302A CN115223553B CN 115223553 B CN115223553 B CN 115223553B CN 202210243302 A CN202210243302 A CN 202210243302A CN 115223553 B CN115223553 B CN 115223553B
- Authority
- CN
- China
- Prior art keywords
- target
- lip
- head image
- lip line
- line template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 21
- 238000012544 monitoring process Methods 0.000 claims description 17
- 238000005314 correlation function Methods 0.000 claims description 12
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 238000010276 construction Methods 0.000 claims description 3
- 230000000875 corresponding effect Effects 0.000 description 143
- 230000006870 function Effects 0.000 description 102
- 239000013598 vector Substances 0.000 description 32
- 238000012549 training Methods 0.000 description 15
- 230000008859 change Effects 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 9
- 102100034112 Alkyldihydroxyacetonephosphate synthase, peroxisomal Human genes 0.000 description 6
- 101000799143 Homo sapiens Alkyldihydroxyacetonephosphate synthase, peroxisomal Proteins 0.000 description 6
- 238000000848 angular dependent Auger electron spectroscopy Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 210000002105 tongue Anatomy 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003708 edge detection Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种语音识别方法和驾驶辅助系统。该方法包括:获取当前时刻采集的目标头部图像和目标语音信号;采用预先设置的语速识别模型对目标头部图像进行处理,获取目标头部图像对应的目标语速信号;采用目标语速信号对应的目标速率,对目标语音信号进行识别,确定目标语音信号对应的目标语音语义。通过采集当前时刻对应的目标头部图像和目标语音信号,使得利用目标头部图像辅助目标语音信号进行识别时,可避免其他人说话干扰,采用语速识别模型对实时采集的目标头部图像进行识别,确定其目标语速信号,以便根据目标对象说话时的语速,对目标语音信号进行识别,保障目标语音语义识别的针对性和准确性。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别方法和驾驶辅助系统。
背景技术
随着汽车电子技术的进步,汽车智能化程度大幅提高,自动驾驶技术日益受到关注,使得驾驶辅助系统(Advanced Driver Assistance Systems,以下简称ADAS)发展迅速。ADAS指利用安装于车上的各种环境感知传感器,实时收集车内外的环境数据,进行静态物体和动态物体的识别、侦测与追踪等技术上的处理,结合汽车执行系统,提升行车安全性及交互便利性。ADAS主要包括如下功能模块:盲区监测、驾驶员监控系统(DMS)、自动紧急制动、前车防撞预警、自动泊车、全景泊车、自适应巡航和车道偏离警示等。ADAS可实现根据采集到的驾驶员语音进行语音识别和智能控制,以实现智能驾驶。当前ADAS主要采用声音传感器拾音识别,不能对捕捉到的语音信号进行细分,采用固定速率进行语音识别,在车内环境嘈杂或者多个同时说话时,会影响语音识别成功率。
发明内容
本发明实施例提供一种语音识别方法和驾驶辅助系统,以解决现有语音识别准确率较低的问题。
本发明实施例提供一种语音识别方法,包括:
获取当前时刻采集的目标头部图像和目标语音信号;
采用预先设置的语速识别模型对所述目标头部图像进行处理,获取所述目标头部图像对应的目标语速信号;
采用所述目标语速信号对应的目标速率,对所述目标语音信号进行识别,确定所述目标语音信号对应的目标语音语义。
优选地,所述采用预先设置的语速识别模型对所述目标头部图像进行处理,获取所述目标头部图像对应的目标语速信号,包括:
对所述目标头部图像进行唇形几何特征提取,获取所述目标头部图像对应的目标唇形几何特征;
对所述目标头部图像进行内唇灰度特征提取,获取所述目标头部图像对应的目标内唇灰度特征;
根据所述目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定所述目标头部图像对应的目标语速信号。
优选地,对所述目标头部图像进行唇形几何特征提取,构建所述目标头部图像对应的目标唇形几何特征,包括:
将所述目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板;
将所述目标唇线模板对应的唇形几何特征,确定为所述目标头部图像对应的目标唇形几何特征。
优选地,所述将所述目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板,包括:
对所述目标头部图像进行特征提取,获取所述目标头部图像对应的实测外唇线;
将所述实测外唇线与唇线模板数据库中的已有唇线模板进行匹配处理,构建所述已有唇线模板对应的代价函数;
采用梯度下降法更新所述已有唇线模板的参数,在所述已有唇线模板对应的代价函数达到目标阈值时,将更新后的已有唇线模板,确定为目标唇线模板。
优选地,所述根据所述目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定所述目标头部图像对应的目标语速信号,包括:
根据所述目标头部图像对应的目标唇形几何特征,获取几何特征相关系数;
根据所述目标头部图像对应的目标内唇灰度特征,获取灰度特征相关系数;
根据所述几何特征相关系数和所述灰度特征相关系数,获取语速相关函数;
将所述语速相关函数在时域上求导,确定所述目标头部图像对应的目标语速信号。
本发明实施例提供一种驾驶辅助系统,包括摄像设备、拾音设备和驾驶员监控系统;
所述摄像设备,用于在当前时刻采集驾驶员对应的目标头部图像,将所述目标头部图像发送给所述驾驶员监控系统;
所述拾音设备,用于在当前时刻采集驾驶员对应的目标语音信号,将所述目标语音信号发送给所述驾驶员监控系统;
所述驾驶员监控系统,用于采用预先设置的语速识别模型对所述目标头部图像进行处理,获取所述目标头部图像对应的目标语速信号,采用所述目标语速信号对应的目标速率,对所述目标语音信号进行识别,确定所述目标语音信号对应的目标语音语义。
优选地,所述驾驶员监控系统,包括:
唇形几何特征提取模块,对所述目标头部图像进行唇形几何特征提取,获取所述目标头部图像对应的目标唇形几何特征;
内唇灰度特征提取模块,用于对所述目标头部图像进行内唇灰度特征提取,获取所述目标头部图像对应的目标内唇灰度特征;
目标语速信号确定模块,用于根据所述目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定所述目标头部图像对应的目标语速信号。
优选地,所述唇形几何特征提取模块,包括:
目标唇线模板确定单元,用于将所述目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板;
唇形几何特征确定单元,用于将所述目标唇线模板对应的唇形几何特征,确定为所述目标头部图像对应的目标唇形几何特征。
优选地,所述目标唇线模板确定单元,包括:
实测外唇线获取子单元,用于对所述目标头部图像进行特征提取,获取所述目标头部图像对应的实测外唇线;
代价函数构建子单元,用于将所述实测外唇线与唇线模板数据库中的已有唇线模板进行匹配处理,构建所述已有唇线模板对应的代价函数;
唇线模板确定子单元,用于采用梯度下降法更新所述已有唇线模板的参数,在所述已有唇线模板对应的代价函数达到目标阈值时,将更新后的已有唇线模板,确定为目标唇线模板。
优选地,所述目标语速信号确定模块,包括:
几何特征相关系数获取单元,用于根据所述目标头部图像对应的目标唇形几何特征,获取几何特征相关系数;
灰度特征相关系数获取单元,用于根据所述目标头部图像对应的目标内唇灰度特征,获取灰度特征相关系数;
语速相关函数获取单元,用于根据所述几何特征相关系数和所述灰度特征相关系数,获取语速相关函数;
目标语速信号确定单元,用于将所述语速相关函数在时域上求导,确定所述目标头部图像对应的目标语速信号。
上述语音识别方法和驾驶辅助系统中,采集同一目标对象说话的当前时刻对应的目标头部图像和目标语音信号,使得利用目标头部图像辅助目标语音信号进行识别时,可避免其他人说话干扰,有助于保障目标头部图像辅助语音识别的可靠性;采用预先训练的语速识别模型对实时采集的目标头部图像进行识别,确定其目标语速信号,以便根据目标对象说话时的语速,对目标语音信号进行识别,保障目标语音语义识别的针对性和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中语音识别方法的一应用环境示意图;
图2是本发明一实施例中语音识别方法的一流程图;
图3是本发明一实施例中语音识别方法的另一流程图;
图4是本发明一实施例中语音识别方法的另一流程图;
图5是本发明一实施例中语音识别方法的另一流程图;
图6是本发明一实施例中单唇线模板的一示意图;
图7是本发明一实施例中驾驶辅助系统的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音识别方法,该语音识别方法可应用在可实现语音识别处理的电子设备上,该电子设备包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现语音识别方法。
作为一示例,语音识别方法可适用在汽车的智能驾驶技术,即采用ADAS加载用于实现语音识别的计算机程序,在执行该计算机程序时,可实现对驾驶员语音进行智能识别,以根据驾驶员语音进行智能控制。
在一实施例中,如图1所示,提供一种语音识别方法,以该方法应用在电子设备为例进行说明,具体包括如下步骤:
S101:获取当前时刻采集的目标头部图像和目标语音信号;
S102:采用预先设置的语速识别模型对目标头部图像进行处理,获取目标头部图像对应的目标语速信号;
S103:采用目标语速信号对应的目标速率,对目标语音信号进行识别,确定目标语音信号对应的目标语音语义。
其中,目标头部图像是指当前时刻实时采集到的目标对象的头部图像。目标语音信号是当前时刻实时采集到的目标对象说话的语音信号。目标对象是指本次需要进行语音识别的对象,即说话人。例如,在该语音识别方法应用在驾驶辅助系统时,其目标对象可以为驾驶员。
作为一示例,步骤S201中,电子设备在需要进行语音识别的场景下,可控制与其相连的摄像设备和拾音设备工作,使得摄像设备可持续采集目标对象说话时的目标头部图像,且拾音设备可持续采集目标对象说话时的目标语音信号,以达到同时采集目标对象说话时的目标头部图像和目标语音信号的目的,使得利用目标头部图像辅助目标语音信号进行识别时,可避免其他人说话干扰,有助于保障目标头部图像辅助语音识别的可靠性。摄像设备是指用于实现图像拍摄的设备,例如可以是摄像头。拾音设备是用于实现语音采集的设备,例如可以是麦克风。
其中,语速识别模型是预先训练的用于实现语速识别的模型。预先设置的语速识别模型是预先根据训练头部图像训练确定说话人语速的模型。
作为一示例,步骤S202中,电子设备在获取持续采集的目标头部图像后,可采用预先训练的语速识别模型,对持续采集到的多帧目标头部图像进行处理,以获取目标头部图像对应的目标语速信号。本示例中,预先设置的语速识别模型可根据相邻两帧目标头部图像中采集到的目标对象的唇形变化,结合相邻两帧目标头部图像对应的时间差,确定目标对象说话时唇形变化的速率,即确定目标对象说话的语速,对其采集到的目标语音信号进行语音识别,保障语音识别的准确性。
其中,目标速率是与目标语速信号相匹配的用于进行语音识别的速率,该目标速率是与目标对象说话时的语速相匹配的速率,是动态变化的速率。
作为一示例,步骤S203中,电子设备在根据持续采集到的目标头部图像识别出的目标语速信号后,可对同一目标对象采集到的目标语音信号进行识别处理,以根据目标语速信号确定其对应的目标速率。例如,电子设备可基于目标语速信号查询预先设置的语速速率映射表或语速速率映射函数,确定与目标语速信号相对应的目标速率。然后,电子设备可基于目标语音信号对应的目标速率对采集到的目标语音信号进行语音识别,确定该目标语音信号对应的目标语音语义,有助于保障目标语音语义的识别准确性。
例如,电子设备中预先存储有语速速率映射表,该语速速率映射表将语速划分成低速、中速和高速等语速等级,每一语速等级对应一个识别速率,该识别速率可理解为对语音进行韵律识别对应的速率。电子设备在获取目标头部图像对应的目标语速信号时,可将目标语速信号所属的语速等级对应的识别速率,确定为目标速率,根据该目标速率对目标语音信号进行识别,以达到匹配语音韵律进行识别的目的,有助于保障目标语音语义的识别准确性。
本实施例所提供的语音识别方法中,采集同一目标对象说话的当前时刻对应的目标头部图像和目标语音信号,使得利用目标头部图像辅助目标语音信号进行识别时,可避免其他人说话干扰,有助于保障目标头部图像辅助语音识别的可靠性;采用预先训练的语速识别模型对实时采集的目标头部图像进行识别,确定其目标语速信号,采用目标语速信号对应的目标速率对目标语音信号进行识别,以达到根据目标对象说话时的语速,对目标语音信号进行识别,保障目标语音语义识别的针对性和准确性。
在一实施例中,如图2所示,步骤S102,即采用预先设置的语速识别模型对目标头部图像进行处理,获取目标头部图像对应的目标语速信号,包括:
S201:对目标头部图像进行唇形几何特征提取,获取目标头部图像对应的目标唇形几何特征;
S202:对目标头部图像进行内唇灰度特征提取,获取目标头部图像对应的目标内唇灰度特征;
S203:根据目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定目标头部图像对应的目标语速信号。
其中,唇形几何特征是用于反映目标对象说话时,其唇部口型变化的特征。
作为一示例,步骤S201中,电子设备在获取多帧目标头部图像时,对每一帧目标头部图像进行唇形几何特征提取,具体提取目标头部图像对应的上外唇线和下外唇线对应的唇形几何特征,确定每一帧目标头部图像对应的目标唇形几何特征。
由于目标对象在说话时,其内唇和外唇变化与目标对象的发音具有一定关联性,而目标对象唇部的大小、宽度和形状不同,对外唇线影响较大,对内唇线影响较小,因此,电子设备在每一帧目标头部图像进行唇形几何特征提取时,需提取与目标头部图像的外唇线相关的目标唇形几何特征。例如,在对目标头部图像进行特征提取,构建其上外唇线对应的上外唇线函数和下外唇线对应的下外唇线函数,将所构建的上外唇线函数和下外唇线函数中的参数,确定为其目标唇形几何特征。
其中,内唇灰度特征是用于反映目标对象说话时,其内唇区域对应的像素灰度值。
作为一示例,步骤S202中,电子设备在获取多帧目标头部图像时,对每一帧目标头部图像进行内唇灰度特征,具体提取目标头部图像的上内唇线和下内唇线所形成的内唇区域对应的内唇灰度特征,确定每一帧目标头部图像对应的目标内唇灰度特征。
由于目标对象说话时,其牙齿和舌头的信息对语音识别有较大帮助,而牙齿和舌头的信息,主要集中在目标头部图像的上内唇线和下内唇线所形成的内唇区域内,具体体现为内唇区域对应的像素灰度值,因此,可通过对多帧目标头部图像的内唇区域的像素灰度值进行提取,根据其内唇区域的像素灰度值变化过程,反映目标对象说话的语速变化。
作为一示例,步骤S203中,电子设备可采用预先设置的语速计算策略,对目标头部图像对应的目标唇形几何特征和目标内唇灰度特征进行计算处理,确定目标头部图像对应的目标语速信号。本示例中,电子设备可对同一目标头部图像对应的目标唇形几何特征和目标内唇灰度特征进行融合计算,确定该目标头部图像对应的语速融合结果,再根据目标头部图像对应的语速融合结果与其相邻头部图像(如上一帧头部图像)的语速融合结果的变化情况,确定目标头部图像对应的目标语速信号。
本实施例所提供的语音识别方法中,由于目标对象说话其唇部形状会发生变化,其内唇区域的牙齿和舌头也会发生变化,因此,分别提取目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,以使目标唇形几何特征和目标内唇灰度特征可以有效反映目标对象说话的实际情况,以便根据目标唇形几何特征和目标内唇灰度特征的变化过程,确定其目标头部图像对应的目标语速信号,可反映目标头部图像采集到的目标对象说话时的语速变化。
在一实施例中,如图3所示,步骤S201,即对目标头部图像进行唇形几何特征提取,构建目标头部图像对应的目标唇形几何特征,包括:
S301:将目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板;
S302:将目标唇线模板对应的唇形几何特征,确定为目标头部图像对应的目标唇形几何特征。
其中,唇线模板数据库是用于存储已有唇线模板的数据库。已有唇线模板是当前时刻之前形成的用于反映说话人唇部形状的模板。
由于说话人在说话时,其内唇和外唇变化与发音具有一定关联性,而说话人唇部的大小、宽度和形状不同,对外唇线影响较大,对内唇线影响较小,在模型训练过程中,可将双唇线模板简化为单唇线模板,即在模型训练过程中,采用训练头部图像训练对应的单唇线模板,将该单唇线模板确定为已有唇线模板存储在唇线模板数据库中。如图6所示,在当前时刻之前训练并存储的已有唇线模板在基于唇部中心点建立坐标轴时,即唇部的两个唇角点为横轴,基于上外唇线的唇谷点确定纵轴,可采用四次曲线函数描述其唇线变化的特征,所构建的四次曲线函数如下:
其中,y1(x)为下唇线函数,用于表示下唇的唇形横向和纵向变化的关系;h1为下唇高度,即下唇线的最低点到横轴的距离;q1为下唇线函数中的四次项系数,代表四次曲线偏离抛物线的距离;y2(x)为上唇线函数,用于表示上唇的唇形横向和纵向变化的关系;h2为下唇高度,即上唇线的最高点到横轴的距离;q2为上唇线函数中的四次项系数,代表四次曲线偏离抛物线的距离;w为1/2唇部宽度。
作为一示例,步骤S301中,电子设备可采用特征提取算法,对目标头部图像进行特征提取,确定目标头部图像对应的实测外唇线,该实测外唇线可理解为目标头部图像直接提取到的外唇线。然后,将目标头部图像对应的实测外唇线与唇线模板数据库中的已有唇线模板进行匹配处理,确定匹配度最高的目标唇线模板,即唇部高度和唇部宽度最匹配的目标唇线模板,可达到将唇形大小不一的实测外唇线转换为标准化的目标唇线模板,有助于保障采集到的多帧目标头部图像对应的目标唇形几何特征具有可比性,从而确保后续确定的目标语速信号的准确性和可靠性。本示例中,将与目标头部图像提取的实测外唇线最匹配的已有唇线模板,确定为目标头部图像对应的目标唇线模板,使得其目标唇线模板也包括下唇线函数y1(x)和上唇线函数y2(x)。
作为一示例,步骤S302中,电子设备在确定目标头部图像对应的目标唇线模板之后,可将该目标唇线模板对应的唇形几何特征,确定为目标头部图像对应的目标唇形几何特征。本示例中,在目标唇线模板也包括下唇线函数y1(x)和上唇线函数y2(x)时,可将下唇线函数y1(x)和上唇线函数y2(x)中的函数参数,如下唇高度h1、上唇高度h2和1/2唇部宽度w等,确定为目标头部图像对应的目标唇形几何特征。
本实施例所提供的语音识别方法中,将与目标头部图像提取的实测外唇线最匹配的已有唇线模板,确定为目标头部图像对应的目标唇线模板,再将目标唇线模板的唇形几何特征,确定为其对应的目标唇形几何特征,以保障提取到目标唇形几何特征均为预先训练获取到的已有唇线模板所形成的标准化的唇形几何特征,使得所有目标头部图像对应的目标唇形几何特征具有可比性,从而确保后续确定的目标语速信号的准确性和可靠性。
在一实施例中,如图4所示,步骤S301中,将目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板,包括:
S401:对目标头部图像进行特征提取,获取目标头部图像对应的实测外唇线;
S402:将实测外唇线与唇线模板数据库中的已有唇线模板进行匹配处理,构建已有唇线模板对应的代价函数;
S403:采用梯度下降法更新已有唇线模板的参数,在已有唇线模板对应的代价函数达到目标阈值时,将更新后的已有唇线模板,确定为目标唇线模板。
作为一示例,步骤S401中,电子设备可采用特征提取算法,对目标头部图像进行特征提取,获取目标头部图像对应的实测外唇线。本示例中,实测外唇线包括实际下唇线函数y1(x)re和实际上唇线函数y2(x)re,实际下唇线函数y1(x)re是指目标头部图像实际提取出的下唇线函数y1(x),实际上唇线函数y2(x)re是指目标头部图像实际提取出的上唇线函数y2(x)。
作为一示例,步骤S402中,电子设备可将采集到的实测外唇线,与唇线模板数据库中存储的每一已有唇线模板进行匹配处理,以构建每一已有唇线模板对应的代价函数,该代价函数是用于衡量已有唇线模板与实测外唇线之间的差异的函数。本示例中,每一已有唇线模板均包括已有下唇线函数y1(x)ex和已有上唇线函数y2(x)ex,已有下唇线函数y1(x)ex是指已有唇线模板中的下唇线函数y1(x),已有上唇线函数y2(x)ex是指已有唇线模板中的上唇线函数y2(x)。
由于实测外唇线包括实际下唇线函数y1(x)re和实际上唇线函数y2(x)re,而已有唇线模板均包括已有下唇线函数y1(x)ex和已有上唇线函数y2(x)ex,因此,所构建的实测外唇线与已有唇线模板对应的代价函数E包括下唇代价函数E下唇和上唇代价函数E上唇,即E=E下唇+E上唇,下唇代价函数E下唇是指实际下唇线函数y1(x)re和已有下唇线函数y1(x)ex之间构建的代价函数,上唇代价函数E上唇是指实际上唇线函数y2(x)re和已有上唇线函数y2(x)ex之间构建的代价函数。
本示例中,下唇代价函数E下唇和上唇代价函数E上唇均可以采用如下代价函数公式计算:k1为第一条曲线函数的预设系数;C1为第一条曲线函数的曲线长度;k2为第二条曲线函数的预设系数;C2为第二条曲线函数的曲线长度,/>为代价函数的因变量;Ψe为边缘检测算子,Ψe可表示为(i,j)表示曲线函数中当前时刻对应的点的坐标,(l,m)表示曲线函数中下一时刻对应的点的坐标,z为边缘检测算子的计算函数,v(l,m)为梯度算子,例如,/>
例如,在E上/下为下唇代价函数E下唇时,k1为实际下唇线函数y1(x)re的预设系数;C1为实际下唇线函数y1(x)re的曲线长度;k2为已有下唇线函数y1(x)ex的预设系数;C2为已有下唇线函数y1(x)ex的曲线长度。又例如,在E上/下为上唇代价函数E上唇时,k1为实际上唇线函数y2(x)re的预设系数;C1为实际上唇线函数y2(x)re的曲线长度;k2为已有上唇线函数y2(x)ex的预设系数;C2为已有上唇线函数y2(x)ex的曲线长度。
其中,梯度下降法是用于寻求代价函数最小化的方法。目标阈值是预先设置的用于评估代价函数是否达到确定为最佳匹配标准的阈值,例如,目标阈值可以为根据经验设计的代价函数的最小值。
作为一示例,电子设备可采用预先设置的梯度下降法,更新需要匹配的已有唇线模板的参数,以使已有唇线模板对应的代价函数,以最快速度下降至预先设置的目标阈值(例如,下降到代价函数的最小值),此时,认定已有唇线模板与实测外唇线达到最佳匹配标准,此时,可将参数更新后的已有唇线模板,确定为其对应的目标唇线模板,以保障目标唇线模板中的唇形几何特征与目标头部图像中的实测外唇线最匹配,保障最终获取的目标唇形几何特征的准确性。
本示例中,所采用的梯度下降法为其中,/>为代价函数的负梯度,可以证明代价函数沿梯度方向下降最快;λk为下降步长,可以为预先采用黄金分割法(即0.618法)求得的最佳步长;/>为第k次下降的幅度,Xk为第k次下降前的值,Xk+1为第k次下降后的值。一般来说,在梯度下降法的下降幅度低于特定阈值或者下降次数超过特定的迭代次数,则迭代停止,此时,可认定已有唇线模板与实测外唇线达到最佳匹配标准。
在一实施例中,如图5所示,步骤S203,即根据目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定目标头部图像对应的目标语速信号,包括:
S501:根据目标头部图像对应的目标唇形几何特征,获取几何特征相关系数;
S502:根据目标头部图像对应的目标内唇灰度特征,获取灰度特征相关系数;
S503:根据几何特征相关系数和灰度特征相关系数,获取语速相关函数;
S504:将语速相关函数在时域上求导,确定目标头部图像对应的目标语速信号。
作为一示例,步骤S501中,电子设备在确定目标头部图像对应的目标唇形几何特征之后,可调用预先设置的几何特征相关系数计算逻辑,将目标唇形几何特征作为输入参数,执行几何特征相关系数计算逻辑,将几何特征相关系数计算逻辑的输出结果,确定为几何特征相关系数,其具体计算过程如下:
首先,获取已有唇形几何特征参数,已有唇形几何特征参数包括已有平均几何特征向量v,{vi}(1≤i<N),已有平均几何特征向量均值μv,已有平均几何特征向量方差σv,N为唇形几何特征的数量。由于目标头部图像对应的目标唇形几何特征为其目标唇线模板的参数,而目标唇线模板是由已有唇线模板进行参数更新后获取的模板,可将更新前已有唇线模板的参数确定为其已有唇形几何特征。在采用训练头部图像作为训练样本,训练唇线模板数据库中的已有唇线模板时,对所有训练样本进行唇形几何特征提取,可获取多个包括但不限于上唇高度、下唇高度和1/2唇部宽度在内的多个已有唇形几何特征,可根据多个已有唇形几何特征,获取已有平均几何特征向量为v,{vi}(1≤i<N),已有平均几何特征向量均值为μv,已有平均几何特征向量方差为σv,N为唇形几何特征的数量。
其次,获取目标唇形几何特征参数,目标唇形几何特征参数包括目标平均几何特征向量V,{Vi}(1≤i<N),目标平均几何特征向量均值μV,目标平均几何特征向量方差σV,N为唇形几何特征的数量。在目标唇线模板是由已有唇线模板进行参数更新后获取的模板,目标唇线模板的数量与其已有唇线模板相匹配,根据目标唇线模板进行唇形几何特征提取,可获取多个包括但不限于上唇高度、下唇高度和1/2唇部宽度在内的多个目标唇形几何特征,根据多个目标唇形几何特征,获取目标平均几何特征向量为{Vi}(1≤i<N)V,,目标平均几何特征向量均值为μV,目标平均几何特征向量方差为σV,N为唇形几何特征的数量。
最后,根据已有唇形几何特征参数和目标唇形几何特征参数,确定几何特征相关系数
例如,唇线模板数据库中训练形成的已有唇线模板有10个,每个已有唇线模板对应的唇形几何特征(即已有唇线模板的参数)的数量为6个,即N=6;可对10个已有唇线模板中提取的第i个唇形几何特征对应的数值进行均值处理,获取第i个唇形几何特征对应的已有平均几何特征向量v,{vi}(i=1,2,3,4,5,6);然后,可对N个已有平均几何特征向量vi进行均值和方差计算,获取已有平均几何特征向量均值μv和已有平均几何特征向量方差σv。相应地,在目标唇线模板有10个,每个目标唇线模板对应的唇形几何特征(即目标唇线模板的参数)的数量为6个,即N=6;可对10个目标唇线模板中提取的第i个唇形几何特征对应的数值进行均值处理,获取第i个唇形几何特征对应的目标平均几何特征向量V,{Vi}(i=1,2,3,4,5,6);然后,可对N个目标平均几何特征向量Vi进行均值和方差计算,获取目标平均几何特征向量均值为μV和目标平均几何特征向量方差σV。本示例中,所获取的几何特征相关系数
作为一示例,步骤S502中,电子设备在确定目标头部图像对应的目标内唇灰度特征之后,可调用预先设置的灰度特征相关系数计算逻辑,将目标内唇灰度特征作为输入参数,执行灰度特征相关系数计算逻辑,将灰度特征相关系数计算逻辑的输出结果,确定为灰度特征相关系数,其具体计算过程如下:
首先,获取已有内唇灰度特征参数,已有内唇灰度特征参数包括已有平均灰度特征向量t,{tj}(1≤j<M),已有平均灰度特征均值μt,平均灰度特征方差σt,M为内唇灰度特征的数量。电子设备可对所有训练样本进行内唇灰度特征提取,可获取M个特定位置的像素点对应的已有内唇灰度特征,计算同一像素点对应的所有已有内唇灰度特征的均值,获取M个像素点对应的已有平均灰度特征向量t,{tj}(1≤j<M),已有平均灰度特征均值μt,平均灰度特征方差σt,M为内唇灰度特征的数量。
其次,获取目标内唇灰度特征参数,目标内唇灰度特征参数包括目标平均灰度特征向量T,{Tj}(1≤j<M),目标平均灰度特征均值μT,平均灰度特征方差σT,M为内唇灰度特征的数量。在对多个目标头部图像进行内唇灰度特征提取时,可获取M个特定位置的像素点对应的目标内唇灰度特征,计算同一像素点对应的所有目标内唇灰度特征的均值,获取M个像素点对应的目标平均灰度特征向量T,{Tj}(1≤j<M),目标平均灰度特征均值μT,平均灰度特征方差μT,M为内唇灰度特征的数量。
最后,根据已有内唇灰度特征参数和目标内唇灰度特征参数,确定灰度特征相关系数
例如,电子设备可对所有训练样本进行内唇灰度特征提取,可获取7个特定位置的像素点对应的已有内唇灰度特征,计算同一像素点对应的所有已有内唇灰度特征的均值,获取7个像素点对应的已有平均灰度特征向量t,{tj}(i=1,2,3,4,5,6,7),已有平均灰度特征均值μt,平均灰度特征方差σt。相应地,对多个目标头部图像进行内唇灰度特征提取,可获取7个特定位置的像素点对应的目标内唇灰度特征,计算同一像素点对应的所有目标内唇灰度特征的均值,可获取7个特定位置的像素点对应的目标内唇灰度特征,计算同一像素点对应的所有目标内唇灰度特征的均值,获取M个像素点对应的目标平均灰度特征向量T,{Tj}(1≤j<M),目标平均灰度特征均值μT,平均灰度特征方差μT。本示例中,所获取的灰度特征相关系数
作为一示例,步骤S503中,电子设备可采用预先设置的语速相关函数公式,对计算获取的几何特征相关系数和灰度特征相关系数进行计算,以获取与目标头部图像相关的语速相关函数,用于表征目标头部图像与训练样本的匹配程度。
本示例中,语速相关函数可以为R=rV(v,V)+α·rT(t,T),其中,R为语速相关函数,rV(v,V)为几何特征相关系数,rT(t,T)为灰度特征相关系数,α为权重系数,是预先设置的用于平衡几何特征相关系数和灰度特征相关系数对语速影响的权重,有助于保障最终获取到的目标语速信号的准确性。
作为一示例,步骤S504中,电子设备可采用预先设置的语速信号计算公式,对根据几何特征相关系数和灰度特征相关系数计算出的语速相关函数进行计算,以获取与目标头部图像相关的目标语速信号。由于语速相关函数是根据几何特征相关系数和灰度特征相关系数计算确定的函数,使得该语速相关函数既与目标头部图像中目标对象说话时的唇形相关,也与其内唇区域的牙齿和舌头相关,从而保障根据语速相关函数计算的目标语速信号的可靠性。
本示例中,电子设备可对语速相关函数在时域上进行一次求导,即采用求导公式dR/dt对语速相关函数进行计算,即可计算出反映目标对象说话时唇形变化的速率。可理解地,由于目标头部图像是实时采集的图像,每一目标头部图像均与采集时间相关,其计算出的语速相关函数也与时间相关,基于持续采集的多帧目标头部图像对应的语速相关函数可形成反映目标对象说话时唇形变化,因此,对语速相关函数在时域上进行一次求导,使得其计算结果可反映唇形变化的速率,从而获取目标头部图像对应的目标语速信号。
设唇线口型模板数据库中的训练样本特征提取后,得到平均几何特征向量v,{vi}(i=1,2,···,6),i为第i个几何特征,其均值为μv,方差为σv。平均灰度特征向量t,{tj},(j=1,2,···,7),j为第j个训练样本,其均值为μt,方差为σt。设测试样本几何特征向量为V,{Vi}(i=1,2,···,6),均值为μV,方差为σV;测试样本灰度特征向量T,{Tj}(j=1,2,···,7),均值为μT,方差为σT;其中,{vi}和{Vi}可以为与唇形相关的的1/2唇部宽度w、下唇高度h1和上唇高度h2这些多维向量。本示例中,分别计算几何特征和灰度相关系数,即向量v,V之间的相关系数和向量t、T之间的相关系数如下:
相关函数R由两者综合得到,引入参数α,制约平衡两者的影响:
R=rV(v,V)+α·rT(t,T)
α为权重系数,根据测试数据调节达到最佳识别效果。
在一实施例中,提供一种驾驶辅助系统,如图7所示,该驾驶辅助系统包括摄像设备、拾音设备和驾驶员监控系统;
摄像设备,用于在当前时刻采集驾驶员对应的目标头部图像,将目标头部图像发送给驾驶员监控系统;
拾音设备,用于在当前时刻采集驾驶员对应的目标语音信号,将目标语音信号发送给驾驶员监控系统;
驾驶员监控系统,用于采用预先设置的语速识别模型对目标头部图像进行处理,获取目标头部图像对应的目标语速信号,采用目标语速信号对应的目标速率,对目标语音信号进行识别,确定目标语音信号对应的目标语音语义。
在一实施例中,驾驶员监控系统,包括:
唇形几何特征提取模块,对目标头部图像进行唇形几何特征提取,获取目标头部图像对应的目标唇形几何特征;
内唇灰度特征提取模块,用于对目标头部图像进行内唇灰度特征提取,获取目标头部图像对应的目标内唇灰度特征;
目标语速信号确定模块,用于根据目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定目标头部图像对应的目标语速信号。
在一实施例中,唇形几何特征提取模块,包括:
目标唇线模板确定单元,用于将目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板;
唇形几何特征确定单元,用于将目标唇线模板对应的唇形几何特征,确定为目标头部图像对应的目标唇形几何特征。
在一实施例中,目标唇线模板确定单元,包括:
实测外唇线获取子单元,用于对目标头部图像进行特征提取,获取目标头部图像对应的实测外唇线;
代价函数构建子单元,用于将实测外唇线与唇线模板数据库中的已有唇线模板进行匹配处理,构建已有唇线模板对应的代价函数;
唇线模板确定子单元,用于采用梯度下降法更新已有唇线模板的参数,在已有唇线模板对应的代价函数达到目标阈值时,将更新后的已有唇线模板,确定为目标唇线模板。
在一实施例中,目标语速信号确定模块,包括:
几何特征相关系数获取单元,用于根据目标头部图像对应的目标唇形几何特征,获取几何特征相关系数;
灰度特征相关系数获取单元,用于根据目标头部图像对应的目标内唇灰度特征,获取灰度特征相关系数;
语速相关函数获取单元,用于根据几何特征相关系数和灰度特征相关系数,获取语速相关函数;
目标语速信号确定单元,用于将语速相关函数在时域上求导,确定目标头部图像对应的目标语速信号。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种语音识别方法,其特征在于,包括:
获取当前时刻采集的目标头部图像和目标语音信号;
对所述目标头部图像进行唇形几何特征提取,获取所述目标头部图像对应的目标唇形几何特征;对所述目标头部图像进行内唇灰度特征提取,获取所述目标头部图像对应的目标内唇灰度特征;根据所述目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定所述目标头部图像对应的目标语速信号;
采用所述目标语速信号对应的目标速率,对所述目标语音信号进行识别,确定所述目标语音信号对应的目标语音语义。
2.如权利要求1所述的语音识别方法,其特征在于,对所述目标头部图像进行唇形几何特征提取,构建所述目标头部图像对应的目标唇形几何特征,包括:
将所述目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板;
将所述目标唇线模板对应的唇形几何特征,确定为所述目标头部图像对应的目标唇形几何特征。
3.如权利要求2所述的语音识别方法,其特征在于,所述将所述目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板,包括:
对所述目标头部图像进行特征提取,获取所述目标头部图像对应的实测外唇线;
将所述实测外唇线与唇线模板数据库中的已有唇线模板进行匹配处理,构建所述已有唇线模板对应的代价函数;
采用梯度下降法更新所述已有唇线模板的参数,在所述已有唇线模板对应的代价函数达到目标阈值时,将更新后的已有唇线模板,确定为目标唇线模板。
4.如权利要求1所述的语音识别方法,其特征在于,所述根据所述目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定所述目标头部图像对应的目标语速信号,包括:
根据所述目标头部图像对应的目标唇形几何特征,获取几何特征相关系数;
根据所述目标头部图像对应的目标内唇灰度特征,获取灰度特征相关系数;
根据所述几何特征相关系数和所述灰度特征相关系数,获取语速相关函数;
将所述语速相关函数在时域上求导,确定所述目标头部图像对应的目标语速信号。
5.一种驾驶辅助系统,包括摄像设备、拾音设备和驾驶员监控系统,其特征在于,
所述摄像设备,用于在当前时刻采集驾驶员对应的目标头部图像,将所述目标头部图像发送给所述驾驶员监控系统;
所述拾音设备,用于在当前时刻采集驾驶员对应的目标语音信号,将所述目标语音信号发送给所述驾驶员监控系统;
所述驾驶员监控系统,用于采用预先设置的语速识别模型对所述目标头部图像进行处理,获取所述目标头部图像对应的目标语速信号,采用所述目标语速信号对应的目标速率,对所述目标语音信号进行识别,确定所述目标语音信号对应的目标语音语义;
其中,所述驾驶员监控系统,包括:
唇形几何特征提取模块,对所述目标头部图像进行唇形几何特征提取,获取所述目标头部图像对应的目标唇形几何特征;
内唇灰度特征提取模块,用于对所述目标头部图像进行内唇灰度特征提取,获取所述目标头部图像对应的目标内唇灰度特征;
目标语速信号确定模块,用于根据所述目标头部图像对应的目标唇形几何特征和目标内唇灰度特征,确定所述目标头部图像对应的目标语速信号。
6.如权利要求5所述的驾驶辅助系统,其特征在于,所述唇形几何特征提取模块,包括:
目标唇线模板确定单元,用于将所述目标头部图像与唇线模板数据库中的已有唇线模板进行匹配处理,确定目标唇线模板;
唇形几何特征确定单元,用于将所述目标唇线模板对应的唇形几何特征,确定为所述目标头部图像对应的目标唇形几何特征。
7.如权利要求6所述的驾驶辅助系统,其特征在于,所述目标唇线模板确定单元,包括:
实测外唇线获取子单元,用于对所述目标头部图像进行特征提取,获取所述目标头部图像对应的实测外唇线;
代价函数构建子单元,用于将所述实测外唇线与唇线模板数据库中的已有唇线模板进行匹配处理,构建所述已有唇线模板对应的代价函数;
唇线模板确定子单元,用于采用梯度下降法更新所述已有唇线模板的参数,在所述已有唇线模板对应的代价函数达到目标阈值时,将更新后的已有唇线模板,确定为目标唇线模板。
8.如权利要求5所述的驾驶辅助系统,其特征在于,所述目标语速信号确定模块,包括:
几何特征相关系数获取单元,用于根据所述目标头部图像对应的目标唇形几何特征,获取几何特征相关系数;
灰度特征相关系数获取单元,用于根据所述目标头部图像对应的目标内唇灰度特征,获取灰度特征相关系数;
语速相关函数获取单元,用于根据所述几何特征相关系数和所述灰度特征相关系数,获取语速相关函数;
目标语速信号确定单元,用于将所述语速相关函数在时域上求导,确定所述目标头部图像对应的目标语速信号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210243302.6A CN115223553B (zh) | 2022-03-11 | 2022-03-11 | 语音识别方法和驾驶辅助系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210243302.6A CN115223553B (zh) | 2022-03-11 | 2022-03-11 | 语音识别方法和驾驶辅助系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115223553A CN115223553A (zh) | 2022-10-21 |
CN115223553B true CN115223553B (zh) | 2023-11-17 |
Family
ID=83606566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210243302.6A Active CN115223553B (zh) | 2022-03-11 | 2022-03-11 | 语音识别方法和驾驶辅助系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115223553B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989839A (zh) * | 2015-06-03 | 2016-10-05 | 乐视致新电子科技(天津)有限公司 | 语音识别方法和装置 |
CN107972028A (zh) * | 2017-07-28 | 2018-05-01 | 北京物灵智能科技有限公司 | 人机交互方法、装置及电子设备 |
CN110503944A (zh) * | 2019-08-29 | 2019-11-26 | 苏州思必驰信息科技有限公司 | 语音唤醒模型的训练和使用方法及装置 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN113362849A (zh) * | 2020-03-02 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 一种语音数据处理方法以及装置 |
CN113782014A (zh) * | 2021-09-26 | 2021-12-10 | 联想(北京)有限公司 | 语音识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102371770B1 (ko) * | 2015-01-19 | 2022-03-07 | 삼성전자주식회사 | 음성 인식 장지 및 방법 |
-
2022
- 2022-03-11 CN CN202210243302.6A patent/CN115223553B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105989839A (zh) * | 2015-06-03 | 2016-10-05 | 乐视致新电子科技(天津)有限公司 | 语音识别方法和装置 |
CN107972028A (zh) * | 2017-07-28 | 2018-05-01 | 北京物灵智能科技有限公司 | 人机交互方法、装置及电子设备 |
CN110503944A (zh) * | 2019-08-29 | 2019-11-26 | 苏州思必驰信息科技有限公司 | 语音唤醒模型的训练和使用方法及装置 |
CN113362849A (zh) * | 2020-03-02 | 2021-09-07 | 阿里巴巴集团控股有限公司 | 一种语音数据处理方法以及装置 |
CN113177114A (zh) * | 2021-05-28 | 2021-07-27 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN113782014A (zh) * | 2021-09-26 | 2021-12-10 | 联想(北京)有限公司 | 语音识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN115223553A (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10322728B1 (en) | Method for distress and road rage detection | |
CN110082723B (zh) | 一种声源定位方法、装置、设备及存储介质 | |
CN106265004A (zh) | 多传感器智能盲人指路方法与装置 | |
CN111034222A (zh) | 拾音装置、拾音方法以及程序 | |
CN102324035A (zh) | 口型辅助语音识别术在车载导航中应用的方法及系统 | |
CN106407993A (zh) | 一种基于图像识别技术的智能语音机器人系统及方法 | |
CN112801000B (zh) | 一种基于多特征融合的居家老人摔倒检测方法及系统 | |
CN111048113A (zh) | 声音方向定位处理方法、装置、系统、计算机设备及存储介质 | |
CN110837758B (zh) | 一种关键词输入方法、装置及电子设备 | |
CN111583937A (zh) | 一种语音控制唤醒方法及存储介质、处理器、语音设备、智能家电 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN110859609A (zh) | 基于语音分析的多特征融合疲劳驾驶检测方法 | |
CN110941992A (zh) | 微笑表情检测方法、装置、计算机设备及存储介质 | |
CN112925235A (zh) | 交互时的声源定位方法、设备和计算机可读存储介质 | |
CN115223553B (zh) | 语音识别方法和驾驶辅助系统 | |
CN110188179A (zh) | 语音定向识别交互方法、装置、设备及介质 | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
US20230073265A1 (en) | Information processing device and action mode setting method | |
CN207502722U (zh) | 车辆和车辆感知系统 | |
CN113177531A (zh) | 一种基于视频分析的说话识别方法、系统、设备及介质 | |
JP6540742B2 (ja) | 物体認識装置および物体認識方法 | |
CN104537690B (zh) | 一种基于最大值‑时间索引联合的运动点目标检测方法 | |
Lee et al. | An exploratory study of emotional speech production using functional data analysis techniques | |
CN115641610A (zh) | 一种挥手求救识别系统及方法 | |
CN111986674B (zh) | 基于三级特征采集的智能语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |