CN114999458A - 一种基于语音和视线的多模态免唤醒系统及方法 - Google Patents
一种基于语音和视线的多模态免唤醒系统及方法 Download PDFInfo
- Publication number
- CN114999458A CN114999458A CN202210381839.9A CN202210381839A CN114999458A CN 114999458 A CN114999458 A CN 114999458A CN 202210381839 A CN202210381839 A CN 202210381839A CN 114999458 A CN114999458 A CN 114999458A
- Authority
- CN
- China
- Prior art keywords
- voice
- recognition result
- sight line
- signal
- sight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 16
- 230000004044 response Effects 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012545 processing Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 description 19
- 238000001228 spectrum Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000009467 reduction Effects 0.000 description 6
- 239000000284 extract Substances 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000004424 eye movement Effects 0.000 description 4
- 238000009432 framing Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000000720 eyelash Anatomy 0.000 description 2
- 210000000887 face Anatomy 0.000 description 2
- 238000003704 image resize Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000002618 waking effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于语音和视线的多模态免唤醒系统及方法,该系统包括:采集模块、计算模块和响应模块;所述采集模块用于采集语音信号与视频信号,并将所述语音信号与所述视频信号传输给所述计算模块;所述计算模块用于对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果;所述响应模块用于获取所述语音识别结果与所述视线识别结果,基于所述语音识别结果与所述视线识别结果进行响应。本系统避免了设备误唤醒给用户带来困扰,提高了用户体验。
Description
技术领域
本发明涉及智能家居领域,具体涉及一种基于语音和视线的多模态免唤醒系统及方法。
背景技术
多模态是人工智能研究的一个重要方向,也是人机交互的发展趋势。多模态交互可以提高人机交互的准确性,降低人机交互的难度,并且利用多模态之间的关联,可以实现不同模态互为监督、互相校准和自适应学习。
语音识别技术日渐成熟,越来越多的智能家电设备都引入语音识别技术。在语音识别之前,需要先通过唤醒词来唤醒智能家电的语音识别功能,例如智能音响“小爱同学”、“天猫精灵”等唤醒词。通常在电子设备利用语音活动检测对实时的录音数据进行语音检测,为了提高用户体验,目前很多电子设备的语音交互都采用的是免唤醒模式。免唤醒模式指直接下达指令(即命令词),无需唤醒词进行唤醒,比如说我想看《XXX》,只需要下达“帮我打开《XXX》”、“全屏播放”、“快进20秒”、“暂停”等命令词即可。
但是在实际使用中,仅通过对语音的识别,各种噪声、聊天等都可能导致智能家电误唤醒,给用户带来困扰。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中的仅基于语音识别唤醒智能家电,容易导致误唤醒,给用户带来困扰的缺陷,从而提供一种基于语音和视线的多模态免唤醒系统及方法。
本发明实施例提供了一种基于语音和视线的多模态免唤醒系统,包括:采集模块、计算模块和响应模块;
所述采集模块用于采集语音信号与视频信号,并将所述语音信号与所述视频信号传输给所述计算模块;
所述计算模块用于对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果;
所述响应模块用于获取所述语音识别结果与所述视线识别结果,基于所述语音识别结果与所述视线识别结果进行响应。
可选地,所述计算模块,包括:第一编码子模块、第二编码子模块和识别子模块;
所述第一编码子模块用于提取所述语音信号中的声学特征,并对所述声学特征进行编码,生成语音时序特征;
所述第二编码子模块用于提取所述视频信号中的视线特征,并对所述视线特征进行编码,生成视频时序特征;
所述识别子模块用于将所述语音时序特征与所述视频时序特征输入所述多模态识别模型,输出语音识别结果与视线识别结果。
可选地,将所述语音识别结果与预设语音命令进行比较,所述视线识别结果与预设视线命令进行比较,当所述语音结果与所述预设语音命令相符且所述视线识别结果与所述预设视线命令相符时进行响应。
可选地,所述第一编码子模块,包括:处理单元、提取单元和第一编码单元;
所述处理单元用于对所述语音信号进行声学处理,生成声学处理后的语音信号;
所述提取单元用于提取所述声学处理后的语音信号中声学特征;
所述第一编码单元用于对不同时间序列的声学特征进行编码,生成语音时序特征。
可选地,所述第二编码子模块,包括:检测单元和第二编码单元;
所述检测单元用于对所述视频信号中进行人脸检测,生成人脸图像,并提取所述人脸图像中的视线特征;
所述第二编码单元用于对不同时间序列的所述视线特征进行编码,生成视频时序特征。
在本申请的第二个方面,还提出了一种基于语音和视线的多模态免唤醒方法,包括如下步骤:
采集语音信号与视频信号;
对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果;
基于所述语音识别结果与所述视线识别结果进行响应。
可选地,所述对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果,包括:
提取所述语音信号中的声学特征,并对所述声学特征进行编码,生成语音时序特征;
提取所述视频信号中的视线特征,并对所述视线特征进行编码,生成视频时序特征;
将所述语音时序特征与所述视频时序特征输入所述多模态识别模型,输出语音识别结果与视线识别结果。
可选地,所述基于所述语音识别结果与所述视线识别结果进行响应,包括:
将所述语音识别结果与预设语音命令进行比较,所述视线识别结果与预设视线命令进行比较,当所述语音结果与所述预设语音命令相符且所述视线识别结果与所述预设视线命令相符时进行响应。
可选地,所述提取所述语音信号中的声学特征,并对所述声学特征进行编码,生成语音时序特征,包括:
对所述语音信号进行声学处理,生成声学处理后的语音信号;
提取所述声学处理后的语音信号中声学特征;
对不同时间序列的声学特征进行编码,生成语音时序特征。
可选地,所述提取所述视频信号中的视线特征,并对所述视线特征进行编码,生成视频时序特征,包括:
对所述视频信号中进行人脸检测,生成人脸图像,并提取所述人脸图像中的视线特征;
对不同时间序列的所述视线特征进行编码,生成视频时序特征。
在本申请的第三个方面,还提出了一种计算机设备,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序,所述处理器被配置用于调用所述计算机程序,执行上述第一方面的方法。
在本申请的第四个方面,本发明实施例提供了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现上述第一方面的方法。
本发明技术方案,具有如下优点:
本发明提供的一种基于语音和视线的多模态免唤醒系统,通过对语音信号与视频信号的同时采集,并利用语音视线多模态识别模型对语音信号与视频信号进行识别,将语音识别结果与视线识别结果进行响应,将语音识别结果与视线识别结果都作为唤醒终端的必要因素,避免了设备误唤醒给用户带来困扰,提高了用户体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1一种基于语音和视线的多模态免唤醒系统的原理框图;
图2为本发明实施例1一种基于语音和视线的多模态免唤醒系统的流程图;
图3为本发明实施例1对多模态识别模型进行训练的示意图;
图4为本发明实施例2中一种基于语音和视线的多模态免唤醒方法的流程图;
图5为本发明实施例2中步骤S402的流程图;
图6为本发明实施例2中步骤S4021的流程图;
图7为本发明实施例2中步骤S4022的流程图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本实施例提供了一种基于语音和视线的多模态免唤醒系统,如图1-2所示,包括:采集模块1、计算模块2和响应模块3;
所述采集模块1用于采集语音信号与视频信号,并将所述语音信号与所述视频信号传输给所述计算模块2。
其中,通过语音传感器获取语音信号,通过图像传感器获取视频信息。
所述计算模块2用于对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果。
具体的,多模态识别模型采用transformer(是基于自注意力机制的一个深度学习模型),由transformer的Encoder网络组成和全连接网络组成训练网络对语音信号与视频信号进行训练。
进一步地,如图3所示,对上述多模态识别模型进行训练的训练过程为:将预先采集存储的语音信号输入Token Embedding(标记嵌入)进行编码,编码为每帧的特征信息(v1,v2…V6);将预先采集存储的视频信号输入Token Embedding进行编码,编码为每帧的特征信息(I1,I2…I6),将(v1,v2…V6)与(I1,I2…I6)输入transformer Encoder(位置编码)网络,基于语音信号与视频信号的时间序列对已经编码后的特征信息进行位置编码,经过transformer Encoder网络后,将经过位置编码后的特征信息输入FC(全连接网络),利用语音全连接网络FC1,输出label1(语音识别结果),利用视线全连接网络FC2,输出label2(视线识别结果);其中,label1与label2可以为语音输出向量值与视频输出向量值,进而,基于语音输出向量值、视频输出向量值与真值标签(例如,“打开空调”、“关闭空调”、“调高温度”、“调低温度”等)计算分类损失函数,基于分类损失函数,利用批量梯度下降更新多模态识别模型参数,直至分类损失函数曲线收敛,完成多模态识别模型的训练。
上式中,xi表示输出向量值(即语音输出向量值或视频输出向量值),i=1,2,...n,j=1,2,...n,n表示分类器类别(其中,语音分类器包含“打开空调”、“关闭空调”、“调高温度”、“调低温度”等类别,视频分类器包含2类,即“视线注视设备”“未看设备”),表示指数函数,yi表示命令对应的真值标签,f(xi)表示归一化指数函数。
所述响应模块3用于获取所述语音识别结果与所述视线识别结果,基于所述语音识别结果与所述视线识别结果进行响应。
具体的,若语音识别结果与预设的语音命令一致且视线对着待命令终端,则该终端响应命令。
上述一种基于语音和视线的多模态免唤醒系统,通过对语音信号与视频信号的同时采集,并利用语音视线多模态识别模型对语音信号与视频信号进行识别,将语音识别结果与视线识别结果进行响应,将语音识别结果与视线识别结果都作为唤醒终端的必要因素,避免了设备误唤醒给用户带来困扰,提高了用户体验。
优选地,上述计算模块2,包括:第一编码子模块21、第二编码子模块22和识别子模块23;
上述第一编码子模块21用于提取上述语音信号中的声学特征,并对上述声学特征进行编码,生成语音时序特征。
具体的,将声学特征输入Token Embedding进行编码,编码为每帧的声学特征信息,进而将每帧的声学特征信息输入transformer Encoder网络进行位置编码,生成语音时序特征。
上述第二编码子模块22用于提取上述视频信号中的视线特征,并对上述视线特征进行编码,生成视频时序特征。
具体的,将视线特征输入Token Embedding进行编码,编码为每帧的视频特征信息,进而将每帧的视频特征信息输入transformer Encoder网络进行位置编码,生成视频时序特征。
上述识别子模块23用于将上述语音时序特征与上述视频时序特征输入上述多模态识别模型,输出语音识别结果与视线识别结果。
优选地,上述响应模块3,包括:
将上述语音识别结果与预设语音命令(即命令词)进行比较,上述视线识别结果与预设视线命令(即视线是否注视终端)进行比较,当上述语音结果与上述预设语音命令相符且上述视线识别结果与上述预设视线命令相符时进行响应。
具体的,根据语音信号内容,确定标记信息(即预设语音命令),为哪一条命令词,或者非命令词;根据视频信号内容,确定标记信息(即预设视线命令),是否注视设备,将命令词与是否注视设备作为响应请求,设备基于命令词进行相应地响应。
例如,空调在使用时,用户向空调发出命令,“温度调到二十二度”,并且注视空调,则空调响应此命令,若用户不注视空调,那么空调命令不响应,若用户仅注视空调没有命令词,则不会有任何响应。
进一步地,当房间内有多个同类的语音控制产品,例如语音灯、语音空调时,通过用户视线注视的方式确定哪台设备响应。
优选地,上述第一编码子模块21,包括:处理单元211、提取单元212和第一编码单元213;
上述处理单元211用于对上述语音信号进行声学处理,生成声学处理后的语音信号。
其中,原始语音信号通常包含了各种各样的噪声,这些噪声会对语音信号产生很大的干扰;为了提高后续声学特征提取的准确性,需要对获取的原始语音信号进行语音降噪处理,语音降噪处理可以采用谱减法:将预先估计设置的噪声的功率谱并将其从嘈杂语音中减去;或采用基于统计模型的方法,将语音降噪问题归入到一个统计的估计框架中,如Wiener滤波、最小均方误差(MMSE)方和最大后验(MAP)法;或基于子空间,假设干净的语音信号子空间和噪声子空间是正交的,由此进行去噪。
上述提取单元212用于提取上述声学处理后的语音信号中声学特征。
具体的,提取处理后的语音信号中的fbank(滤波器组)和mfcc(Mel频率倒谱系数),在本实施例中,提取的声学特征可以根据需要进行设置。
进一步地,fbank特征的提取过程为:将不定长的语音信号切分成固定长度的小段(即分帧),取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分),选取帧迭为10ms;以帧为单位进行预增强;并将每一帧代入窗函数(例如方窗、汉明窗等),窗外的值设定为0,消除各个帧两端可能会造成的信号不连续性;利用傅里叶变换将时域信号转换为频域信号;由于得到的是频域信号,每个频带范围的能量大小不一,不同音素的能量谱不一样,将每个滤波频带内的能量进行叠加,得到每个滤波器输出的能量谱,将每个滤波器的输出功率取对数,得到相应频带的对数功率谱。
进一步地,MFCC特征的提取流程如下:将不定长的语音信号切分成固定长度的小段(即分帧),取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分),选取帧迭为10ms;以帧为单位进行预增强;并将每一帧代入窗函数(例如方窗、汉明窗等),窗外的值设定为0,消除各个帧两端可能会造成的信号不连续性;利用傅里叶变换将时域信号转换为频域信号;由于得到的是频域信号,每个频带范围的能量大小不一,不同音素的能量谱不一样,将每个滤波频带内的能量进行叠加,得到每个滤波器输出的能量谱;设定频率上限和下限,屏蔽掉不需要或者有噪声的频率范围;将每个滤波器的输出功率取对数,得到相应频带的对数能量谱,并进行反离散余弦变换,得到多个MFCC系数;计算得到MFCC特征值,MFCC特征值可作为静态特征,再对静态特征做一阶和二阶差分,得到相应的动态特征。
上述第一编码单元213用于对不同时间序列的声学特征进行编码,生成语音时序特征。
其中,如图3所示,将不同时间序列的声学特征(即语音信号中的fbank和mfcc)输入Token Embedding(标记嵌入)进行编码,编码为每帧的特征信息(v1,v2…V6);将(v1,v2…V6)输入transformer Encoder(位置编码)网络,基于语音信号与视频信号的时间序列对已经编码后的特征信息进行位置编码,生成语音时序特征。
优选地,上述第二编码子模块22,包括:检测单元221和第二编码单元222;
上述检测单元221用于对上述视频信号中进行人脸检测,生成人脸图像,并提取上述人脸图像中的视线特征。
具体的,将每一帧视频信号转化为图像,该图像可以为图片或者视频中的视频帧,进而,采用人脸检测算法获取人脸图像,可以采用人脸特征模板匹配、或MTCNN(Multi-taskconvolutional neural network,多任务卷积神经网络)、或R-CNN(Region CNN,区域卷积神经网络),并利用人脸特征点定位算法定位面部区域中的人脸特征点(预先设置的人脸特征点,例如眼睛区域,嘴巴区域),根据特征点位置提取眼部图像,并计算人脸平均特征点;从眼部图像中计算虹膜精确定位中心点,将虹膜精确定位中心点和人脸平均特征点之间的偏移向量作为眼动特征,计算用户视线的注视点位置,将用户注视点的位置作为视线特征。
进一步地,计算用户视线的注视点位置的具体计算过程为:对眼部图像进行灰度化,得到眼部灰度图像,对眼部灰度图像进行二值化,获取眼部二值化图,对眼部二值化图进行腐蚀和膨胀,去除睫毛的干扰,获得虹膜二值化图;在虹膜二值化图中,获取虹膜区域的左右水平最长距离即最长水平线,上下垂直最长距离即最长垂直线,将最长水平线与最长垂直线的交点作为虹膜粗定位的中心;在眼部灰度图像中,以虹膜粗定位的中心为圆心,每隔角均匀向外发散星射线法,利用图像梯度计算每一条星射线上的虹膜边缘点;基于虹膜边缘点,采用RANSAC算法拟合虹膜椭圆模型,通过最小二乘法优化模型参数,得到最优的虹膜椭圆,该椭圆的圆心即为虹膜精确定位中心点;计算人脸平均特征点与虹膜精确定位中心点的偏移向量,得到眼动特征向量,利用该特征向量计算用户视线的注视点位置,将用户注视点的位置作为视线特征。
进一步地,若一张图像中存在多个人脸,选取尺寸最大人脸图像,并将图像resize(改变图像大小)到某个尺寸(例如128*128),进而提取视线特征,若图像中不存在人脸,则随机选取图像中128*128尺寸的大小为视线特征。
上述第二编码单元222用于对不同时间序列的上述视线特征进行编码,生成视频时序特征。
其中,如图3所示,对不同时间序列的上述视线特征输入Token Embedding进行编码,编码为每帧的特征信息(I1,I2…I6),将(I1,I2…I6)输入transformer Encoder(位置编码)网络,基于语音信号与视频信号的时间序列对已经编码后的特征信息进行位置编码,生成视频时序特征。
实施例2
本施例提供一种基于语音和视线的多模态免唤醒方法,如图4所示,包括如下步骤:
S401、采集模块采集语音信号与视频信号。
其中,通过语音传感器获取语音信号,通过图像传感器获取视频信息。
S402、计算模块对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果。
具体的,多模态识别模型采用transformer(是基于自注意力机制的一个深度学习模型),由transformer的Encoder网络组成和全连接网络组成训练网络对语音信号与视频信号进行训练。
进一步地,如图3所示,对上述多模态识别模型进行训练的训练过程为:将预先采集存储的语音信号输入Token Embedding(标记嵌入)进行编码,编码为每帧的特征信息(v1,v2…V6);将预先采集存储的视频信号输入Token Embedding进行编码,编码为每帧的特征信息(I1,I2…I6),将(v1,v2…V6)与(I1,I2…I6)输入transformer Encoder(位置编码)网络,基于语音信号与视频信号的时间序列对已经编码后的特征信息进行位置编码,经过transformer Encoder网络后,将经过位置编码后的特征信息输入FC(全连接网络),利用语音全连接网络FC1,输出label1(语音识别结果),利用视线全连接网络FC2,输出label2(视线识别结果);其中,label1与label2可以为语音输出向量值与视频输出向量值,进而,基于语音输出向量值、视频输出向量值与真值标签(例如,“打开空调”、“关闭空调”、“调高温度”、“调低温度”等)计算分类损失函数,基于分类损失函数,利用批量梯度下降更新多模态识别模型参数,直至分类损失函数曲线收敛,完成多模态识别模型的训练。
上式中,xi表示输出向量值(即语音输出向量值或视频输出向量值),i=1,2,...n,j=1,2,...n,n表示分类器类别(其中,语音分类器包含“打开空调”、“关闭空调”、“调高温度”、“调低温度”等类别,视频分类器包含2类,即“视线注视设备”“未看设备”),exi表示指数函数,yi表示命令对应的真值标签,f(xi)表示归一化指数函数。
S403、响应模块基于所述语音识别结果与所述视线识别结果进行响应。
具体的,若语音识别结果与预设的语音命令一致且视线对着待命令终端,则该终端响应命令。
上述一种基于语音和视线的多模态免唤醒方法,通过对语音信号与视频信号的同时采集,并利用语音视线多模态识别模型对语音信号与视频信号进行识别,将语音识别结果与视线识别结果进行响应,将语音识别结果与视线识别结果都作为唤醒终端的必要因素,避免了设备误唤醒给用户带来困扰,提高了用户体验。
优选地,如图5所示,上述步骤S402中对上述语音信号与上述视频信号进行预处理,将预处理后的上述语音信号与上述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果,包括:
S4021、第一编码子模块提取上述语音信号中的声学特征,并对上述声学特征进行编码,生成语音时序特征。
具体的,将声学特征输入Token Embedding进行编码,编码为每帧的声学特征信息,进而将每帧的声学特征信息输入transformer Encoder网络进行位置编码,生成语音时序特征。
S4022、第二编码子模块提取上述视频信号中的视线特征,并对上述视线特征进行编码,生成视频时序特征;
S4023、识别子模块将上述语音时序特征与上述视频时序特征输入上述多模态识别模型,输出语音识别结果与视线识别结果。
优选地,上述步骤S403中基于上述语音识别结果与上述视线识别结果进行响应,包括:
将上述语音识别结果与预设语音命令进行比较,上述视线识别结果与预设视线命令进行比较,当上述语音结果与上述预设语音命令相符且上述视线识别结果与上述预设视线命令相符时进行响应。
具体的,根据语音信号内容,确定标记信息(即预设语音命令),为哪一条命令词,或者非命令词;根据视频信号内容,确定标记信息(即预设视线命令),是否注视设备。
例如,空调在使用时,用户向空调发出命令,“温度调到二十二度”,并且注视空调,则空调响应此命令,若用户不注视空调,那么空调命令不响应,若用户仅注视空调没有命令词,则不会有任何响应。
进一步地,当房间内有多个同类的语音控制产品,例如语音灯、语音空调时,通过用户视线注视的方式确定哪台设备响应。
优选地,如图6所示,上述步骤S4021中上述提取上述语音信号中的声学特征,并对上述声学特征进行编码,生成语音时序特征,包括:
S40211、处理单元对上述语音信号进行声学处理,生成声学处理后的语音信号。
其中,原始语音信号通常包含了各种各样的噪声,这些噪声会对语音信号产生很大的干扰;为了提高后续声学特征提取的准确性,需要对获取的原始语音信号进行语音降噪处理,语音降噪处理可以采用谱减法:将预先估计设置的噪声的功率谱并将其从嘈杂语音中减去;或采用基于统计模型的方法,将语音降噪问题归入到一个统计的估计框架中,如Wiener滤波、最小均方误差(MMSE)方和最大后验(MAP)法;或基于子空间,假设干净的语音信号子空间和噪声子空间是正交的,由此进行去噪。
S40212、提取单元提取上述声学处理后的语音信号中声学特征。
具体的,提取处理后的语音信号中的fbank(滤波器组)和mfcc(Mel频率倒谱系数),在本实施例中,提取的声学特征可以根据需要进行设置。
进一步地,fbank特征的提取过程为:将不定长的语音信号切分成固定长度的小段(即分帧),取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分),选取帧迭为10ms;以帧为单位进行预增强;并将每一帧代入窗函数(例如方窗、汉明窗等),窗外的值设定为0,消除各个帧两端可能会造成的信号不连续性;利用傅里叶变换将时域信号转换为频域信号;由于得到的是频域信号,每个频带范围的能量大小不一,不同音素的能量谱不一样,将每个滤波频带内的能量进行叠加,得到每个滤波器输出的能量谱,将每个滤波器的输出功率取对数,得到相应频带的对数功率谱。
进一步地,MFCC特征的提取流程如下:将不定长的语音信号切分成固定长度的小段(即分帧),取10-30ms为一帧,为了避免窗边界对信号的遗漏,因此帧做偏移时候,要有帧迭(帧与帧之间需要重叠一部分),选取帧迭为10ms;以帧为单位进行预增强;并将每一帧代入窗函数(例如方窗、汉明窗等),窗外的值设定为0,消除各个帧两端可能会造成的信号不连续性;利用傅里叶变换将时域信号转换为频域信号;由于得到的是频域信号,每个频带范围的能量大小不一,不同音素的能量谱不一样,将每个滤波频带内的能量进行叠加,得到每个滤波器输出的能量谱;设定频率上限和下限,屏蔽掉不需要或者有噪声的频率范围;将每个滤波器的输出功率取对数,得到相应频带的对数能量谱,并进行反离散余弦变换,得到多个MFCC系数;计算得到MFCC特征值,MFCC特征值可作为静态特征,再对静态特征做一阶和二阶差分,得到相应的动态特征。
S40213、第一编码单元对不同时间序列的声学特征进行编码,生成语音时序特征。
其中,将不同时间序列的声学特征(即语音信号中的fbank和mfcc)输入TokenEmbedding(标记嵌入)进行编码,编码为每帧的特征信息(v1,v2…V6);将(v1,v2…V6)输入transformer Encoder(位置编码)网络,基于语音信号与视频信号的时间序列对已经编码后的特征信息进行位置编码,生成语音时序特征。
优选地,如图7所示,上述步骤S4022中上述提取上述视频信号中的视线特征,并对上述视线特征进行编码,生成视频时序特征,包括:
S40221、检测单元对上述视频信号中进行人脸检测,生成人脸图像,并提取上述人脸图像中的视线特征。
具体的,将每一帧视频信号转化为图像,该图像可以为图片或者视频中的视频帧,进而,采用人脸检测算法获取人脸图像,可以采用人脸特征模板匹配、或MTCNN(Multi-taskconvolutional neural network,多任务卷积神经网络)、或R-CNN(Region CNN,区域卷积神经网络),并使用人脸特征点定位算法定位面部区域中的人脸特征点(预先设置的人脸特征点,例如眼睛区域,嘴巴区域),根据特征点位置提取眼部图像,并计算人脸平均特征点;从眼部图像中计算虹膜精确定位中心点,将虹膜精确定位中心点和人脸平均特征点之间的偏移向量作为眼动特征,计算用户视线的注视点位置,将用户注视点的位置作为视线特征。
进一步地,计算用户视线的注视点位置的具体计算过程为:对眼部图像进行灰度化,得到眼部灰度图像,对眼部灰度图像进行二值化,获取眼部二值化图,对眼部二值化图进行腐蚀和膨胀,去除睫毛的干扰,获得虹膜二值化图;在虹膜二值化图中,获取虹膜区域的左右水平最长距离即最长水平线,上下垂直最长距离即最长垂直线,将最长水平线与最长垂直线的交点作为虹膜粗定位的中心;在眼部灰度图像中,以虹膜粗定位的中心为圆心,每隔角均匀向外发散星射线法,利用图像梯度计算每一条星射线上的虹膜边缘点;基于虹膜边缘点,采用RANSAC算法拟合虹膜椭圆模型,通过最小二乘法优化模型参数,得到最优的虹膜椭圆,该椭圆的圆心即为虹膜精确定位中心点;计算人脸平均特征点与虹膜精确定位中心点的偏移向量,得到眼动特征向量,利用该特征向量计算用户视线的注视点位置,将用户注视点的位置作为视线特征。
进一步地,若一张图像中存在多个人脸,选取尺寸最大人脸图像,并将图像resize(改变图像大小)到某个尺寸(例如128*128),进而提取视线特征,若图像中不存在人脸,则随机选取图像中128*128尺寸的大小为视线特征。
S40222、第二编码单元对不同时间序列的上述视线特征进行编码,生成视频时序特征。
其中,对不同时间序列的上述视线特征输入Token Embedding进行编码,编码为每帧的特征信息(I1,I2…I6),将(I1,I2…I6)输入transformer Encoder(位置编码)网络,基于语音信号与视频信号的时间序列对已经编码后的特征信息进行位置编码,生成视频时序特征。
实施例3
本施例提供一种计算机设备,包括存储器和处理器,处理器用于读取存储器中存储的指令,以执行以下操作:
获取命令数据集,对所述命令数据集进行语料处理,生成句法模板与相似句对;
基于所述句法模板与所述相似句对对预设文本生成模型进行训练,生成相似文本生成模型;
将所述命令数据集与所述句法模板输入上述所述文本生成模型,生成相似命令文本。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
实施例4
本实施例提供一种计算机可读存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的一种相似命令文本的生成方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (10)
1.一种基于语音和视线的多模态免唤醒系统,其特征在于,包括:采集模块、计算模块和响应模块;
所述采集模块用于采集语音信号与视频信号,并将所述语音信号与所述视频信号传输给所述计算模块;
所述计算模块用于对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果;
所述响应模块用于获取所述语音识别结果与所述视线识别结果,基于所述语音识别结果与所述视线识别结果进行响应。
2.根据权利要求1所述的一种基于语音和视线的多模态免唤醒系统,其特征在于,所述计算模块,包括:第一编码子模块、第二编码子模块和识别子模块;
所述第一编码子模块用于提取所述语音信号中的声学特征,并对所述声学特征进行编码,生成语音时序特征;
所述第二编码子模块用于提取所述视频信号中的视线特征,并对所述视线特征进行编码,生成视频时序特征;
所述识别子模块用于将所述语音时序特征与所述视频时序特征输入所述多模态识别模型,输出语音识别结果与视线识别结果。
3.根据权利要求2所述的一种基于语音和视线的多模态免唤醒系统,其特征在于,所述响应模块,包括:
将所述语音识别结果与预设语音命令进行比较,所述视线识别结果与预设视线命令进行比较,当所述语音结果与所述预设语音命令相符且所述视线识别结果与所述预设视线命令相符时进行响应。
4.根据权利要求2所述的一种基于语音和视线的多模态免唤醒系统,其特征在于,所述第一编码子模块,包括:处理单元、提取单元和第一编码单元;
所述处理单元用于对所述语音信号进行声学处理,生成声学处理后的语音信号;
所述提取单元用于提取所述声学处理后的语音信号中声学特征;
所述第一编码单元用于对不同时间序列的声学特征进行编码,生成语音时序特征。
5.根据权利要求2所述的一种基于语音和视线的多模态免唤醒系统,其特征在于,所述第二编码子模块,包括:检测单元和第二编码单元;
所述检测单元用于对所述视频信号中进行人脸检测,生成人脸图像,并提取所述人脸图像中的视线特征;
所述第二编码单元用于对不同时间序列的所述视线特征进行编码,生成视频时序特征。
6.一种基于语音和视线的多模态免唤醒方法,其特征在于,包括如下步骤:
采集语音信号与视频信号;
对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果;
基于所述语音识别结果与所述视线识别结果进行响应。
7.根据权利要求6所述的一种基于语音和视线的多模态免唤醒方法,其特征在于,所述对所述语音信号与所述视频信号进行预处理,将预处理后的所述语音信号与所述视频信号输入语音视线多模态识别模型,生成语音识别结果与视线识别结果,包括:
提取所述语音信号中的声学特征,并对所述声学特征进行编码,生成语音时序特征;
提取所述视频信号中的视线特征,并对所述视线特征进行编码,生成视频时序特征;
将所述语音时序特征与所述视频时序特征输入所述多模态识别模型,输出语音识别结果与视线识别结果。
8.根据权利要求6所述的一种基于语音和视线的多模态免唤醒方法,其特征在于,所述基于所述语音识别结果与所述视线识别结果进行响应,包括:
将所述语音识别结果与预设语音命令进行比较,所述视线识别结果与预设视线命令进行比较,当所述语音结果与所述预设语音命令相符且所述视线识别结果与所述预设视线命令相符时进行响应。
9.一种计算机设备,其特征在于,包括处理器和存储器,其中,所述存储器用于存储计算机程序,所述处理器被配置用于调用所述计算机程序,执行如权利要求1-5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381839.9A CN114999458A (zh) | 2022-04-12 | 2022-04-12 | 一种基于语音和视线的多模态免唤醒系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210381839.9A CN114999458A (zh) | 2022-04-12 | 2022-04-12 | 一种基于语音和视线的多模态免唤醒系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114999458A true CN114999458A (zh) | 2022-09-02 |
Family
ID=83023576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210381839.9A Pending CN114999458A (zh) | 2022-04-12 | 2022-04-12 | 一种基于语音和视线的多模态免唤醒系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114999458A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118071831A (zh) * | 2024-04-10 | 2024-05-24 | 北京阿丘机器人科技有限公司 | 图像粗定位方法、设备及计算机可读存储介质 |
-
2022
- 2022-04-12 CN CN202210381839.9A patent/CN114999458A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118071831A (zh) * | 2024-04-10 | 2024-05-24 | 北京阿丘机器人科技有限公司 | 图像粗定位方法、设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110838289B (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN105632486B (zh) | 一种智能硬件的语音唤醒方法和装置 | |
CN105654952B (zh) | 用于输出语音的电子设备、服务器和方法 | |
CN108766446A (zh) | 声纹识别方法、装置、存储介质及音箱 | |
CN110909613A (zh) | 视频人物识别方法、装置、存储介质与电子设备 | |
CN110970018B (zh) | 语音识别方法和装置 | |
CN105700363A (zh) | 一种智能家居设备语音控制装置的唤醒方法及系统 | |
CN109431507A (zh) | 基于深度学习的咳嗽疾病识别方法及装置 | |
CN110570873B (zh) | 声纹唤醒方法、装置、计算机设备以及存储介质 | |
CN105206271A (zh) | 智能设备的语音唤醒方法及实现所述方法的系统 | |
CN109377995B (zh) | 一种控制设备的方法与装置 | |
JP2008009120A (ja) | リモートコントローラ並びに家電機器 | |
CN111667818A (zh) | 一种训练唤醒模型的方法及装置 | |
CN112102850A (zh) | 情绪识别的处理方法、装置、介质及电子设备 | |
CN114038457B (zh) | 用于语音唤醒的方法、电子设备、存储介质和程序 | |
CN106653020A (zh) | 一种基于深度学习的智慧视听设备多业务控制方法及系统 | |
CN110931018A (zh) | 智能语音交互的方法、装置及计算机可读存储介质 | |
CN114999458A (zh) | 一种基于语音和视线的多模态免唤醒系统及方法 | |
CN114842855A (zh) | 语音唤醒模型的训练、唤醒方法、装置、设备及存储介质 | |
CN114078472A (zh) | 一种低误唤醒率的关键词计算模型的训练方法及装置 | |
CN113330513A (zh) | 语音信息处理方法及设备 | |
CN112017638A (zh) | 语音语义识别模型构建方法、语义识别方法、装置及设备 | |
CN114529962A (zh) | 图像特征处理方法、装置、电子设备及存储介质 | |
CN115104151A (zh) | 一种离线语音识别方法和装置、电子设备和可读存储介质 | |
CN116721449A (zh) | 视频识别模型的训练方法、视频识别方法、装置以及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |