CN111028833B - 一种交互、车辆的交互方法、装置 - Google Patents
一种交互、车辆的交互方法、装置 Download PDFInfo
- Publication number
- CN111028833B CN111028833B CN201911300287.9A CN201911300287A CN111028833B CN 111028833 B CN111028833 B CN 111028833B CN 201911300287 A CN201911300287 A CN 201911300287A CN 111028833 B CN111028833 B CN 111028833B
- Authority
- CN
- China
- Prior art keywords
- noise reduction
- network
- audio signal
- bimodal
- generating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000003993 interaction Effects 0.000 title claims abstract description 49
- 230000009467 reduction Effects 0.000 claims abstract description 167
- 230000002452 interceptive effect Effects 0.000 claims abstract description 109
- 230000005236 sound signal Effects 0.000 claims abstract description 106
- 230000002902 bimodal effect Effects 0.000 claims abstract description 87
- 238000012512 characterization method Methods 0.000 claims abstract description 45
- 239000011159 matrix material Substances 0.000 claims description 71
- 238000001228 spectrum Methods 0.000 claims description 69
- 238000012549 training Methods 0.000 claims description 44
- 230000007246 mechanism Effects 0.000 claims description 41
- 238000004590 computer program Methods 0.000 claims description 27
- 239000013598 vector Substances 0.000 claims description 27
- 230000006870 function Effects 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 238000009826 distribution Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 230000003595 spectral effect Effects 0.000 claims description 8
- 238000000638 solvent extraction Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 9
- 230000009471 action Effects 0.000 abstract description 8
- 238000010586 diagram Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 238000013507 mapping Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
- Circuit For Audible Band Transducer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明实施例提供了一种交互、车辆的交互方法、装置,所述交互方法包括:采集用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;采用所述双模态特征和预设降噪网络,生成降噪表征值;采用所述降噪表征值对所述音频信号降噪;采用降噪后的所述音频信号和预设语音识别网络,生成交互指令。本发明实施例中,根据音频信号和包含唇部图像的视频信号生成双模态特征,采用降噪网络和双模态特征共同作用实现语音降噪,可以减小对音频信号的破坏,提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令,可以提高交互指令的识别准确性。
Description
技术领域
本发明涉及语音识别技术领域,特别是涉及一种交互方法、一种车辆的交互方法、一种交互装置和一种车辆的交互装置。
背景技术
随着人工智能的发展,智能设备的人机交互成为人们的越来越关注的需求。语音识别被认为是有效的人机交互的首选,传统的语音识别系统在一些安静环境中,能够达到较高的识别准确率;但是在吵杂的环境中,识别准确率不能满足识别需求。
例如,在汽车语音识别的场景中,由于车内噪声情况较复杂,在某些情况下语音识别系统无法有效地识别用户发出的召唤指令,传统的语音识别系统依赖语音单模态的降噪处理,容易使频谱变得模糊、破坏语音,而且当汽车内播放歌曲、低速情况下汽车周边人物发声或车内多人同时发声时,无法确定有效地召唤音源,因此现有的降噪方法使得语音识别准确率不高。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种交互方法、一种车辆的交互方法、一种交互装置和一种车辆的交互装置。
为了解决上述问题,本发明实施例公开了一种交互方法,包括:
采集用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
采用所述双模态特征和预设降噪网络,生成降噪表征值;
采用所述降噪表征值对所述音频信号降噪;
采用降噪后的所述音频信号和预设语音识别网络,生成交互指令。
可选地,所述降噪表征值为降噪表征矩阵,所述降噪表征矩阵的元素的取值范围在[0,1]之间;
所述采用所述降噪表征值对所述音频信号降噪,包括:
将所述降噪表征矩阵与所述音频信号的语音频谱特征相乘,得到降噪后的语音频谱特征。
可选地,所述预设降噪网络包括包含自注意力机制的第一编码网络,所述采用所述双模态特征和预设降噪网络,生成降噪表征值,包括:
将所述双模态特征划分为多个子向量fmi;
采用所述包含自注意力机制的第一编码网络和所述多个子向量fmi,生成降噪表征矩阵。
可选地,所述第一编码网络包括多个编码子块,所述编码子块包括自注意力网络模块和前馈网络模块;
所述采用所述包含自注意力机制的第一编码网络和所述多个子向量fmi,生成降噪表征矩阵,包括:
基于所述自注意力网络模块,计算子向量fmi与各个子向量的相关度得分Sij,并采用所述相关度得分Sij计算所述子向量fmi对应的表征值Ei;
将所述子向量fmi对应的表征值Ei的值映射到0~1之间;
将各个所述子向量fmi的Ei组合得到降噪表征矩阵E。
可选地,所述预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络;
所述采用降噪后的所述音频信号和预设语音识别网络,生成交互指令,包括:
将所述降噪后的语音频谱特征,输入到所述包含自注意力机制的第二编码网络;
将所述包含自注意力机制的解码网络输出的文字序列作为交互指令。
可选地,所述根据所述音频信号和所述视频信号,生成双模态特征,包括:
根据所述音频信号获得目标语音特征;
从所述视频信号提取用户唇部的图像序列,并从所述图像序列提取目标图像特征;
将所述目标语音特征和所述目标图像特征在时域上合并,得到双模态特征。
可选地,所述根据所述音频信号获得目标语音特征,包括:
从所述音频信号提取语音频谱特征;
采用时序卷积网络从所述语音频谱图提取目标语音特征。
可选地,所述从所述图像序列提取目标图像特征,包括:
采用预设图像序列特征提取网络,从所述图像序列提取目标图像特征;其中,所述预设图像序列特征提取网络包括深度残差网络与时序卷积网络。
可选地,所述将所述目标语音特征和所述目标图像特征在时域上合并,得到双模态特征,包括:
将所述目标语音特征和所述目标图像特征在时域上加权合并,得到双模态特征。
可选地,所述第一编码网络通过如下方式训练得到:
获取视频信号和噪声语音频谱;
以所述视频信号和所述噪声语音频谱作为输入,以正确标注为不含噪声的语音频谱作为输出,以L1损失函数,采用监督学习方式对所述降噪网络进行训练,得到所述自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
可选地,所述预设语音识别网络通过如下方式训练得到:
获取经过降噪的语音频谱特征;
以所述语音频谱特征为输入,以文字序列为输出,采用序列-序列损失函数,对所述语音识别网络进行训练。
本发明实施例还公开了一种车辆的交互方法,包括:
采集车辆中用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
采用所述双模态特征和预设降噪网络,生成降噪表征值;
采用所述降噪表征值对所述音频信号降噪;
采用降噪后的所述音频信号和预设语音识别网络,生成交互指令;
执行所述交互指令对应的交互操作。
可选地,所述执行所述交互指令对应的交互操作,包括:
识别所述交互指令对应的目标用户在车辆内的位置;
根据所述目标用户在车辆内的位置,执行所述交互指令对应的交互操作。
本发明实施例还公开了一种交互装置,包括:
双模态特征生成模块,用于采集用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
降噪表征值生成模块,用于采用所述双模态特征和预设降噪网络,生成降噪表征值;
降噪模块,用于采用所述降噪表征值对所述音频信号降噪;
交互指令生成模块,用于采用降噪后的所述音频信号和预设语音识别网络,生成交互指令。
可选地,所述降噪表征值为降噪表征矩阵,所述降噪表征矩阵的元素的取值范围在[0,1]之间;
所述降噪模块包括:
降噪子模块,用于将所述降噪表征矩阵与所述音频信号的语音频谱特征相乘,得到降噪后的语音频谱特征。
可选地,所述预设降噪网络包括包含自注意力机制的第一编码网络,所述降噪表征值生成模块包括:
子向量生成子模块,用于将所述双模态特征划分为多个子向量fmi;
降噪表征矩阵生成子模块,用于采用所述包含自注意力机制的第一编码网络和所述多个子向量fmi,生成降噪表征矩阵。
可选地,所述第一编码网络包括多个编码子块,所述编码子块包括自注意力网络模块和前馈网络模块;
所述降噪表征矩阵生成子模块包括:
子向量表征值生成单元,用于基于所述自注意力网络模块,计算子向量fmi与各个子向量的相关度得分Sij,并采用所述相关度得分Sij计算所述子向量fmi对应的表征值Ei;
表征值映射单元,用于将所述子向量fmi对应的表征值Ei的值映射到0~1之间;
降噪表征矩阵生成单元,用于将各个所述子向量fmi的Ei组合得到降噪表征矩阵E。
可选地,所述预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络;
所述交互指令生成模块包括:
语音频谱特征输入子模块,用于将所述降噪后的语音频谱特征,输入到所述包含自注意力机制的第二编码网络;
交互指令输出子模块,用于将所述包含自注意力机制的解码网络输出的文字序列作为交互指令。
可选地,所述双模态特征生成模块包括:
目标语音特征获取子模块,用于根据所述音频信号获得目标语音特征;
目标图像特征提取子模块,用于从所述视频信号提取用户唇部的图像序列,并从所述图像序列提取目标图像特征;
双模态特征生成子模块,用于将所述目标语音特征和所述目标图像特征在时域上合并,得到双模态特征。
可选地,所述目标语音特征获取子模块包括:
语音频谱特征提取单元,用于从所述音频信号提取语音频谱特征;
目标语音特征提取单元,用于采用时序卷积网络从所述语音频谱图提取目标语音特征。
可选地,所述目标图像特征提取子模块包括:
目标图像特征提取单元,用于采用预设图像序列特征提取网络,从所述图像序列提取目标图像特征;其中,所述预设图像序列特征提取网络包括深度残差网络与时序卷积网络。
可选地,所述双模态特征生成子模块包括:
双模态特征生成单元,用于将所述目标语音特征和所述目标图像特征在时域上加权合并,得到双模态特征。
可选地,所述第一编码网络通过如下模块训练得到:
第一训练数据获取模块,用于获取视频信号和噪声语音频谱;
第一训练模块,用于以所述视频信号和所述噪声语音频谱作为输入,以正确标注为不含噪声的语音频谱作为输出,以L1损失函数,采用监督学习方式对所述降噪网络进行训练,得到所述自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
可选地,所述预设语音识别网络通过如下模块训练得到:
第二训练数据获取模块,用于获取经过降噪的语音频谱特征;
第二训练模块,用于以所述语音频谱特征为输入,以文字序列为输出,采用序列-序列损失函数,对所述语音识别网络进行训练。
本发明实施例还公开了一种车辆的交互装置,包括:
双模态特征生成模块,用于采集车辆中用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
降噪表征值生成模块,用于采用所述双模态特征和预设降噪网络,生成降噪表征值;
降噪模块,用于采用所述降噪表征值对所述音频信号降噪;
交互指令生成模块,用于采用降噪后的所述音频信号和预设语音识别网络,生成交互指令;
交互操作执行模块,用于执行所述交互指令对应的交互操作。
可选地,所述交互操作执行模块包括:
位置识别子模块,用于识别所述交互指令对应的目标用户在车辆内的位置;
交互操作执行子模块,用于根据所述目标用户在车辆内的位置,执行所述交互指令对应的交互操作。
本发明实施例还公开了一种车辆,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的交互方法的步骤。
本发明实施例还公开了一种车辆,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的车辆的交互方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的交互方法的步骤。
本发明实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上所述的车辆的交互方法的步骤。
本发明实施例包括以下优点:
本发明实施例中,根据音频信号和包含唇部图像的视频信号生成双模态特征,采用降噪网络和双模态特征共同作用实现语音降噪,可以减小对音频信号的破坏,提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令,可以提高交互指令的识别准确性。
附图说明
图1是本发明的一种交互方法实施例一的步骤流程图;
图2是本发明的一种交互方法实施例二的步骤流程图;
图3是本发明实施例中一种编码网络的示意图;
图4是本发明实施例中编码网络的自注意力机制示意图;
图5是本发明的一种降噪网络训练方法实施例的步骤流程图;
图6是本发明的一种语音识别网络训练方法实施例的步骤流程图;
图7是本发明的一种车辆的交互方法实施例的步骤流程图;
图8是本发明的一种交互装置实施例的结构框图;
图9是本发明的一种车辆的交互装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
传统的语音识别系统依赖语音单模态的降噪处理,往往采用自适应滤波器、谱减法和DNN(Deep Neural Networks,深度神经网络)等方法,传统降噪方法是基于统计意义上的近似或者模糊化处理,容易使频谱变得模糊、破坏语音,而且当汽车内播放歌曲、低速情况下汽车周边人物发声或车内多人同时发声时,无法确定有效地召唤音源。
本发明实施例的核心构思之一在于,结合图像与语音的双模态特征,可以从噪声或多人会话语音中提取出有效的召唤指令,提高用户与智能设备交互的成功率。
参照图1,示出了本发明的一种交互方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,采集用户的音频信号和包含用户唇部图像的视频信号,并根据音频信号和视频信号,生成双模态特征;
可以采用音频采集设备采集用户的音频信号,采用视频采集设备采集用户的视频信号;视频信号中具有用户的唇部图像,根据音频信号和视频信号生成表征音频、视频两种模态的双模态特征,与单模态特征相比双模态特征具有更多的特征。
步骤102,采用双模态特征和预设降噪网络,生成降噪表征值;
通过预设降噪网络可以得到音频特征与视频特征的关联性,进而通过视频特征确定音频特征的噪声分布,进而生成表征音频特征中的噪声分布的降噪表征值。
步骤103,采用降噪表征值对音频信号降噪;
音频信号中可以包括噪声信号和非噪声信号,由于降噪表征值反应了音频特征中的噪声分布,通过降噪表征值可以对音频信号中的噪声信号进行压缩,对音频信号中的非噪声信号则可以保留不变。
步骤104,采用降噪后的音频信号和预设语音识别网络,生成交互指令。
可以将语音信号输入到预设语音识别网络,由预设语音识别网络输出交互指令。
本发明实施例中,根据音频信号和包含唇部图像的视频信号生成双模态特征,采用降噪网络和双模态特征共同作用实现语音降噪,可以减小对音频信号的破坏,提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令,可以提高交互指令的识别准确性。
参照图2,示出了本发明的一种交互方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201,采集用户的音频信号和包含用户唇部图像的视频信号,并根据音频信号和视频信号,生成双模态特征;
在本发明实施例中,根据音频信号和视频信号,生成双模态特征的步骤可以包括如下子步骤:
子步骤S11,根据音频信号获得目标语音特征;
可以采用STFT(short-time Fourier transform,短时傅里叶变换)和Mel滤波器,从音频信号提取梅尔刻度(Mel-scale)的语音频谱特征Ma,然后采用时序卷积网络从语音频谱图提取目标语音特征fa。
子步骤S12,从视频信号提取用户唇部的图像序列,并从图像序列提取目标图像特征;
可以从视频信号中对用户进行人脸识别,确定人脸特征点,实现对唇部的定位,然后提取用户唇部的图像序列。
然后采用图像序列特征提取网络,从图像序列提取目标图像特征fv;其中,图像序列特征提取网络包括深度残差网络(例如,三维残差卷积神经网络ResNet)与时序卷积网络。
子步骤S13,将目标语音特征和目标图像特征在时域上合并,得到双模态特征。
可以将目标语音特征fa和目标图像特征fv在时域上加权合并,得到双模态特征fm=a·fv+b·fa。
其中参数a与b分别为目标视频特征与目标语音特征的加权参数,采用加权的方式可以使目标视频特征与目标语音特征更好地融合,实现特征互补。在一种示例中,加权参数预先均设置成0.5,并通过微调fine-tuning进行修正。
步骤202,将双模态特征划分为多个子向量fmi;
双模态特征fm尺度为T×H,其中T为视频帧(时域)长度,H为双模态特征在时域上的通道数。
可以将双模态特征划分成T个长度为H的一维子向量fm1...fmT,双模态特征划的任一子向量可以表示为fmi。
步骤203,采用包含自注意力机制的第一编码网络和多个子向量fmi,生成降噪表征矩阵;其中,降噪表征矩阵的元素的取值范围在[0,1]之间;
含自注意力机制的第一编码网络便于特征内部的元素更好地理解各元素之间的分布与关联,即本发明中各子向量之间的关联与分布,因此可对目标视频特征与目标音频特征间的关联进行学习。
通过目标视频特征近似估计纯净(不含噪声)音频的分布,并结合输入的噪声音频特征,对噪声分布进行预测,通过输出取值区间为0~1的表征值反应噪声特征元素与不含噪声音频特征间的相对关系。其中由于噪声音频频谱矩阵Ma的各元素均大于或等于纯净音频频谱Mo的各元素,因此将降噪表征矩阵的元素映射到0~1取值空间范围。
通过双模态特征和编码网络可以得到音频特征与视频特征的关联性,进而通过视频特征确定音频特征的噪声分布,进而生成对应的降噪表征矩阵,反应噪声分布情况。对噪声较强部分输出较低的表征值,以实现降噪,反之输出较高的表征值,对于编码分析认为不含噪声的部分,表征值输出为1。
在本发明实施例中,第一编码网络可以包括多个编码子块,编码子块包括自注意力网络模块和前馈网络模块;参照图3所示为本发明实施例中一种编码网络的示意图。在一种示例中,编码网络可以包括6个编码子块,每个编码子块都包括自注意力网络模块和前馈网络模块。
自注意力网络模块具有Q(Query,查询)参数矩阵、K(Key,关键字)参数矩阵和V(Value,值)参数矩阵;步骤203可以包括如下子步骤:
子步骤S21,基于自注意力网络模块,计算子向量fmi与各个子向量的相关度得分Sij,并采用相关度得分Sij计算子向量fmi对应的表征值Ei;
具体的,可以将子向量fmi分别与Q参数矩阵、K参数矩阵和V参数矩阵相乘,生成qi、ki、vi向量;将子向量fmi对应的qi与各个子向量对应的ki进行内积,得到子向量fmi与各个子向量的相关度得分Sij;采用Softmax对相关度得分Sij处理,得到标准化得分sij,其中将子向量fmi的标准化得分sij与对应的vij加权求和,得到子向量fmi对应的表征值
子步骤S22,将子向量fmi对应的表征值Ei的值映射到0~1之间;
子步骤S23,将各个子向量fmi的Ei组合得到降噪表征矩阵E。
参照图4所示,为本发明实施例中编码网络的自注意力机制示意图。其中,对于双模态特征的任一向量fmi,分别对应qi、ki、vi三个向量,qi、ki、vi由fmi与自注意力网络模块的Q参数矩阵、K参数矩阵、V参数矩阵相乘得到。例如,fm1对应q1、k1、v1,fm2对应q2、k2、v2,fm3对应q3、k3、v3。
通过将qi与各子向量的k值进行内积,得到子向量fmi与各子向量之间(包括子向量fmi自身)的相关度得分Sij(包括Si1...SiT),例如,S11为q1×k1,S12为q1×k2,S13为q1×k3。
采用Softmax对相关度得分Sij进行处理,得到标准化得分sij(包括si1...siT),其中将标准化得分sij与对应的vij做加权求和,即可得到子向量fmi对应的表征值例如,Ei由s1×v1、s2×v2、……、sT×vT加权求和得到。
然后通过Sigmoid激活函数将Ei的值映射到0~1之间,当对所有的子向量按以上过程处理后,即可得到降噪表征矩阵E。
在本发明实施例中,第一编码网络可以通过如下方式训练得到:获取视频信号和噪声语音频谱;以视频信号和噪声语音频谱作为输入,以正确标注为不含噪声的语音频谱作为输出,以L1损失函数,采用监督学习方式对降噪网络进行训练,得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
步骤204,将降噪表征矩阵与音频信号的语音频谱特征相乘,得到降噪后的语音频谱特征;
由于语音频谱特征的元素去噪范围在0~1之间,通过将降噪表征矩阵与语音频谱特征点乘,可以使得语音频谱特征中的噪音乘以小于1的值,得到降噪;非噪音部分乘以1,保持不变。
步骤205,采用降噪后的语音频谱特征和预设语音识别网络,生成交互指令。
在本发明实施例中,预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络;步骤205可以包括如下子步骤:
子步骤S31,将降噪后的语音频谱特征,输入到包含自注意力机制的第二编码网络;
子步骤S32,将包含自注意力机制的解码网络输出的文字序列作为交互指令。
在本发明实施例中,第二编码网络和解码网络可以分别包括多个编码子块,每个编码子块包括自注意力网络模块和前馈网络模块。在一种示例中,第一编码网络、第二编码网络和解码网络可以设置相同的结构。
在本发明实施例中,可以通过第二编码网络对降噪后的语音频谱特征在时序上,进行自注意力编码得到相应的编码表征值,然后将编码表征值作为解码网络的查询过程的key与value值;将编码网络每次输出的预测字符与已经预测出的字符合并成新的已预测字符,并输入到第二编码网络,生成解码过程的query值;结合query值和先前得到的key值与value值,经过解码网络的注意力机制,通过前馈网络即可得到交互指令。
值得注意的是,传统的编码网络和解码网络通常是用于进行文本翻译,即将一种语言的文本序列输入到编码网络,由解码网络输出另一种语言的文本序列。而本发明实施例创造性的以语音频谱特征作为编码网络的输入,以文本序列作为解码网络的输出,实现了直接从语音频谱特征识别文本序列的交互指令。
在本发明实施例中,预设语音识别网络可以通过如下方式训练得到:获取经过降噪的语音频谱特征;以语音频谱特征为输入,以文字序列为输出,采用序列-序列损失函数,对语音识别网络进行训练。
本发明实施例中,根据音频信号和包含唇部图像的视频信号生成双模态特征,采用包含自注意力机制的第一编码网络和双模态特征共同作用实现语音降噪,可以减小对音频信号的破坏,提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令,可以提高交互指令的识别准确性。
参照图5,示出了本发明的一种降噪网络训练方法实施例的步骤流程图,降噪网络为包含自注意力机制的编码网络,编码网络包括多个编码子块,编码子块包括自注意力网络模块和前馈网络模块;该方法具体可以包括如下步骤:
步骤501,获取视频信号和噪声语音频谱;
步骤502,以视频信号和噪声语音频谱作为输入,以正确标注为不含噪声的语音频谱作为输出,以L1损失函数,采用监督学习方式对降噪网络进行训练,得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
L1损失函数,也被称为最小绝对值偏差,最小绝对值误差,是把目标值与估计值的绝对差值的总和最小化。
采用监督学习方式对整个降噪网络进行训练,输入为视频信号和噪声语音频谱,输出的正确标注(ground truth)为不含噪声的语音频谱,模型损失函数采用L1损失函数,通过训练与微调(fine-tuning),即得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
参照图6,示出了本发明的一种语音识别网络训练方法实施例的步骤流程图,其中语音识别网络包括包含自注意力机制的编码网络和包含自注意力机制的解码网络,该方法包括:
步骤601,获取经过降噪的语音频谱特征;
步骤602,以语音频谱特征为输入,以文字序列为输出,采用序列-序列损失函数,对语音识别网络进行训练。
经过降噪的语音频谱特征可以是,采用上述实施例的降噪网络生成降噪表征矩阵对原始的语音频谱特征进行降噪后得到的语音频谱特征。
语音识别网络采用序列-序列(sequence-to-sequence)损失函数进行训练,输入为降噪后的语音频谱特征,输出为文字序列,即召唤指令,如开启空调、打开收音机等等。
参照图7,示出了本发明的一种车辆的交互方法实施例的步骤流程图,具体可以包括如下步骤:
步骤701,采集车辆中用户的音频信号和包含用户唇部图像的视频信号,并根据音频信号和视频信号,生成双模态特征;
通常车辆具有音频采集设备和图像采集设备等传感器。
可以采用音频采集设备采集用户的音频信号,采用视频采集设备采集用户的视频信号;视频信号中具有用户的唇部图像,根据音频信号和视频信号生成表征音频、视频两种模态的双模态特征。
步骤702,采用双模态特征和预设降噪网络,生成降噪表征值;
步骤703,采用降噪表征值对音频信号降噪;
步骤704,采用降噪后的音频信号和预设语音识别网络,生成交互指令;
步骤705,执行交互指令对应的交互操作。
在车辆中,车载系统可以根据交互指令,执行对应的交互操作。例如,若交互指令为打开窗户,则车载系统可以控制窗户打开;若交互指令为打开空调,则车载系统可以打开空调。
在本发明实施例中,步骤705可以包括如下子步骤:
子步骤S41,识别交互指令对应的目标用户在车辆内的位置;
具体的,车载系统可以通过视觉检测,从视频信号中确定发出交互指令的用户所在的位置,对用户进行有效定位和锁定。
还可以通过座椅压力传感器信号检测、座椅安全带信号检测等多种方式来确定发出交互指令的用户位于哪个位置。
子步骤S42,根据目标用户在车辆内的位置,执行交互指令对应的交互操作。
车载系统可以根据交互指令对应的目标用户在车辆的位置,执行交互指令对应的交互操作。
例如,若交互指令为打开窗户,且识别到发出交互指令的目标用户在副驾,则车载系统可以控制副驾位置对应的窗户打开。
本发明实施例中,根据音频信号和包含唇部图像的视频信号生成双模态特征,采用降噪网络和双模态特征共同作用实现语音降噪,可以减小对音频信号的破坏,提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令,可以提高交互指令的识别准确性。
进一步的,对于周围音源较多,尤其是播放歌曲、低速情况下汽车周边人物发声或车内多人同时发声时,本发明实施例可以识别发出交互指令的目标用户的位置,从而可以根据目标用户的位置和交互指令,更准确的执行交互操作,提升用户体验。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图8,示出了本发明的一种交互装置实施例的结构框图,具体可以包括如下模块:
双模态特征生成模块801,用于采集用户的音频信号和包含用户唇部图像的视频信号,并根据音频信号和视频信号,生成双模态特征;
降噪表征值生成模块802,用于采用双模态特征和预设降噪网络,生成降噪表征值;
降噪模块803,用于采用降噪表征值对音频信号降噪;
交互指令生成模块804,用于采用降噪后的音频信号和预设语音识别网络,生成交互指令。
在本发明实施例中,降噪表征值为降噪表征矩阵,降噪表征矩阵的元素的取值范围在[0,1]之间;降噪模块803可以包括:
降噪子模块,用于将降噪表征矩阵与音频信号的语音频谱特征相乘,得到降噪后的语音频谱特征。
在本发明实施例中,预设降噪网络包括包含自注意力机制的第一编码网络,降噪表征值生成模块802可以包括:
子向量生成子模块,用于将双模态特征划分为多个子向量fmi;
降噪表征矩阵生成子模块,用于采用包含自注意力机制的第一编码网络和多个子向量fmi,生成降噪表征矩阵。
在本发明实施例中,第一编码网络包括多个编码子块,编码子块包括自注意力网络模块和前馈网络模块;降噪表征矩阵生成子模块可以包括:
子向量表征值生成单元,用于基于自注意力网络模块,计算子向量fmi与各个子向量的相关度得分Sij,并采用相关度得分Sij计算子向量fmi对应的表征值Ei;
表征值映射单元,用于将子向量fmi对应的表征值Ei的值映射到0~1之间;
降噪表征矩阵生成单元,用于将各个子向量fmi的Ei组合得到降噪表征矩阵E。
在本发明实施例中,预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络;
交互指令生成模块804可以包括:
语音频谱特征输入子模块,用于将降噪后的语音频谱特征,输入到包含自注意力机制的第二编码网络;
交互指令输出子模块,用于将包含自注意力机制的解码网络输出的文字序列作为交互指令。
在本发明实施例中,双模态特征生成模块801可以包括:
目标语音特征获取子模块,用于根据音频信号获得目标语音特征;
目标图像特征提取子模块,用于从视频信号提取用户唇部的图像序列,并从图像序列提取目标图像特征;
双模态特征生成子模块,用于将目标语音特征和目标图像特征在时域上合并,得到双模态特征。
在本发明实施例中,目标语音特征获取子模块可以包括:
语音频谱特征提取单元,用于从音频信号提取语音频谱特征;
目标语音特征提取单元,用于采用时序卷积网络从语音频谱图提取目标语音特征。
在本发明实施例中,目标图像特征提取子模块可以包括:
目标图像特征提取单元,用于采用预设图像序列特征提取网络,从图像序列提取目标图像特征;其中,预设图像序列特征提取网络包括深度残差网络与时序卷积网络。
在本发明实施例中,双模态特征生成子模块可以包括:
双模态特征生成单元,用于将目标语音特征和目标图像特征在时域上加权合并,得到双模态特征。
在本发明实施例中,第一编码网络通过如下模块训练得到:
第一训练数据获取模块,用于获取视频信号和噪声语音频谱;
第一训练模块,用于以视频信号和噪声语音频谱作为输入,以正确标注为不含噪声的语音频谱作为输出,以L1损失函数,采用监督学习方式对降噪网络进行训练,得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
在本发明实施例中,预设语音识别网络通过如下模块训练得到:
第二训练数据获取模块,用于获取经过降噪的语音频谱特征;
第二训练模块,用于以语音频谱特征为输入,以文字序列为输出,采用序列-序列损失函数,对语音识别网络进行训练。
本发明实施例中,根据音频信号和包含唇部图像的视频信号生成双模态特征,采用包含自注意力机制的第一编码网络和双模态特征共同作用实现语音降噪,可以减小对音频信号的破坏,提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令,可以提高交互指令的识别准确性。
本发明还公开了一种降噪网络训练装置实施例,其中降噪网络为包含自注意力机制的编码网络,编码网络包括多个编码子块,编码子块包括自注意力网络模块和前馈网络模块;装置具体可以包括如下模块:
第三训练数据获取模块,用于获取视频信号和噪声语音频谱;
第三训练模块,用于以视频信号和噪声语音频谱作为输入,以正确标注为不含噪声的语音频谱作为输出,以L1损失函数,采用监督学习方式对降噪网络进行训练,得到自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
本发明还公开了一种语音识别网络训练装置实施例,其中,语音识别网络包括包含自注意力机制的编码网络和包含自注意力机制的解码网络,装置具体可以包括如下模块:
第四训练数据获取模块,用于获取经过降噪的语音频谱特征;
第四训练模块,用于以语音频谱特征为输入,以文字序列为输出,采用序列-序列损失函数,对语音识别网络进行训练。
参照图9,示出了本发明的一种车辆的交互装置实施例的结构框图,具体可以包括如下模块:
双模态特征生成模块901,用于采集车辆中用户的音频信号和包含用户唇部图像的视频信号,并根据音频信号和视频信号,生成双模态特征;
降噪表征值生成模块902,用于采用双模态特征和预设降噪网络,生成降噪表征值;
降噪模块903,用于采用降噪表征值对音频信号降噪;
交互指令生成模块904,用于采用降噪后的音频信号和预设语音识别网络,生成交互指令;
交互操作执行模块905,用于执行交互指令对应的交互操作。
在本发明实施例中,交互操作执行模块905可以包括:
位置识别子模块,用于识别交互指令对应的目标用户在车辆内的位置;
交互操作执行子模块,用于根据目标用户在车辆内的位置,执行交互指令对应的交互操作。
本发明实施例中,根据音频信号和包含唇部图像的视频信号生成双模态特征,采用降噪网络和双模态特征共同作用实现语音降噪,可以减小对音频信号的破坏,提高降噪效果。通过采用降噪后的音频信号和预设语音识别网络生成交互指令,可以提高交互指令的识别准确性。
进一步的,本发明实施例可以识别发出交互指令的目标用户的位置,从而可以根据目标用户的位置和交互指令,更准确的执行交互操作,提升用户体验。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供了一种车辆,包括:
包括处理器、存储器及存储在存储器上并能够在处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述交互方法,或,降噪网络训练方法,或,语音识别网络训练方法,或,车辆的交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述交互方法,或,降噪网络训练方法,或,语音识别网络训练方法,或,车辆的交互方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种交互方法、一种车辆的交互方法、一种交互装置和一种车辆的交互装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种交互方法,其特征在于,包括:
采集用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
采用所述双模态特征和预设降噪网络,生成降噪表征值;所述降噪表征值表征音频特征中的噪声分布;
采用所述降噪表征值对所述音频信号降噪;
采用降噪后的所述音频信号和预设语音识别网络,生成交互指令。
2.根据权利要求1所述的方法,其特征在于,所述降噪表征值为降噪表征矩阵,所述降噪表征矩阵的元素的取值范围在[0,1]之间;
所述采用所述降噪表征值对所述音频信号降噪,包括:
将所述降噪表征矩阵与所述音频信号的语音频谱特征相乘,得到降噪后的语音频谱特征。
3.根据权利要求1或2所述的方法,其特征在于,所述预设降噪网络包括包含自注意力机制的第一编码网络,所述采用所述双模态特征和预设降噪网络,生成降噪表征值,包括:
将所述双模态特征划分为多个子向量fmi;
采用所述包含自注意力机制的第一编码网络和所述多个子向量fmi,生成降噪表征矩阵。
4.根据权利要求3所述的方法,其特征在于,所述第一编码网络包括多个编码子块,所述编码子块包括自注意力网络模块和前馈网络模块;
所述采用所述包含自注意力机制的第一编码网络和所述多个子向量fmi,生成降噪表征矩阵,包括:
基于所述自注意力网络模块,计算子向量fmi与各个子向量的相关度得分Sij,并采用所述相关度得分Sij计算所述子向量fmi对应的表征值Ei;
将所述子向量fmi对应的表征值Ei的值映射到0~1之间;
将各个所述子向量fmi的Ei组合得到降噪表征矩阵E。
5.根据权利要求2所述的方法,其特征在于,所述预设语音识别网络包括包含自注意力机制的第二编码网络和包含自注意力机制的解码网络;
所述采用降噪后的所述音频信号和预设语音识别网络,生成交互指令,包括:
将所述降噪后的语音频谱特征,输入到所述包含自注意力机制的第二编码网络;
将所述包含自注意力机制的解码网络输出的文字序列作为交互指令。
6.根据权利要求1所述的方法,其特征在于,所述根据所述音频信号和所述视频信号,生成双模态特征,包括:
根据所述音频信号获得目标语音特征;
从所述视频信号提取用户唇部的图像序列,并从所述图像序列提取目标图像特征;
将所述目标语音特征和所述目标图像特征在时域上合并,得到双模态特征。
7.根据权利要求6所述的方法,其特征在于,所述根据所述音频信号获得目标语音特征,包括:
从所述音频信号提取语音频谱特征;
采用时序卷积网络从语音频谱图提取目标语音特征。
8.根据权利要求6所述的方法,其特征在于,所述从所述图像序列提取目标图像特征,包括:
采用预设图像序列特征提取网络,从所述图像序列提取目标图像特征;其中,所述预设图像序列特征提取网络包括深度残差网络与时序卷积网络。
9.根据权利要求6所述的方法,其特征在于,所述将所述目标语音特征和所述目标图像特征在时域上合并,得到双模态特征,包括:
将所述目标语音特征和所述目标图像特征在时域上加权合并,得到双模态特征。
10.根据权利要求4所述的方法,其特征在于,所述第一编码网络通过如下方式训练得到:
获取视频信号和噪声语音频谱;
以所述视频信号和所述噪声语音频谱作为输入,以正确标注为不含噪声的语音频谱作为输出,以L1损失函数,采用监督学习方式对所述降噪网络进行训练,得到所述自注意力网络模块的Q参数矩阵、K参数矩阵和V参数矩阵。
11.根据权利要求5所述的方法,其特征在于,所述预设语音识别网络通过如下方式训练得到:
获取经过降噪的语音频谱特征;
以所述语音频谱特征为输入,以文字序列为输出,采用序列-序列损失函数,对所述语音识别网络进行训练。
12.一种车辆的交互方法,其特征在于,包括:
采集车辆中用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
采用所述双模态特征和预设降噪网络,生成降噪表征值;所述降噪表征值表征音频特征中的噪声分布;
采用所述降噪表征值对所述音频信号降噪;
采用降噪后的所述音频信号和预设语音识别网络,生成交互指令;
执行所述交互指令对应的交互操作。
13.根据权利要求12所述的方法,其特征在于,所述执行所述交互指令对应的交互操作,包括:
识别所述交互指令对应的目标用户在车辆内的位置;
根据所述目标用户在车辆内的位置,执行所述交互指令对应的交互操作。
14.一种交互装置,其特征在于,包括:
双模态特征生成模块,用于采集用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
降噪表征值生成模块,用于采用所述双模态特征和预设降噪网络,生成降噪表征值;所述降噪表征值表征音频特征中的噪声分布;
降噪模块,用于采用所述降噪表征值对所述音频信号降噪;
交互指令生成模块,用于采用降噪后的所述音频信号和预设语音识别网络,生成交互指令。
15.一种车辆的交互装置,其特征在于,包括:
双模态特征生成模块,用于采集车辆中用户的音频信号和包含用户唇部图像的视频信号,并根据所述音频信号和所述视频信号,生成双模态特征;
降噪表征值生成模块,用于采用所述双模态特征和预设降噪网络,生成降噪表征值;所述降噪表征值表征音频特征中的噪声分布;
降噪模块,用于采用所述降噪表征值对所述音频信号降噪;
交互指令生成模块,用于采用降噪后的所述音频信号和预设语音识别网络,生成交互指令;
交互操作执行模块,用于执行所述交互指令对应的交互操作。
16.一种车辆,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-11中任一项所述的交互方法的步骤。
17.一种车辆,其特征在于,包括:处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求12-13中任一项所述的车辆的交互方法的步骤。
18.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的交互方法的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求12至13中任一项所述的车辆的交互方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911300287.9A CN111028833B (zh) | 2019-12-16 | 2019-12-16 | 一种交互、车辆的交互方法、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911300287.9A CN111028833B (zh) | 2019-12-16 | 2019-12-16 | 一种交互、车辆的交互方法、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111028833A CN111028833A (zh) | 2020-04-17 |
CN111028833B true CN111028833B (zh) | 2022-08-16 |
Family
ID=70211072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911300287.9A Active CN111028833B (zh) | 2019-12-16 | 2019-12-16 | 一种交互、车辆的交互方法、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111028833B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681662B (zh) * | 2020-06-01 | 2023-07-25 | 科大讯飞股份有限公司 | 车内交互音频加密方法、装置及设备 |
CN111754992B (zh) * | 2020-06-30 | 2022-10-18 | 山东大学 | 一种噪声鲁棒的音视频双模态语音识别方法及系统 |
CN113409798B (zh) * | 2021-06-22 | 2024-07-05 | 科大讯飞股份有限公司 | 车内含噪语音数据生成方法、装置以及设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637521A (zh) * | 2018-10-29 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 一种基于深度学习的唇语识别方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02253298A (ja) * | 1989-03-28 | 1990-10-12 | Sharp Corp | 音声通過フィルタ |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
JP2007156974A (ja) * | 2005-12-07 | 2007-06-21 | Kddi Corp | 個人認証・識別システム |
CN109147763B (zh) * | 2018-07-10 | 2020-08-11 | 深圳市感动智能科技有限公司 | 一种基于神经网络和逆熵加权的音视频关键词识别方法和装置 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110246512B (zh) * | 2019-05-30 | 2023-05-26 | 平安科技(深圳)有限公司 | 声音分离方法、装置及计算机可读存储介质 |
-
2019
- 2019-12-16 CN CN201911300287.9A patent/CN111028833B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109637521A (zh) * | 2018-10-29 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 一种基于深度学习的唇语识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111028833A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10475465B2 (en) | Method and system for enhancing a speech signal of a human speaker in a video using visual information | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
CN111028833B (zh) | 一种交互、车辆的交互方法、装置 | |
US11894012B2 (en) | Neural-network-based approach for speech denoising | |
Gurbuz et al. | Application of affine-invariant Fourier descriptors to lipreading for audio-visual speech recognition | |
CN113516990B (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
CN108198566B (zh) | 信息处理方法及装置、电子设备及存储介质 | |
Ismail et al. | Mfcc-vq approach for qalqalahtajweed rule checking | |
US20220084543A1 (en) | Cognitive Assistant for Real-Time Emotion Detection from Human Speech | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
US7212965B2 (en) | Robust parameters for noisy speech recognition | |
CN113782042B (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
Jagadeeshwar et al. | ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN | |
EP1199712B1 (en) | Noise reduction method | |
Poorjam et al. | A parametric approach for classification of distortions in pathological voices | |
KR102220964B1 (ko) | 오디오 인식을 위한 방법 및 디바이스 | |
CN114512134A (zh) | 声纹信息提取、模型训练与声纹识别的方法和装置 | |
CN113504891B (zh) | 一种音量调节方法、装置、设备以及存储介质 | |
Chen et al. | CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile Application | |
El-Henawy et al. | Recognition of phonetic Arabic figures via wavelet based Mel Frequency Cepstrum using HMMs | |
CN114299981B (zh) | 音频处理方法、装置、存储介质及设备 | |
CN115881157A (zh) | 音频信号的处理方法及相关设备 | |
WO2020250220A1 (en) | Sound analysis for determination of sound sources and sound isolation | |
Yoshida et al. | Audio-visual voice activity detection based on an utterance state transition model | |
Ouyang | Single-Channel Speech Enhancement Based on Deep Neural Networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |