CN111785286A - 面向家居cnn分类与特征匹配联合的声纹识别方法 - Google Patents
面向家居cnn分类与特征匹配联合的声纹识别方法 Download PDFInfo
- Publication number
- CN111785286A CN111785286A CN202010439102.9A CN202010439102A CN111785286A CN 111785286 A CN111785286 A CN 111785286A CN 202010439102 A CN202010439102 A CN 202010439102A CN 111785286 A CN111785286 A CN 111785286A
- Authority
- CN
- China
- Prior art keywords
- home
- spectrogram
- voiceprint recognition
- recognition method
- feature matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 29
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 230000000737 periodic effect Effects 0.000 claims description 6
- 239000013598 vector Substances 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 238000000691 measurement method Methods 0.000 abstract description 2
- 238000005070 sampling Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 4
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Abstract
本发明公开了一种面向家居CNN分类与特征匹配联合的声纹识别方法,包括如下步骤:对语音进行短时傅里叶变换生成语谱图;将语谱图输入到训练好的卷积神经网络进行分类,若识别为非家庭成员,流程结束;对语音信号提取MFCC特征参数;将MFCC特征参数和k‑means特征模板进行匹配,获取最终识别结果。本发明基于语谱图的生成、卷积神经网络、k‑means算法、余弦相似度测量方法,在保证识别准确率的情况下,有效的降低了语音识别的误检率和漏检率,解决了误检率和漏检率较高的问题,保证了家居环境的绝对安全。
Description
技术领域
本发明属于声纹识别领域,具体涉及一种面向家居CNN分类与特征匹配联合的声纹识别方法。
背景技术
声纹识别也称为说话人识别,包括说话人辨认和说话人确认。声纹识别应用领域十分广泛,包括金融领域、军事安全、医疗领域以及家居安全领域等等。在许多声纹识别系统的识别之前,除了预处理操作外,特征参数和模型匹配对识别的准确率至关重要。现有的声纹识别算法无法达到百分之百的识别准确率,误检率和漏检率较高,无法保证家居环境下的人身和财产的绝对安全。
发明内容
发明目的:为了克服现有技术中存在的不足,提供一种面向家居CNN分类与特征匹配联合的声纹识别方法,在保证识别准确率的前提下,降低误检率和漏检率。该方法对现有模型进行改进,从而解决误检率和漏检率较高的问题。
技术方案:为实现上述目的,本发明提供一种面向家居CNN分类与特征匹配联合的声纹识别方法,包括如下步骤:
S1:对语音进行短时傅里叶变换生成语谱图;
S2:将语谱图输入到训练好的卷积神经网络进行分类,若识别为非家庭成员,流程结束,否则,转至步骤S3;
S3:对语音信号提取MFCC特征参数;
S4:将MFCC特征参数和k-means特征模板进行匹配,获取最终识别结果。
进一步的,所述步骤S1中语音在进行短时傅里叶变换之前经过预处理操作。
进一步的,所述步骤S1中预处理操作包括采样量化、预加重、加窗和分帧、端点检测。
进一步的,所述步骤S2中卷积神经网络包括输入层、卷积层、池化层、全连接层和输出层,池化层采用平均池化,输出层采用softmax函数,采用BP算法对卷积神经网络进行训练。
进一步的,所述步骤S3中通过Mel滤波器的阶数调整提取MFCC特征参数。
进一步的,所述步骤S3中MFCC特征参数的提取过程为:
A)对输入的语音信号进行预处理,生成时域信号,对每一帧语音信号通过快速傅里叶变换或离散傅里叶变换处理得到语音线性频谱;
B)将线性频谱输入Mel滤波器组进行滤波,生成Mel频谱,取Mel频谱的对数能量,生成相应的对数频谱;
C)使用离散余弦变换将对数频谱转换为MFCC特征参数。
进一步的,所述步骤S4中k-means特征模板的生成过程为:随机选择聚类中心;遍历数据集中所有样本,计算训练数据集分别到各个聚类中心的距离,记录距离最近的中心点,然后把这个点分配到这个聚类内;接着遍历所有的聚类中心,移动聚类中心的新位置到所有属于这个聚类的均值处;重复上面步骤,不断更新聚类中心位置直到不再移动。
进一步的,所述步骤S4中采用余弦相似度方法进行匹配,通过计算两个矢量之间夹角的余弦值来评估相似度。
进一步的,所述步骤S1中语谱图的生成过程为:
a)对语音信号进行分帧处理,得到x(m,n),其中m表示帧的个数,n表示帧长,再通过短时傅里叶变换,转为X(m,n);
b)经过公式X(m,n)×X(m,n)=Y(m,n),将X(m,n)变成周期图;
c)对周期图进行取对数处理,m、n分别根据时间和概率刻度变换为M与N,生成二维语谱图。
本发明方法首先对说话人语音进行语谱图的生成,其次语谱图作为输入,输入到卷积神经网络,若识别为非家庭成员,流程结束,否则需再次确认。提取说话语音的MFCC特征,用模板匹配方法和余弦相似度测量,输出最终识别结果。
有益效果:本发明与现有技术相比,基于语谱图的生成、卷积神经网络、k-means算法、余弦相似度测量方法,在保证识别准确率的情况下,有效的降低了语音识别的误检率和漏检率,解决了误检率和漏检率较高的问题,保证了家居环境的绝对安全。
附图说明
图1为本发明方法的总体结构框图;
图2为MFCC特征参数提取流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
如图1所示,本发明提供一种面向家居CNN分类与特征匹配联合的声纹识别方法,包括如下步骤:
1)对输入的说话人的语音进行预处理,预处理包括采样量化、预加重、加窗和分帧、端点检测等。预处理目的是消除发声器官和语音采集设备的干扰,提高系统的识别率。
2)对预处理过的语音进行短时傅里叶变换生成语谱图,具体的过程为:
a)对语音信号进行分帧处理,得到x(m,n),其中m表示帧的个数,n表示帧长,再通过短时傅里叶变换,转为X(m,n);
b)经过公式X(m,n)×X(m,n)=Y(m,n),将X(m,n)变成周期图;
c)对周期图进行取对数处理,m、n分别根据时间和概率刻度变换为M与N,生成二维语谱图。
3)将语谱图输入到训练好的卷积神经网络进行分类,若识别为非家庭成员,流程结束,否则,转至步骤4;
4)对语音信号提取MFCC特征参数;
5)将MFCC特征参数和k-means特征模板进行匹配,获取最终识别结果。
本实施例中卷积神经网络包括输入层、卷积层、池化层、全连接层和输出层,池化层采用平均池化,输出层采用softmax函数。
采用BP算法对卷积神经网络进行训练。
由卷积神经网络的结构可知,网络包含的参数有:卷积核、偏置项以及全连接网络的权值等。这些参数的求解需要用到反向传播算法。
约定卷积层k后面跟着层k+1,为了求得l中传输的误差信号,需要现堆下一层中所有对应于该神经元的信号求和,并将这些信号乘上相对应于k+1层的权值。降采样层中的权重都等于β(一个常量,见降采样层的梯度计算),所以只需要将前面一部的结果放大β倍来计算δk。重复这个步骤计算卷积层中每一个图j,并将其和降采样层对应起来:
其中f′(.)表示激活函数的一阶导数,up(.)表示升采样操作,简单的讲输入像素从水平和垂直方向重复复制n次,相当于降采样操作时的因子n。一个简单的实现方法是通过Kronecker积:
现在有了给定图的误差信号,可以通过对所有误差中的项目求和来计算出偏差的梯度:
最后,核函数的权重的梯度通过反向传播计算,只不过这里很多连接共享权重。将该权重涉及到的所有梯度求和:
降采样层的梯度计算,降采样层产生输入图的降采样后的结果。如果有N个输入图,就同样有N个输出图,尽管输出图相对于输入图会小一些。
其中down(.)表示降采样函数。
这里的难度在于计算误差信号图。仅有的可学习的参数是β和b。假定采样层的上一层和下一层都是卷积层。如果降采样层后面是全连接网络,那么其误差信号图可以通过反向传播算法直接得到。
在卷积层的梯度计算力,需要找到输入图中哪些块是对应输出图中的某一个像素。这里同样必须找到当前层的敏感图中哪些块对应下一层中的某个像素。显然,输入的输出链接的输出链接所乘于权重就是全集和的权重。同样可以有效地通过下面的公式实现:
现在可以计算β和b的梯度,其中b就是误差信号图中元素对μ,v的求和:
乘子偏差显然和前向传播中当前层的原始降采样图(降采样后没有附加偏差所构成的一个特征图)有关。由此可知,如果在前向传输过程中保存这些图将为后续计算做出有效帮助。据此定义:
所以β的梯度由以下公式给出:
如图2所示,本实施例中提取MFCC特征参数的具体步骤如下:
(1)对输入的语音信号s(n)进行预处理,生成时域信号x(n)(信号序列的长度N=256),接着,对每一帧语音信号通过快速傅里叶变换或离散傅里叶变换处理得到语音线性频谱X(k),可表示为:
(2)将线性频谱X(k)输入Mel滤波器组进行滤波,生成Mel频谱,接着取它的对数能量,生成相应的对数频谱S(m)。
这里,Mel滤波器组是一组三角带同滤波器Hm(k),且需满足0≤m≤M,其中M表示滤波器的数量,通常为20~28。带通滤波器的传递函数可以表示为:
f(m)为中心频率。
其中,之所以对Mel能量频谱取对数,是为了促进声纹识别系统性能的提升。语音线性频谱X(k)到对数频谱S(m)的传递函数为:
(3)通过使用离散余弦变换(DCT)将对数频谱S(m)求解转换为MFCC特征参数,MFCC特征参数的第n维特征分量C(n)的表达式为:
通过上述步骤获得的MFCC特征参数仅反映语音信号的静态特性,可通过求其的一阶、二阶差分得到动态特性参数。
本实施例中k-means特征模板的生成采用k-均值算法(k-means),k均值算法是无监督的机器学习算法,无监督学习的算法不需要标签,因此可以大大减少对数据标记的工作量,可应用的范围更广。k-means算法首先需要选择k,即选择聚类的个数;另一个是训练数据集x(1),x(2),...,x(m)。
首先随机选择聚类中心:μ1,μ2,....μk;遍历数据集m中所有样本,计算x(i)分别到各个聚类中心μ1,μ2,....μk的距离,记录距离最近的中心点μj,然后把这个点分配到这个聚类内。计算距离时通常使用:||x(i)-μj||;接着遍历所有的聚类中心,移动聚类中心的新位置到所有属于这个聚类的均值处,即其中e表示属于这个聚类中心的训练样本点个数,x(d)表示属于μj这个类别的点;重复上面步骤,不断更新聚类中心位置直到不再移动。
本实施例中采用余弦相似度(cosine similarity)方法对MFCC特征参数和k-means特征模板进行匹配,通过计算两个矢量之间夹角的余弦值来评估他们的相似度。若向量 的坐标分别为(x1,x2,,xn),(y1,y2,,yn),则与的余弦相似度可以表示为:
若两个方向一致,则夹角接近于零,就认为这两个向量越相似,余弦相似度越接近于1。在声纹识别比对相似度时,若待测语音与目标说话人语音越接近,即余弦相似度值越大,则认为是同一个说话人。
Claims (9)
1.面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:包括如下步骤:
S1:对语音进行短时傅里叶变换生成语谱图;
S2:将语谱图输入到训练好的卷积神经网络进行分类,若识别为非家庭成员,流程结束,否则,转至步骤S3;
S3:对语音信号提取MFCC特征参数;
S4:将MFCC特征参数和k-means特征模板进行匹配,获取最终识别结果。
2.根据权利要求1所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S1中语音在进行短时傅里叶变换之前经过预处理操作。
3.根据权利要求2所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S1中预处理操作包括采样量化、预加重、加窗和分帧、端点检测。
4.根据权利要求1所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S2中卷积神经网络包括输入层、卷积层、池化层、全连接层和输出层,池化层采用平均池化,输出层采用softmax函数,采用BP算法对卷积神经网络进行训练。
5.根据权利要求1所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S3中通过Mel滤波器的阶数调整提取MFCC特征参数。
6.根据权利要求5所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S3中MFCC特征参数的提取过程为:
A)对输入的语音信号进行预处理,生成时域信号,对每一帧语音信号通过快速傅里叶变换或离散傅里叶变换处理得到语音线性频谱;
B)将线性频谱输入Mel滤波器组进行滤波,生成Mel频谱,取Mel频谱的对数能量,生成相应的对数频谱;
C)使用离散余弦变换将对数频谱转换为MFCC特征参数。
7.根据权利要求1所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S4中k-means特征模板的生成过程为:随机选择聚类中心;遍历数据集中所有样本,计算训练数据集分别到各个聚类中心的距离,记录距离最近的中心点,然后把这个点分配到这个聚类内;接着遍历所有的聚类中心,移动聚类中心的新位置到所有属于这个聚类的均值处;重复上面步骤,不断更新聚类中心位置直到不再移动。
8.根据权利要求1所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S4中采用余弦相似度方法进行匹配,通过计算两个矢量之间夹角的余弦值来评估相似度。
9.根据权利要求1所述的面向家居CNN分类与特征匹配联合的声纹识别方法,其特征在于:所述步骤S1中语谱图的生成过程为:
a)对语音信号进行分帧处理,得到x(m,n),其中m表示帧的个数,n表示帧长,再通过短时傅里叶变换,转为X(m,n);
b)经过公式X(m,n)×X(m,n)=Y(m,n),将X(m,n)变成周期图;
c)对周期图进行取对数处理,m、n分别根据时间和概率刻度变换为M与N,生成二维语谱图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439102.9A CN111785286A (zh) | 2020-05-22 | 2020-05-22 | 面向家居cnn分类与特征匹配联合的声纹识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010439102.9A CN111785286A (zh) | 2020-05-22 | 2020-05-22 | 面向家居cnn分类与特征匹配联合的声纹识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111785286A true CN111785286A (zh) | 2020-10-16 |
Family
ID=72753786
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010439102.9A Pending CN111785286A (zh) | 2020-05-22 | 2020-05-22 | 面向家居cnn分类与特征匹配联合的声纹识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785286A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397074A (zh) * | 2020-11-05 | 2021-02-23 | 桂林电子科技大学 | 基于mfcc和向量元学习的声纹识别方法 |
CN112992154A (zh) * | 2021-05-08 | 2021-06-18 | 北京远鉴信息技术有限公司 | 一种基于增强型声纹库的语音身份确定方法及系统 |
CN115331673A (zh) * | 2022-10-14 | 2022-11-11 | 北京师范大学 | 一种复杂声音场景下的声纹识别家电控制方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106982359A (zh) * | 2017-04-26 | 2017-07-25 | 深圳先进技术研究院 | 一种双目视频监控方法、系统和计算机可读存储介质 |
CN109412910A (zh) * | 2018-11-20 | 2019-03-01 | 三星电子(中国)研发中心 | 控制智能家居设备的方法和装置 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
-
2020
- 2020-05-22 CN CN202010439102.9A patent/CN111785286A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106982359A (zh) * | 2017-04-26 | 2017-07-25 | 深圳先进技术研究院 | 一种双目视频监控方法、系统和计算机可读存储介质 |
CN109412910A (zh) * | 2018-11-20 | 2019-03-01 | 三星电子(中国)研发中心 | 控制智能家居设备的方法和装置 |
CN110459225A (zh) * | 2019-08-14 | 2019-11-15 | 南京邮电大学 | 一种基于cnn融合特征的说话人辨认系统 |
CN110415699A (zh) * | 2019-08-30 | 2019-11-05 | 北京声智科技有限公司 | 一种语音唤醒的判断方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
韩志艳: "语音识别及语音可视化技术研究", 湖北科学技术出版社, pages: 109 - 110 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112397074A (zh) * | 2020-11-05 | 2021-02-23 | 桂林电子科技大学 | 基于mfcc和向量元学习的声纹识别方法 |
CN112992154A (zh) * | 2021-05-08 | 2021-06-18 | 北京远鉴信息技术有限公司 | 一种基于增强型声纹库的语音身份确定方法及系统 |
CN115331673A (zh) * | 2022-10-14 | 2022-11-11 | 北京师范大学 | 一种复杂声音场景下的声纹识别家电控制方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102213013B1 (ko) | 신경망을 이용한 주파수 기반 오디오 분석 | |
US20200372905A1 (en) | Mixed speech recognition method and apparatus, and computer-readable storage medium | |
CN112364779B (zh) | 信号处理与深-浅网络多模型融合的水声目标识别方法 | |
CN111785286A (zh) | 面向家居cnn分类与特征匹配联合的声纹识别方法 | |
CN105206270A (zh) | 一种组合pca和rbm的孤立数字语音识别分类系统及方法 | |
Wei et al. | A method of underwater acoustic signal classification based on deep neural network | |
CN112084895B (zh) | 一种基于深度学习的行人重识别方法 | |
CN115641533A (zh) | 目标对象情绪识别方法、装置和计算机设备 | |
Ariff et al. | Study of adam and adamax optimizers on alexnet architecture for voice biometric authentication system | |
CN114241491A (zh) | 一种基于轻量级深度学习网络的手写字母识别方法 | |
CN112329819A (zh) | 基于多网络融合的水下目标识别方法 | |
Roy et al. | Pathological voice classification using deep learning | |
Chinmayi et al. | Emotion Classification Using Deep Learning | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
US20220269988A1 (en) | Abnormality degree calculation system and abnormality degree calculation method | |
CN115273814A (zh) | 伪语音检测方法、装置、计算机设备和存储介质 | |
Kanisha et al. | Speech recognition with advanced feature extraction methods using adaptive particle swarm optimization | |
CN115267672A (zh) | 声源检测和定位的方法 | |
Sunny et al. | Development of a speech recognition system for speaker independent isolated Malayalam words | |
CN111785262A (zh) | 一种基于残差网络及融合特征的说话人年龄性别分类方法 | |
Khan et al. | Speech recognition: increasing efficiency of support vector machines | |
CN113160823A (zh) | 基于脉冲神经网络的语音唤醒方法、装置及电子设备 | |
CN108573698B (zh) | 一种基于性别融合信息的语音降噪方法 | |
CN111078932A (zh) | 一种根据人声匹配相似人脸的方法 | |
Moons et al. | Resource aware design of a deep convolutional-recurrent neural network for speech recognition through audio-visual sensor fusion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |