CN111128178A - 一种基于面部表情分析的语音识别方法 - Google Patents

一种基于面部表情分析的语音识别方法 Download PDF

Info

Publication number
CN111128178A
CN111128178A CN201911401624.3A CN201911401624A CN111128178A CN 111128178 A CN111128178 A CN 111128178A CN 201911401624 A CN201911401624 A CN 201911401624A CN 111128178 A CN111128178 A CN 111128178A
Authority
CN
China
Prior art keywords
voice
expression
image
speech
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911401624.3A
Other languages
English (en)
Inventor
肖文平
刘杰
张航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hinge Electronic Technologies Co Ltd
Original Assignee
Shanghai Hinge Electronic Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hinge Electronic Technologies Co Ltd filed Critical Shanghai Hinge Electronic Technologies Co Ltd
Priority to CN201911401624.3A priority Critical patent/CN111128178A/zh
Publication of CN111128178A publication Critical patent/CN111128178A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于面部表情分析的语音识别方法,包括:通过表情采集装置和语音采集装置同时采集语音和表情数据,对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果,在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果,在最终的表情识别结果的条件下,从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。本发明提供的技术方案,在对用户语音识别的同时也采集用户的表情数据,通过对用户的表情数据和用户语音数据进行识别,利用用户表情识别的结果来校正用户语音的识别结果,使识别结果更加准确。

Description

一种基于面部表情分析的语音识别方法
技术领域
本发明涉及文字识别领域,尤其涉及一种基于面部表情识别的语音识别方法。
背景技术
伴随着科学技术的进步,信息技术的高速发展给世界带来了巨大的冲击,也在悄无声息中改变着人们的生活方式和生活习惯。人类的情感表现是我们作为一个真实存在的人所应该具备的。1971年,美国心理学家Ekman和Friesen首次提出六种基本情感:生气、伤心、高兴、害怕、厌恶和惊奇。人与人之间的交往沟通中,往往可以通过人的声音、脸部表情、身体姿态等外在信息进行情感交流。语音作为声学的表述方式,通过直接的思想和情感交流去表达自我而成为人们关注的研究对象。语音识别主要是指能够让机器听懂人所说的话,即在特定或非特定环境下准确识别出语音的内容,并根据识别出的内容去执行相应的操作。语音识别在人机交互中有着非常广泛的应用,比如车载导航、智能家庭等。在人机交互的过程中,往往都是通过将语音转化为文字,然后通过文字输入后,机器根据识别的文字进行相应的答复。但是,由于人类的语音比较丰富,相同的文字如果带有不同的语气和语调可能表达说话者不同的意思,此时,对于语音识别来讲,往往都是识别出同样的结果。因此,为了解决该问题,本发明提出一种基于面部表情分析的语音识别方法,以提高语音识别的准确度。
发明内容
基于现有技术中存在的缺陷,本发明提供了一种基于面部表情识别的语音识别方法,包括:步骤S1,通过表情采集装置和语音采集装置同时采集语音和表情数据;
步骤S2,对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果;
步骤S3,在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果,在最终的表情识别结果的条件下,从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。
一种基于面部表情识别的语音识别方法,进一步地,所述步骤S2中,语音数据分析处理包括以下步骤:
步骤S21,对采集的语音信号进行语音预处理,语音预处理包括预加重、语音活动性检测、分帧加窗;
步骤S22,对语音信号进行端点检测,端点检测用于检测音频信号当中的语音出现和语音消失的时间点;
步骤S23,语音特征参数提取包括梅尔频率倒谱频带。
一种基于面部表情识别的语音识别方法,进一步地,所述预加重包括:在语音取样后,加入一阶的高通滤波器;
所述语音活动性检测包括利用语音信号的自相关函数和噪音信号的自相关函数的峰值差异,将背景噪音和语音进行区分并分离出语音;
所述分帧加窗包括:将语音信号分成利用预设长度的序列取出相应时段的语音分部处理,通过对可移动的有限长度的窗口进行加权来实现;
分帧时相邻帧之间具有重叠部分,定义前一帧与后一帧的重叠部分称为帧移,帧移与帧长的比值为0~0.3。
一种基于面部表情识别的语音识别方法,进一步地,语音端点检测包括:从每一帧数据当中提取特征,提取的特征包括帧能量、过零率;在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,对未知的分帧数据进行分类,判断其属于语音信号还是静默信号,用来区分语音的开始点和结束点。
一种基于面部表情识别的语音识别方法,进一步地,梅尔频率倒谱频带的提取过程包括:对每一帧进行FFT变换,求频谱,进而求得幅度谱,对幅度谱加Mel滤波器组,对所有的滤波器输出做对数运算,再进一步做离散余弦变换,保留离散余弦变换的前2-13个系数作为MFCC的特征参数。
一种基于面部表情识别的语音识别方法,进一步地,所述步骤S2中,语音数据分析处理还包括以下步骤:
步骤S24,对获取的MFCC参数进行分段降维处理;
步骤S25,对识别的语音进行语音特征处理,获取识别语音与单个模板语音的匹配值;
步骤S26,分别计算识别语音与所有模板的匹配值,然后将计算出的匹配值从小到大进行排序,以匹配值排行前V个模板语音作为识别结果输出。
一种基于面部表情识别的语音识别方法,进一步地,步骤S24中,分段降维处理包括:
步骤S241,通过语音特征提取后的MFCC特征参数,组成2u列矩阵;
步骤S242,对2u列矩阵按照行进行均等分段,分段数量为2u段,每段的矩阵列数为2u列,对2u个段矩阵进行K均值聚类,聚为1类,每个段形成1*2u的行向量;
步骤S243,针对同一个人多次发同一个语音的其它语音重复S241至S242,对计算得到的每个模板的相同段进行K均值聚类并聚为1类;
步骤S244,将获得2u个行向量按照行依次排列,形成一个2u*2u的矩阵。
一种基于面部表情识别的语音识别方法,进一步地,所述步骤S2中,表情数据的分析处理包括以下步骤:
步骤S2-1对输入的图像进行预处理人脸检测旋转校正生成灰度图;
步骤S2-3,通过LBP算子和梯度算法分别对图像进行处理获得LBP图像和梯度图像,然后利用上通道卷积网络分别从LBP图像和梯度图像提取特征;
步骤S2-4,通过加权融合的方式构造特征融合网络,通过设置加权系统β对梯度特征和LBP特征进行加权求和得到双通道输出特征;
fw=βfx+(1-β)fy
fw为融合后得到的特征;fx为图像的梯度特征;fy为图像的LBP特征。
步骤S2-5,用Softmax分类器对表情种类进行分类并获取识别结果。
一种基于面部表情识别的语音识别方法,进一步地,在步骤S2-1之后和步骤S2-3之前,还包括:步骤S2-2,对生成灰度图进行细节特征增强,
所述细节特征增强包括以原始灰度图像为基础,选取灰度图像相邻的上采样图像和下采样图像,与灰度图像形成多层金字塔;
对多层金字塔的每层图像做多次不同的高斯平滑,分别得到每层金字塔的多层高斯平滑处理图像,然后针对每一层金字塔图像,以原始图像作为第零层图像,分别与多层高斯平滑处理后的图像进行相减获得DoG图像;
将每层金字塔的图像与该层图像形成的多层DoG进行像素叠加。
一种基于面部表情识别的语音识别方法,进一步地,所述步骤S3中,表情识别结果的概率的计算过程包括:
步骤S31,在预设语音时间内,根据表情图片的提取特征判断图片判断表情图片的种类,计算公式为:
Figure BDA0002347602340000051
上式中,语音时长为t1,在该时间段内的图像共有n张,Ni表示第i图像,Mj表示第j种表情状态,W(Ni,Mj)用来表示第i张图像在经过Softmax分类器进行分类后是否属于第j种表情状态,当第i张表情图像是属于第j种表情状态时,则W(Ni,Mj)的取值为1,否则取0;
步骤S32,计算语音时长内,相同种类的表情的图片数与占据总的图片数的比例并获取比例值,将该比例值定义为表情概率,计算公式如下:
则语音时长为t1中,第j种的表情概率定义为Pj
Figure BDA0002347602340000052
上式中,
Figure BDA0002347602340000053
表示对经过Softmax分类器后归属于第j种表情的所有图像的统计,n为时间t内的总的图像数。
步骤S33,以此类推,分别求出在语音时间t1内的不同种类表情概率,然后按照概率从大到小排序,以最大值的表情作为在语音时间t1内的最终表情识别结果。
一种基于面部表情识别的语音识别方法,进一步地,语音采集装置采用阵列式麦克风,阵列式麦克风包括同心圆形阵列式麦克风、十字阵列式麦克风、线型阵列式麦克风、螺旋形阵列式麦克风中的一种;表情信号采集装置包括摄像头。
一种基于面部表情识别的语音识别方法,进一步地,语音采集装置采用双圆形阵列式麦克风,同心圆形阵列式麦克风,包括二个同心圆,外圆半径是内圆半径的两倍,外圆和内圆分别设置多个数量的麦克风,外圆和内圆的麦克风数量相同或不同,在圆心处设置有麦克风;每个圆周上的麦克风的数量为4~20个;
在外圆形麦克风阵列中选取位于两条相互垂直直径与圆周的交点上,有四个麦克风,在内圆内选取另外两条相互垂直直径与圆周的交点上,有四个麦克风,内圆内选取的两个直径与外圆内的选取直径相互偏移,偏移的角度范围为0~45度。
有益效果:
1.本发明技术方案中,在对用户语音识别的同时也采集用户的表情数据,通过对用户的表情数据和用户语音数据进行识别,利用用户表情识别的数据来校正用户语音的识别结果,使识别结果更加准确。
2.在表情识别的过程中,通过将采集的图像进行细节增强,更加突出图像细节特征,有利于提高后续的表情验证的准确率。
3.采用麦克风阵列式对语音进行采集,其效果好。另外,通过对多个圆形麦克风阵列进行设置多个参考点,使其更准确的确定声源位置,有利于快速定位。
附图说明
以下附图仅对本发明做示意性说明和解释,并不限定本发明的范围。
图1是本发明的一实施例中表情识别与语音识别的结构示意图。
图2是本发明的一实施例中语音采集装置采用麦克风阵列的结构示意图。
图3是本发明的一实施例中面部数据分析处理模块对面部数据进行分析处理的流程图。
图4是本发明的一实施例中语音数据分析处理模块对语音数据进行分析处理的流程图。
图5本发明的一实施例中语音识别结果与表情识别结构进行识别校正的流程图。
具体实施方式
为了对本文的技术特征、目的和效果有更加清楚的理解,现对照附图1至附图5说明本发明的具体实施方式,在各图中相同的标号表示相同的部分。为使图面简洁,各图中的示意性地表示出了与本发明相关部分,而并不代表其作为产品的实际结构。另外,为使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。
关于控制系统,功能模块、应用程序(APP)本领域技术人员熟知的,其可以采用任何适当的形式,既可以是硬件也可以是软件,既可以是离散设置的多个功能模块,也可以是集成到一个硬件上的多个功能单元。作为最简单的形式,所述控制系统可以是控制器,例如组合逻辑控制器、微程序控制器等,只要能够实现本申请描述的操作即可。当然,控制系统也可以作为不同的模块集成到一个物理设备上,这些都不偏离本发明的基本原理和保护范围。
本发明中“连接”,即可包括直接连接、也可以包括间接连接、通信连接、电连接,特别说明除外。
本文中所使用的术语仅为了描述特定实施方案的目的并且不旨在限制本公开。如本文中所使用地,单数形式“一个”、“一种”、以及“该”旨在也包括复数形式,除非上下文明确地另作规定。还将理解的是,当在说明书中使用时,术语“包括”和/或“包含”是指存在有所陈述的特征、数值、步骤、操作、元件和/或组分,但是并不排除存在有或额外增加一个或多个其它的特征、数值、步骤、操作、元件、组分和/或其组成的群组。作为在本文中所使用的,术语“和/或”包括列举的相关项的一个或多个的任何和全部的组合
应当理解,此处所使用的术语“车辆”或“车辆的”或其它类似术语一般包括机动车辆,例如包括运动型多用途车辆(SUV)、公共汽车、卡车、各种商用车辆的乘用汽车,包括各种舟艇、船舶的船只,航空器等等,并且包括混合动力车辆、电动车辆、可插式混合动力电动车辆、氢动力车辆以及其它替代性燃料车辆(例如源于非石油的能源的燃料)。正如此处所提到的,混合动力车辆是具有两种或更多动力源的车辆,例如汽油动力和电力动力两者的车辆。
此外,本公开的控制器可被具体化为计算机可读介质上的非瞬态计算机可读介质,该计算机可读介质包含由处理器、控制器或类似物执行的可执行程序指令。计算机可读介质的示例包括,但不限于,ROM、RAM、光盘(CD)-ROM、磁带、软盘、闪存驱动器、智能卡和光学数据存储设备。计算机可读记录介质也可分布在通过网络耦合的计算机系统中,使得计算机可读介质例如通过远程信息处理服务器或控制器区域网络(CAN)以分布式方式存储和执行。
本实施提供一种面部表情分析的语音识别装置,参见图1,语音识别装置包括信号采集装置、信息处理模块、识别校正模块,信号处理模块分别与信号采集装置、识别结果校正模块相连接,
信号采集装置包括表情信号采集装置、语音信号采集装置,其中,表情信号采集装置包括摄像头,语音信号采集装置阵列式麦克风,阵列式麦克风包括多个同心圆形阵列式麦克风、十字阵列式麦克风、线型阵列式麦克风、螺旋形阵列式麦克风中的一种;
具体的,优先的,本实施采用同心圆形性阵列式麦克风,包括二个同心圆,外圆半径是内圆半径的两倍,外圆和内圆分别设置多个数量的麦克风,外圆和内圆的麦克风数量可以相同也可以不同,在圆心处设置有麦克风。每个圆周上的麦克风的数量为4~20个,本实施例中,外圆周和内圆周上的麦克风数量为8个。
信息处理模块包括面部数据分析处理模块、语音数据分析处理模块、云端分析处理模块、语音结果输出模块、面部表情结果输出模块;
面部数据分析处理模块,被配置为用于对接收到的人脸图像信号进行分析处理并识别出采集图像的表情;
具体地,表情分为中性、愤怒、厌恶、恐惧、高兴、悲伤、惊讶等,用户说话是在一定的时间段,在说话的时间段内表情采集装置采集的图像并非一张图像而是连续的多帧图像,面部数据分析模块对每张图像的表情都要进行分析;
为了节省时间和计算资源,在表情分析过程中,可以采用另一种方法,并非对每帧图像都进行分析,每间隔2~5帧图片进行一次表情识别。
语音数据分析处理模块,被配置为用于对接收到的语音信号进行分析处理并识别出语音;
具体地,根据语音采集装置采集的数据,根据内置算法,输出一组候选的语音识别结果。
云端分析处理模块,被配置为根据接收到的语音信号和/或图像进行语音识别和/或图像识别;
具体地,本实施例中,语音识别可以通过本地的语音采集装置采集数据后,可以同时将语音采集的数据同时发送给本地的面部数据分析处理模块和云端分析处理模块,用户可以选择采用哪种方式进行识别。云端分析处理相对于本地模式,云端分析能够采用计算量较大的算法,缺点是需要数据传输需要时间,若出现网络延迟或故障,其识别结果较慢。在本地进行语音数据分析,语音识别需要采用计算量小的识别算法,无须考虑网络延迟,识别结果快。
语音结果输出模块,被配置为将语音数据分析处理模块识别的语音多个候选结果进行输出;
面部表情结果输出模块,被配置为将面部数据分析处理获得的多个候选表情识别结果进行输出;
识别校正模块,被配置为根据面部结果输出模块与语音结果输出模块输出的多个语音候选结果与多个表情候选结果进行匹配,选出匹配结果得分最大的识别结果进行输出;
最终识别结果输出模块,被配置为用于将识别校正模块的结果进行输出;
本实施还提供一种面部表情分析的语音识别方法,包括以下步骤:
步骤S1,通过表情采集装置和语音采集装置同时采集语音和表情数据,然后将采集的语音和表情数据分别发送给信息处理模块或云端分析处理模块;
语音采集装置采用阵列式麦克风,阵列式麦克风包括同心圆形阵列式麦克风、十字阵列式麦克风、线型阵列式麦克风、螺旋形阵列式麦克风中的一种;
阵列式麦克风采集语音数据时需要考虑不同麦克风距离声源的位置和对不同麦克风接收到声音信号的延迟进行校正。由于驾驶员或乘客处于车内,本实施例采用近场模型,设r表示麦克风与声源的距离,ri表示第i个麦克风距离声源的距离。为了计算出声源的空间位置,参见图2,在选用的阵列式麦克风中,采用八点法进行计算,在外圆形麦克风阵列中选取位于两条相互垂直直径与圆周的交点上,有四个麦克风,另外,在内圆内选取另外两条相互垂直直径与圆周的交点上,有四个麦克风,内圆内选取的两个直径与外圆内的选取直径相互偏移,偏移的角度范围为0~45度。
声源位置的确定包括:将声源位置与预设阵列式麦克风的位置在同一坐标系下建立几何位置坐标,利用声源到达不同参考点的麦克风的距离,建立参考点麦克风与声源的距离的几何关系式;
声源到达参考点麦克风的距离通过声速和测量的达到时间计算;
具体地,设大圆的半径为2a,小圆半径为a,8个参考点的位置坐标分别为M1(2a,0,0),M2(0,2a,0),M3(-2a,0,0),M4(0,-2a,0),
Figure BDA0002347602340000111
Figure BDA0002347602340000112
设声源的位置为S(x,y,z),
Ri表示声源与第i个麦克风的距离,则根据两点之间的距离计算公式,得出以下方程式:
(x-2a)2+y2+z2=R1
x2+(y-2a)2+z2)=R2
(x+2a)2+y2+z2)=R3
x2+(y+2a)2+z2)=R4
Figure BDA0002347602340000113
Figure BDA0002347602340000114
Figure BDA0002347602340000115
Figure BDA0002347602340000116
Ri=cti,其中,c为声音在空气中的传播速度,ti表示声音到达第i个参考麦克风的时间,由于c已知,ti通过测量能够获知;
通过采用多点方程计算,避免由于空间的对称性导致声源位置的不确定性,使计算结果更为准确。
表情信号采集装置包括摄像头,摄像头配有补光灯,能够在光亮强度不足的时候进行补光;
步骤S2,通过信息处理模块或云端分析处理模块将对语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果,并将多个语音候选结果和多个表情候选识别结果发送给识别校正模块;
步骤S3,通过识别校正模块对多个语音候选结果和多个表情候选结果进行匹配,输出最终的识别结果。
步骤S2中,语音数据的分析处理包括以下步骤:
步骤S21,对采集的语音信号进行语音预处理,语音预处理包括预加重、语音活动性检测、分帧加窗;
预加重技术是在语音取样后,加入一阶的高通滤波器;
其传递函数为:H(z)=1-aZ-1,预加重系数a的取值为:0.9<a<1,如:a=0.98。
语音活动性检测就是利用语音信号的自相关函数和噪音信号的自相关函数的峰值差异,将背景噪音和语音进行区分并分离出语音,具体包括:
根据噪音信号求得自相关函数给出的两个临界值T1和T2,对一段语音信号的一帧求自相关函数,如果自相关函数的最大值大于T2,认为这段语音有效,若自相关函数的最大值大于或小于T1,认为这段话是起点;但由于每一帧语音信号的能量是不同的,归一化每一帧的互相关函数。
分帧加窗是将语音信号分成利用预设长度的序列取出相应时段的语音分部处理,通过对可移动的有限长度的窗口进行加权来实现。通常每秒的帧数约为33-100帧,具体可以自行设定,分帧时相邻帧之间具有重叠部分,目的是确保相邻帧之间的语音以平滑方式进行过度,定义前一帧与后一帧的重叠部分称为帧移,帧移与帧长的比值为0~0.3。
具体地,设原始语音信号为s(n),则加窗运算可以表示为:
Figure BDA0002347602340000131
步骤S22,端点检测用于检测音频信号当中的语音出现和语音消失的时间点,具体包括:从每一帧数据当中提取特征,提取的特征包括帧能量、过零率(每一帧数据穿过零点的次数)等;在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,对未知的分帧数据进行分类,判断其属于语音信号还是静默信号,以此来区分语音的开始点和结束点。
步骤S23,语音特征参数提取包括梅尔频率倒谱频带(MFCC,Mel FrequencyCepstrum Coefficient),基于人耳听觉特性,梅尔频率倒谱频带划分是在Mel刻度上等距划分的,频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性,使得语音信号有着更好的表示。
具体包括:对每一帧进行FFT变换,求频谱,进而求得幅度谱,对幅度谱加Mel滤波器组,如三角滤波器组;对所有的滤波器输出做对数运算,再进一步做离散余弦变换(Discrete Cosine Transform,DCT),保留DCT的前2-13个系数作为MFCC的特征参数。
本实施选用u(2<=u<=13))个系数MFCC和u阶MFCC的一阶导数(共2u个)作为语音特征参数,如u=12。
步骤S24,对获取的MFCC参数进行分段降维处理;
具体包括:
S241,通过语音特征提取后的MFCC特征参数,组成2u列矩阵,矩阵的行数存在不确定性,其行数取决于语音长短和采样率的高低;
S242,对2u列矩阵按照行进行均等分段,分段数量为2u段,每段的矩阵列数为2u列,对2u个段矩阵进行K均值聚类,聚为1类,每个段形成1*24的行向量;
S243,针对同一个人多次发同一个语音的其它语音重复S141至S142,对计算得到的每个模板的相同段进行K均值聚类并聚为1类;
S244,将获得2u个行向量按照行依次排列,形成一个2u*2u的矩阵;
步骤S25,对识别的语音进行处理,获取识别语音与单个模板语音的匹配值,具体包括:获取识别的语音的2u*2u的矩阵以及模板语音的2u*2u的矩阵,其识别的语音的矩阵与模板语音矩阵按照相同的行分别进行计算,采用欧拉公式:
Figure BDA0002347602340000141
其中,x1i表示识别语音每行的第i列数据,x2i表示模板语音每行的第i列数据;
具体地,每行共有2u个数据,计算得到每行的d后,将2u行全部的d值进行累计得到识别语音与单个模板语音的匹配值。
步骤S26,分别计算识别语音与所有模板的匹配值,然后将计算出的匹配值从小到大进行排序,以匹配值排行前V(2≤V≤2u)个模板语音作为识别结果输出;
步骤S2中,表情识别处理分析包括以下步骤:
步骤S2-1对输入的图像进行预处理人脸检测旋转校正生成灰度图;
具体包括:利用Viola-Jones算法对图像进行人脸检测并获取人脸图像,对检测到的人脸图像利用旋转矩阵进行旋转校正,若输入图像为RGB图像,将其转换为灰度图。
步骤S2-2,对生成灰度图进行细节特征增强,具体包括以原始灰度图像为基础,选取灰度图像相邻的上采样图像和下采样图像,与灰度图像形成多层金字塔;
本实施例中,上采样图像为原图的2-6倍,下采样图像为原图的1/2~1/6。
对多层金字塔的每层图像做多次不同的高斯平滑,分别得到每层金字塔的多层高斯平滑处理图像,然后针对每层金字塔图像,利用多层高斯平滑处理后的相邻图像进行相减获得DoG(Difference of Gaussian)图像;
将每层金字塔的图像与该层图像形成的多层DoG进行像素叠加;
本实施例中,对生成灰度图进行细节特征增强并不是必须的,采用细节特征增强可以提高人脸识别的精度。
步骤S2-3,通过LBP(Local Binary Pattern)算子和梯度算法分别对图像进行处理获得LBP图像和梯度图像,然后利用上通道卷积网络分别从LBP图像和梯度图像提取特征;
双通道神经网络中,每个通道包含1个输入层、4个卷积层、3个池化层;
步骤S2-4,通过加权融合的方式构造特征融合网络,通过设置加权系统β对梯度特征和LBP特征进行加权求和得到双通道输出特征;
fw=βfx+(1-β)fy
fw为融合后得到的特征;fx为图像的梯度特征;fy为图像的LBP特征。
步骤S2-5,用Softmax分类器对表情种类进行分类并获取识别结果。
步骤S3中,对表情结果的获得可能存在多种,说话者在一段时间进行说话,其用户的表情可能存在变化,需要确定说话者的真实表情,具体表情结果的获得具体包括:
假设某句语音时长为t1,在该时间段内的图像共有n张,则对该时间内的人脸表情识别描述为:
Figure BDA0002347602340000161
上式中,Ni表示第i图像,Mj表示第j种表情状态,W(Ni,Mj)用来表示第i张图像在经过Softmax分类器进行分类后是否属于第j种表情状态,当第i张表情图像是属于第j种表情状态时,则W(Ni,Mj)的取值为1,否则取0。
则语音时长为t1中,第j种的表情概率定义为Pj
Figure BDA0002347602340000162
上式中,
Figure BDA0002347602340000163
表示对经过Softmax分类器后归属于第j种表情的所有图像的统计,n为时间t内的总的图像数。
依次类推,分别求出在语音时间t1内的不同种类表情概率,然后按照概率从大到小排序,以最大值的表情作为在语音时间t1内的最终表情识别结果。
本实施例中,定义了7种不同的表情状态,分别求出7种不同的表情概率,然后选择概率最大表情作为识别结果输出;
在表情识别结果确定的条件下,从候选的多个语音识别结果选择与表情识别结果最匹配的语音识别结果进行输出。
例如:在表情识别结果中,生气识别出的概率为30%,焦躁识别的概率为25%,哭的概率为10%,…....,则表情识别结果输出为生气,
语音识别结果中,按照匹配值从小到大排序(Q1,Q2,Q3,Q4,……,)
假设Q3正好对应生气,则最终语音输出的结果为Q3,而不是Q1。
应用举例:配合不同的表情,同样的话往往会产生完全不同的语境。
例如:“你再说一遍”,请求再重复一遍,不允许再重复一遍
“我就知道他不会来了”,成功预测到他不会来这件事,对他不来很失望和低落;
“国足又大败叙利亚了”,国足又赢了叙利亚,国足又输给了叙利亚。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。本领域的技术人员可以清楚,该实施例中的形式不局限于此,同时可调整方式也不局限于此。可以理解,本领域技术人员在不脱离本发明的基本构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (12)

1.一种基于面部表情分析的语音识别方法,其特征在于,包括:步骤S1,通过表情采集装置和语音采集装置同时采集语音和表情数据;
步骤S2,对采集语音数据和表情数据进行分析处理获取多个语音候选结果和多个表情候选识别结果;
步骤S3,在多个表情候选识别结果中选取概率最大的结果作为最终的表情识别结果,在最终的表情识别结果的条件下,从语音候选结果中选择与最终表情识别结果相匹配语音识别结果作为最终的语音识别结果进行输出显示。
2.如权利要求1所述的一种基于面部表情分析的语音识别方法,其特征在于,所述步骤S2中,语音数据分析处理包括以下步骤:
步骤S21,对采集的语音信号进行语音预处理,语音预处理包括预加重、语音活动性检测、分帧加窗;
步骤S22,对语音信号进行端点检测,端点检测用于检测音频信号当中的语音出现和语音消失的时间点;
步骤S23,语音特征参数提取包括梅尔频率倒谱频带。
3.如权利要求2所述的一种基于面部表情分析的语音识别方法,其特征在于,所述预加重包括:在语音取样后,加入一阶的高通滤波器;
所述语音活动性检测包括利用语音信号的自相关函数和噪音信号的自相关函数的峰值差异,将背景噪音和语音进行区分并分离出语音;
所述分帧加窗包括:将语音信号分成利用预设长度的序列取出相应时段的语音分部处理,通过对可移动的有限长度的窗口进行加权来实现;
分帧时相邻帧之间具有重叠部分,定义前一帧与后一帧的重叠部分称为帧移,帧移与帧长的比值为0~0.3。
4.如权利要求3所述的一种基于面部表情分析的语音识别方法,其特征在于,语音端点检测包括:从每一帧数据当中提取特征,提取的特征包括帧能量、过零率;在一个已知语音和静默信号区域的数据帧集合上训练一个分类器,对未知的分帧数据进行分类,判断其属于语音信号还是静默信号,用来区分语音的开始点和结束点。
5.如权利要求2所述的一种基于面部表情分析的语音识别方法,其特征在于,梅尔频率倒谱频带的提取过程包括:对每一帧进行FFT变换,求频谱,进而求得幅度谱,对幅度谱加Mel滤波器组,对所有的滤波器输出做对数运算,再进一步做离散余弦变换,保留离散余弦变换的前2-13个系数作为MFCC的特征参数。
6.如权利要求2所述的一种基于面部表情分析的语音识别方法,其特征在于,所述步骤S2中,语音数据分析处理还包括以下步骤:
步骤S24,对获取的MFCC参数进行分段降维处理;
步骤S25,对识别的语音进行语音特征处理,获取识别语音与单个模板语音的匹配值;
步骤S26,分别计算识别语音与所有模板的匹配值,然后将计算出的匹配值从小到大进行排序,以匹配值排行前V个模板语音作为识别结果输出。
7.如权利要求6所述的一种基于面部表情分析的语音识别方法,其特征在于,步骤S24中,分段降维处理包括:
步骤S241,通过语音特征提取后的MFCC特征参数,组成2u列矩阵;
步骤S242,对2u列矩阵按照行进行均等分段,分段数量为2u段,每段的矩阵列数为2u列,对2u个段矩阵进行K均值聚类,聚为1类,每个段形成1*2u的行向量;
步骤S243,针对同一个人多次发同一个语音的其它语音重复S241至S242,对计算得到的每个模板的相同段进行K均值聚类并聚为1类;
步骤S244,将获得2u个行向量按照行依次排列,形成一个2u*2u的矩阵。
8.如权利要求1所述的一种基于面部表情分析的语音识别方法,其特征在于,所述步骤S2中,表情数据的分析处理包括以下步骤:
步骤S2-1对输入的图像进行预处理人脸检测旋转校正生成灰度图;
步骤S2-3,通过LBP算子和梯度算法分别对图像进行处理获得LBP图像和梯度图像,然后利用上通道卷积网络分别从LBP图像和梯度图像提取特征;
步骤S2-4,通过加权融合的方式构造特征融合网络,通过设置加权系统β对梯度特征和LBP特征进行加权求和得到双通道输出特征;
fw=βfx+(1-β)fy
fw为融合后得到的特征;fx为图像的梯度特征;fy为图像的LBP特征。
步骤S2-5,用Softmax分类器对表情种类进行分类并获取识别结果。
9.如权利要求8所述的一种基于面部表情分析的语音识别方法,其特征在于,在步骤S2-1之后和步骤S2-3之前,还包括:步骤S2-2,对生成灰度图进行细节特征增强,
所述细节特征增强包括以原始灰度图像为基础,选取灰度图像相邻的上采样图像和下采样图像,与灰度图像形成多层金字塔;
对多层金字塔的每层图像做多次不同的高斯平滑,分别得到每层金字塔的多层高斯平滑处理图像,然后针对每一层金字塔图像,以原始图像作为第零层图像,分别与多层高斯平滑处理后的图像进行相减获得DoG图像;
将每层金字塔的图像与该层图像形成的多层DoG进行像素叠加。
10.如权利要求1所述的一种基于面部表情分析的语音识别方法,其特征在于,所述步骤S3中,表情识别结果的概率的计算过程包括:
步骤S31,在预设语音时间内,根据表情图片的提取特征判断图片判断表情图片的种类,计算公式为:
Figure FDA0002347602330000041
上式中,语音时长为t1,在该时间段内的图像共有n张,Ni表示第i图像,Mj表示第j种表情状态,W(Ni,Mj)用来表示第i张图像在经过Softmax分类器进行分类后是否属于第j种表情状态,当第i张表情图像是属于第j种表情状态时,则W(Ni,Mj)的取值为1,否则取0;
步骤S32,计算语音时长内,相同种类的表情的图片数与占据总的图片数的比例并获取比例值,将该比例值定义为表情概率,计算公式如下:
则语音时长为t1中,第j种的表情概率定义为Pj
Figure FDA0002347602330000042
上式中,
Figure FDA0002347602330000043
表示对经过Softmax分类器后归属于第j种表情的所有图像的统计,n为时间t内的总的图像数。
步骤S33,以此类推,分别求出在语音时间t1内的不同种类表情概率,然后按照概率从大到小排序,以最大值的表情作为在语音时间t1内的最终表情识别结果。
11.如权利要求1所述的一种基于面部表情分析的语音识别方法,其特征在于,语音采集装置采用阵列式麦克风,阵列式麦克风包括同心圆形阵列式麦克风、十字阵列式麦克风、线型阵列式麦克风、螺旋形阵列式麦克风中的一种;表情信号采集装置包括摄像头。
12.如权利要求1所述的一种基于面部表情分析的语音识别方法,其特征在于,语音采集装置采用双圆形阵列式麦克风,同心圆形阵列式麦克风,包括二个同心圆,外圆半径是内圆半径的两倍,外圆设置和内圆分别设置多个数量的麦克风,外圆和内圆的麦克风数量相同或不同,在圆心处设置有麦克风;每个圆周上的麦克风的数量为4~20个;
在外圆形麦克风阵列中选取位于两条相互垂直直径与圆周的交点上,有四个麦克风,在内圆内选取另外两条相互垂直直径与圆周的交点上,有四个麦克风,内圆内选取的两个直径与外圆内的选取直径相互偏移,偏移的角度范围为0~45度。
CN201911401624.3A 2019-12-31 2019-12-31 一种基于面部表情分析的语音识别方法 Pending CN111128178A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911401624.3A CN111128178A (zh) 2019-12-31 2019-12-31 一种基于面部表情分析的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911401624.3A CN111128178A (zh) 2019-12-31 2019-12-31 一种基于面部表情分析的语音识别方法

Publications (1)

Publication Number Publication Date
CN111128178A true CN111128178A (zh) 2020-05-08

Family

ID=70505859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911401624.3A Pending CN111128178A (zh) 2019-12-31 2019-12-31 一种基于面部表情分析的语音识别方法

Country Status (1)

Country Link
CN (1) CN111128178A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767793A (zh) * 2020-05-25 2020-10-13 联想(北京)有限公司 一种数据处理方法及装置
CN113065449A (zh) * 2021-03-29 2021-07-02 济南大学 面部图像采集方法、装置、计算机设备及存储介质
CN114408115A (zh) * 2022-01-19 2022-04-29 中国人民解放军海军特色医学中心 一种便于人机交互的船舶用操作台
CN117238278A (zh) * 2023-11-14 2023-12-15 三一智造(深圳)有限公司 基于人工智能的语音识别纠错方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248399A1 (en) * 2008-03-21 2009-10-01 Lawrence Au System and method for analyzing text using emotional intelligence factors
CN103488974A (zh) * 2013-09-13 2014-01-01 南京华图信息技术有限公司 基于模拟生物视觉神经网络的人脸表情识别方法及系统
CN103678404A (zh) * 2012-09-21 2014-03-26 联想(北京)有限公司 一种关键词识别方法及电子设备
CN105469076A (zh) * 2015-12-29 2016-04-06 东莞市微模式软件有限公司 基于多示例学习的人脸比对验证方法
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
CN108491835A (zh) * 2018-06-12 2018-09-04 常州大学 面向面部表情识别的双通道卷积神经网络
CN109036381A (zh) * 2018-08-08 2018-12-18 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
CN110534091A (zh) * 2019-08-16 2019-12-03 广州威尔森信息科技有限公司 一种基于微服务器及智能语音识别的人车交互方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090248399A1 (en) * 2008-03-21 2009-10-01 Lawrence Au System and method for analyzing text using emotional intelligence factors
CN103678404A (zh) * 2012-09-21 2014-03-26 联想(北京)有限公司 一种关键词识别方法及电子设备
CN103488974A (zh) * 2013-09-13 2014-01-01 南京华图信息技术有限公司 基于模拟生物视觉神经网络的人脸表情识别方法及系统
CN105469076A (zh) * 2015-12-29 2016-04-06 东莞市微模式软件有限公司 基于多示例学习的人脸比对验证方法
JP2017156854A (ja) * 2016-02-29 2017-09-07 Kddi株式会社 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
CN108491835A (zh) * 2018-06-12 2018-09-04 常州大学 面向面部表情识别的双通道卷积神经网络
CN109036381A (zh) * 2018-08-08 2018-12-18 平安科技(深圳)有限公司 语音处理方法及装置、计算机装置及可读存储介质
CN110534091A (zh) * 2019-08-16 2019-12-03 广州威尔森信息科技有限公司 一种基于微服务器及智能语音识别的人车交互方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王炳锡: "《实用语音识别基础》", 31 January 2005, 北京:国防工业出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767793A (zh) * 2020-05-25 2020-10-13 联想(北京)有限公司 一种数据处理方法及装置
CN113065449A (zh) * 2021-03-29 2021-07-02 济南大学 面部图像采集方法、装置、计算机设备及存储介质
CN114408115A (zh) * 2022-01-19 2022-04-29 中国人民解放军海军特色医学中心 一种便于人机交互的船舶用操作台
CN117238278A (zh) * 2023-11-14 2023-12-15 三一智造(深圳)有限公司 基于人工智能的语音识别纠错方法及系统
CN117238278B (zh) * 2023-11-14 2024-02-09 三一智造(深圳)有限公司 基于人工智能的语音识别纠错方法及系统

Similar Documents

Publication Publication Date Title
Badshah et al. Deep features-based speech emotion recognition for smart affective services
CN105976809B (zh) 基于语音和面部表情的双模态情感融合的识别方法及系统
CN111128178A (zh) 一种基于面部表情分析的语音识别方法
CN110634491B (zh) 语音信号中针对通用语音任务的串联特征提取系统及方法
Tawari et al. Speech emotion analysis in noisy real-world environment
Mannepalli et al. Emotion recognition in speech signals using optimization based multi-SVNN classifier
Pawar et al. Convolution neural network based automatic speech emotion recognition using Mel-frequency Cepstrum coefficients
CN108564942A (zh) 一种基于敏感度可调的语音情感识别方法及系统
CN110299142B (zh) 一种基于网络融合的声纹识别方法及装置
CN108364662B (zh) 基于成对鉴别任务的语音情感识别方法与系统
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
Li et al. Speech emotion recognition using 1d cnn with no attention
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
Lee et al. A study on speech emotion recognition using a deep neural network
CN113053410B (zh) 声音识别方法、装置、计算机设备和存储介质
Chen et al. Mandarin emotion recognition combining acoustic and emotional point information
Iqbal et al. Mfcc and machine learning based speech emotion recognition over tess and iemocap datasets
Susithra et al. Speech based emotion recognition and gender identification using FNN and CNN Models
JP5626221B2 (ja) 音響画像区間分類装置および方法
Hu et al. Speech emotion recognition based on attention mcnn combined with gender information
Bera et al. Identification of mental state through speech using a deep learning approach
Pathonsuwan et al. RS-MSConvNet: A novel end-to-end pathological voice detection model
Badura et al. Lip reading using fuzzy logic network with memory
Sushma et al. Emotion analysis using signal and image processing approach by implementing deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination