CN115662447B - 一种基于多特征融合的测谎分析方法及装置 - Google Patents
一种基于多特征融合的测谎分析方法及装置 Download PDFInfo
- Publication number
- CN115662447B CN115662447B CN202211159091.4A CN202211159091A CN115662447B CN 115662447 B CN115662447 B CN 115662447B CN 202211159091 A CN202211159091 A CN 202211159091A CN 115662447 B CN115662447 B CN 115662447B
- Authority
- CN
- China
- Prior art keywords
- slope
- audio
- feature
- image frame
- mouth
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于多特征融合的测谎分析方法及装置,所述方法的步骤包括:将采集的音频数据和图像数据分别划分为多个音频子数据和多个图像帧;在多个音频子数据筛选差异音频子数据,在多个图像帧中筛选差异图像帧;确定是否将所述差异图像帧和差异音频子数据融合;若是,则分别获取差异音频子数据的音频参数和差异图像帧的图像参数,构建为第一融合向量,并输入预设的分类器模型中,输出测谎结果;若否,则基于过零率参数和短时能量参数确定构建第二融合向量的音频子数据和图像帧,并将音频子数据的音频参数和图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果。
Description
技术领域
本发明涉及心理测评技术领域,尤其涉及一种基于多特征融合的测谎分析方法及装置。
背景技术
测谎技术是通过一定物理技术的辅助,测试被测对象是否有撒谎的现象的方法。测谎通常使用一套准备好的问题提问被测试者,与此同时,测谎仪也在不停地监视被测试者的生理活动状况。通过对仪器异常活动数据的分析得出结果。
多模态测谎技术是当前测谎技术的一个重要研究方向,现有的多模态测谎技术通常采用分别采集各模态数据,将各模态数据融合为输入向量,再将输入向量输入到分类模型,根据分类模型的输出结果判定是否说谎的方式。
但是现有技术在将各模态数据进行融合的过程中,缺少对数据进行甄别的过程,因此,难以保证各模态数据融合过程中的精准度,进而更难以保证输出测谎结果的客观性。
发明内容
鉴于此,本发明的实施例提供了一种基于多特征融合的测谎分析方法,以消除或改善现有技术中存在的一个或更多个缺陷。
本发明的一个方面提供了一种基于多特征融合的测谎分析方法,所述方法的步骤包括:
基于采集设备获取测谎过程中对待测者采集的多模态数据,所述多模态数据包括音频数据和图像数据;
将采集的音频数据和图像数据分别划分为多个音频子数据和多个图像帧;
基于傅里叶变换计算每个音频子数据的梅尔频率倒谱系数,基于多个音频子数据的所述梅尔频率倒谱系数的平均值在多个音频子数据中筛选出与所述梅尔频率倒谱系数的平均值的差最大的梅尔频率倒谱系数对应的音频子数据为差异音频子数据;基于图像帧的灰度值构建每个图像帧的特征向量,基于感知哈希算法计算特征向量之间的汉明距离,筛选出与其他图像帧的特征向量汉明距离之和最大的图像帧为差异图像帧;
基于所述差异图像帧的采集时间和差异音频子数据的起始时间确定是否将所述差异图像帧和差异音频子数据融合;
若是,则分别获取差异音频子数据的音频参数和差异图像帧的图像参数,构建为第一融合向量,并输入预设的分类器模型中,输出测谎结果;
若否,则获取每个音频子数据的过零率参数和短时能量参数,分别筛选最大的过零率参数和短时能量参数,基于最大的过零率参数和短时能量参数计算音频特征标准化斜率;对每个图像帧进行特征点标记,基于相同特征点在不同图像帧的位置在多个图像帧中筛选出第一特征图像帧和第二特征图像帧,分别计算第一特征图像帧和第二特征图像帧的图像特征标准化斜率;基于音频特征标准化斜率和图像特征标准化斜率确定构建第二融合向量的音频子数据和图像帧,并将音频子数据的音频参数和图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果。
采用上述方案,本方案首先基于音频子数据的梅尔频率倒谱系数和图像帧之间的汉明距离筛选出差异音频子数据和差异图像帧,差异音频子数据和差异图像帧均为受试者波动最大的数据,通常波动最大的数据存在说谎情况,本方案首先基于差异音频子数据和差异图像帧判定是否说谎,若不能基于差异音频子数据和差异图像帧进行判定,则本方案进一步计算音频特征标准化斜率和图像特征标准化斜率,再次构建第二融合向量得到测谎结果,本方案在数据融合为第一融合向量或第二融合向量之前对数据进行甄别,找对应融合的数据如差异音频子数据和差异图像帧,能够保证各模态数据融合过程中的精准度,进而保证输出测谎结果的客观性。
在本发明的一些实施方式中,在基于所述差异图像帧的采集时间和差异音频子数据的起始时间确定是否将所述差异图像帧和差异音频子数据融合的步骤中,计算所述差异图像帧的采集时间和差异音频子数据的起始时间之间的时间差,若所述时间差小于预设的时差阈值,则将所述差异图像帧和差异音频子数据融合;若所述时间差不小于预设的时差阈值,则不将所述差异图像帧和差异音频子数据融合。
在本发明的一些实施方式中,所述基于最大的过零率参数和短时能量参数计算音频特征标准化斜率的步骤包括:
基于最大的过零率参数计算最大的过零率参数对应的音频子数据的过零率斜率;
基于最大的短时能量参数计算最大的短时能量参数对应的音频子数据的短时能量斜率;
基于过零率斜率和短时能量斜率计算每个音频子数据的音频特征标准化斜率;
基于过零率斜率和短时能量斜率计算整体斜率,基于整体斜率计算音频子数据的音频特征标准化斜率。
在本发明的一些实施方式中,在基于过零率斜率和短时能量斜率计算整体斜率,基于整体斜率计算音频子数据的音频特征标准化斜率的步骤中,基于如下公式计算整体斜率:
其中,GA表示整体斜率,Go表示过零率斜率,Ge为短时能量斜率;
基于如下公式计算音频特征标准化斜率:
其中,σ(GA)表示音频特征标准化斜率。
在本发明的一些实施方式中,在基于最大的过零率参数计算最大的过零率参数对应的音频子数据的过零率斜率;基于最大的短时能量参数计算最大的短时能量参数对应的音频子数据的短时能量斜率的步骤中,基于如下公式计算过零率斜率:
其中,Maxo表示最大的过零率参数,Zn表示全部音频子数据的过零率的平均值,to表示最大的过零率参数对应的音频子数据中频率首次经过零值的时间,to1表示最大的过零率参数对应的音频子数据的起始时间,Go表示过零率斜率;
基于如下公式计算短时能量斜率:
其中,Maxe表示最大的短时能量参数,En表示全部音频子数据的短时能量参数的平均值,te表示最大的短时能量参数对应的音频子数据中出现最大能量值的时间点,te1最大的短时能量参数对应的音频子数据中能量值第一次出现波动的时间,Ge为短时能量斜率。
在本发明的一些实施方式中,所述音频子数据的短时能量参数为音频子数据中多个时间点的能量值的平均值。
在本发明的一些实施方式中,所述特征点包括两个眉部特征点和两个嘴部特征点,所述基于相同特征点在不同图像帧的位置在多个图像帧中筛选出第一特征图像帧和第二特征图像帧的步骤包括:
计算每个图像帧中两个眉部特征点之间的眉间距距离和两个嘴角特征点之间的嘴部间距距离;
分别将每个图像帧的眉间距距离和嘴部间距距离与第一个图像帧的眉间距距离和嘴部间距距离进行对比,得到与第一个图像帧的眉间距距离差最大的图像帧为第一特征图像帧和与第一个图像帧的嘴部间距距离差最大的图像帧为第二特征图像帧。
在本发明的一些实施方式中,所述图像特征标准化斜率包括眉部特征标准化斜率和嘴部特征标准化斜率,所述分别计算第一特征图像帧和第二特征图像帧的图像特征标准化斜率的步骤包括:
基于所述第一特征图像帧中两个眉部特征点之间的眉间距距离计算眉部特征斜率,基于眉部特征斜率计算眉部特征标准化斜率;
基于所述第二特征图像帧中两个嘴角特征点之间的嘴部间距距离计算嘴部特征斜率,基于嘴部特征斜率计算嘴部特征标准化斜率。
在本发明的一些实施方式中,在基于所述第一特征图像帧中两个眉部特征点之间的眉间距距离计算眉部特征斜率的步骤中,基于如下公式计算眉部特征斜率:
其中,GEyebrows表示眉部特征斜率,DistanceEyebrowsi表示与第一个图像帧的眉间距距离差最大的图像帧的眉间距距离参数,DistanceEyebrows1表示第一个图像帧的眉间距距离参数,tEyebrows为第一特征图像帧被记录的时间点,t1表示第一个图像帧被记录的时间点;
在基于所述第二特征图像帧中两个嘴角特征点之间的嘴部间距距离计算嘴部特征斜率的步骤中,基于两个嘴角特征点之间的嘴部间距距离计算嘴部特征初斜率,基于嘴部特征初斜率和眉部特征斜率计算嘴部特征斜率,在基于两个嘴角特征点之间的嘴部间距距离计算嘴部特征初斜率的步骤中,基于如下公式计算嘴部特征初斜率:
在基于嘴部特征初斜率和眉部特征斜率计算嘴部特征斜率的步骤中,基于如下公式计算嘴部特征斜率;
GMouth=G-m-Mouth+|G-m-Mouth-GEyebrows|/GEyebrows;
其中,G-m-Mouth表示嘴部特征初斜率,GMouth表示嘴部特征斜率,DistanceMouthj表示与第一个图像帧的嘴部间距距离差最大的图像帧的嘴部间距距离参数,DistanceMouth1第一个图像帧的嘴部间距距离参数,tMouth表示第二特征图像帧被记录的时间点。
在本发明的一些实施方式中,所述基于音频特征标准化斜率和图像特征标准化斜率确定构建第二融合向量的音频子数据和图像帧,并将音频子数据的音频参数和图像帧的图像参数构建为第二融合向量的步骤为:
将音频特征标准化斜率分别与眉部特征标准化斜率和嘴部特征标准化斜率计算差值;
若音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值大于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数和第一特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果;
若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值大于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数和第二特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果;
若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数、第一特征图像帧的图像参数和第二特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果。
在本发明的一些实施方式中,若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值大于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值大于预设的差值阈值,则判定音频数据和图像数据为无效数据。
本发明还提供一种基于多特征融合的测谎分析装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法所实现的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述基于多特征融合的测谎分析方法所实现的步骤。
本发明的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在说明书以及附图中具体指出并获得。
本领域技术人员将会理解的是,能够用本发明实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。
图1为本发明基于多特征融合的测谎分析方法一种实施方式的示意图;
图2为本发明音频数据短时能量的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
在此,还需要说明的是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
在此,还需要说明的是,如果没有特殊说明,术语“连接”在本文不仅可以指直接连接,也可以表示存在中间物的间接连接。
在下文中,将参考附图描述本发明的实施例。在附图中,相同的附图标记代表相同或类似的部件,或者相同或类似的步骤。
为解决以上问题,如图1所示,本发明提出一种基于多特征融合的测谎分析方法;所述方法的步骤包括:
步骤S100,基于采集设备获取测谎过程中对待测者采集的多模态数据,所述多模态数据包括音频数据和图像数据;
所述采集设备包括摄像头和录音机,所述图像数据通过摄像头拍摄采集,所述音频数据通过录音机采集。
步骤S200,将采集的音频数据和图像数据分别划分为多个音频子数据和多个图像帧;
在本发明的一些实施方式中,将所述音频数据划分为多个音频片段,每个音频片段作为一个音频子数据;所述图像数据包括多个图像帧,每个图像帧为一个二维图像。
步骤S300,基于傅里叶变换计算每个音频子数据的梅尔频率倒谱系数,基于多个音频子数据的所述梅尔频率倒谱系数的平均值在多个音频子数据中筛选出与所述梅尔频率倒谱系数的平均值的差最大的梅尔频率倒谱系数对应的音频子数据为差异音频子数据;基于图像帧的灰度值构建每个图像帧的特征向量,基于感知哈希算法计算特征向量之间的汉明距离,筛选出与其他图像帧的特征向量汉明距离之和最大的图像帧为差异图像帧;
在本发明的一些实施方式中,在声音处理领域中,梅尔频率倒谱(Mel-FrequencyCepstrum)是基于声音频率的非线性梅尔刻度(melscale)的对数能量频谱的线性变换,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数;它衍生自音讯片段的倒频谱(cepstrum)。
在本发明的一些实施方式中,所述特征向量为的各个维度参数即为图像帧各个像素点的灰度值,所述汉明距离表示两个相同长度字符串对应位置的不同字符的数量。
在本发明的一些实施方式中,在基于多个音频子数据的所述梅尔频率倒谱系数的平均值在多个音频子数据中筛选出与所述梅尔频率倒谱系数的平均值的差最大的梅尔频率倒谱系数对应的音频子数据为差异音频子数据的步骤中,首先计算多个音频子数据的梅尔频率倒谱系数的平均值,计算每个音频子数据的梅尔频率倒谱系数与多个音频子数据的梅尔频率倒谱系数的平均值的差,将与与多个音频子数据的梅尔频率倒谱系数的平均值的差的梅尔频率倒谱系数对应的音频子数据作为差异音频子数据;
在筛选出与其他图像帧的特征向量汉明距离之和最大的图像帧为差异图像帧的步骤中,逐个计算每个图像帧与其他每个图像帧之间的汉明距离,相加得到每个图像帧与其他每个图像帧之间的汉明距离之和,将与其他每个图像帧之间的汉明距离之和最大的图像帧作为差异图像帧。
步骤S400,基于所述差异图像帧的采集时间和差异音频子数据的起始时间确定是否将所述差异图像帧和差异音频子数据融合;
步骤S500,若是,则分别获取差异音频子数据的音频参数和差异图像帧的图像参数,构建为第一融合向量,并输入预设的分类器模型中,输出测谎结果;
在本发明的一些实施方式中,所述音频参数包括短时能量值参数和过零率参数;所述图像参数包括图像帧的灰度值、亮度值和分辨率。
步骤S610,若否,则获取每个音频子数据的过零率参数和短时能量参数,分别筛选最大的过零率参数和短时能量参数,基于最大的过零率参数和短时能量参数计算音频特征标准化斜率;
在本发明的一些实施方式中,在分别筛选最大的过零率参数和短时能量参数的步骤中,在多个音频子数据的过零率参数中筛选出最大的过零率参数,在多个音频子数据的短时能量参数中筛选出最大的短时能量参数。
步骤S620,对每个图像帧进行特征点标记,基于相同特征点在不同图像帧的位置在多个图像帧中筛选出第一特征图像帧和第二特征图像帧,分别计算第一特征图像帧和第二特征图像帧的图像特征标准化斜率;
在本发明的一些实施方式中,所述特征点包括两个眉部特征点和两个嘴部特征点,两个眉部特征点为左眉特征点和右眉特征点,两个嘴部特征点为左嘴角特征点和右嘴角特征点,在对每个图像帧进行特征点标记的步骤中,可以利用深度学习模型对图像帧中的两个眉部特征点和两个嘴部特征点分别进行识别并标记;也可以采用人工进行标注的方式。
在本发明的一些实施方式中,首先采用深度学习模型进行人脸定位,来避免周围环境的干扰,并以向量的形式保存人脸的大小和坐标,如果图片中没有检测到人脸,则返回空值。
步骤S630,基于音频特征标准化斜率和图像特征标准化斜率确定构建第二融合向量的音频子数据和图像帧,并将音频子数据的音频参数和图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果。
在本发明的一些实施方式中,所述分类器模型可以为决策树模型或随机森林模型等。
采用上述方案,本方案首先基于音频子数据的梅尔频率倒谱系数和图像帧之间的汉明距离筛选出差异音频子数据和差异图像帧,差异音频子数据和差异图像帧均为受试者波动最大的数据,通常波动最大的数据存在说谎情况,本方案首先基于差异音频子数据和差异图像帧判定是否说谎,若不能基于差异音频子数据和差异图像帧进行判定,则本方案进一步计算音频特征标准化斜率和图像特征标准化斜率,再次构建第二融合向量得到测谎结果,本方案在数据融合为第一融合向量或第二融合向量之前对数据进行甄别,找对应融合的数据如差异音频子数据和差异图像帧,能够保证各模态数据融合过程中的精准度,进而保证输出测谎结果的客观性。
在本发明的一些实施方式中,所述图像数据为视频录像,使用OpenCV读取视频数据,OpenCV是一个轻量且高效的用于图像处理的工具,获取样本的帧率,然后将视频数据进行分帧处理,得到多个图像帧,分帧完成以后,对图片进行灰度化处理,以便消除光线对实验结果的影响。
在本发明的一些实施方式中,在基于所述差异图像帧的采集时间和差异音频子数据的起始时间确定是否将所述差异图像帧和差异音频子数据融合的步骤中,计算所述差异图像帧的采集时间和差异音频子数据的起始时间之间的时间差,若所述时间差小于预设的时差阈值,则将所述差异图像帧和差异音频子数据融合;若所述时间差不小于预设的时差阈值,则不将所述差异图像帧和差异音频子数据融合。
在具体实施过程中,所述时差阈值可以为0.05s、0.1s或0.15秒。
采用上述方案,由于在实际应用中,被测人员存在思考过程,那么就会导致图像特征和声音特征存在一定的延迟。因此如果视频特征和音频特征的斜率之间的差值小于阈值,那么二者也可以融合,本方案计算所述差异图像帧的采集时间和差异音频子数据的起始时间之间的时间差,若所述时间差小于预设的时差阈值,则认为二者基于同一触发时间,且此处存在较大的情绪波动,将二者融合并输入到模型中进行判断,能够提高对受试者是否说谎判断的准确度。
在本发明的一些实施方式中,所述基于最大的过零率参数和短时能量参数计算音频特征标准化斜率的步骤包括:
基于最大的过零率参数计算最大的过零率参数对应的音频子数据的过零率斜率;
基于最大的短时能量参数计算最大的短时能量参数对应的音频子数据的短时能量斜率;
基于过零率斜率和短时能量斜率计算每个音频子数据的音频特征标准化斜率;
基于过零率斜率和短时能量斜率计算整体斜率,基于整体斜率计算音频子数据的音频特征标准化斜率。
采用上述方案,过零率是指一段时间内语音数据经过零值的平均次数,是语音数据在时域分析中的一种特征参数,一定程度上可以反映语音的频率信息;短时能量指的是一帧语音数据的总能量,不同类型的声音之间的能量差别显著,例如人在说谎的时候,可能出于紧张会不自觉的提高音量,也可能由于心虚导致说话声音较小。
在本发明的一些实施方式中,在基于过零率斜率和短时能量斜率计算整体斜率,基于整体斜率计算音频子数据的音频特征标准化斜率的步骤中,基于如下公式计算整体斜率:
其中,GA表示整体斜率,Go表示过零率斜率,Ge为短时能量斜率;
基于如下公式计算音频特征标准化斜率:
其中,σGA表示音频特征标准化斜率。
如图2所示,在本发明的一些实施方式中,在基于最大的过零率参数计算最大的过零率参数对应的音频子数据的过零率斜率;基于最大的短时能量参数计算最大的短时能量参数对应的音频子数据的短时能量斜率的步骤中,基于如下公式计算过零率斜率:
其中,Maxo表示最大的过零率参数,Zn表示全部音频子数据的过零率的平均值,to表示最大的过零率参数对应的音频子数据中频率首次经过零值的时间,to1表示最大的过零率参数对应的音频子数据的起始时间,Go表示过零率斜率;
基于如下公式计算短时能量斜率:
其中,Maxe表示最大的短时能量参数,En表示全部音频子数据的短时能量参数的平均值,te表示最大的短时能量参数对应的音频子数据中出现最大能量值的时间点,如图2中最大值点所示,te1表示最大的短时能量参数对应的音频子数据中能量值第一次出现波动的时间,如图2中第一次出现变化点所示,Ge为短时能量斜率。
在本发明的一些实施方式中,所述音频子数据的短时能量参数为音频子数据中多个时间点的能量值的平均值。
在本发明的一些实施方式中,所述特征点包括两个眉部特征点和两个嘴部特征点,所述基于相同特征点在不同图像帧的位置在多个图像帧中筛选出第一特征图像帧和第二特征图像帧的步骤包括:
计算每个图像帧中两个眉部特征点之间的眉间距距离和两个嘴角特征点之间的嘴部间距距离;
分别将每个图像帧的眉间距距离和嘴部间距距离与第一个图像帧的眉间距距离和嘴部间距距离进行对比,得到与第一个图像帧的眉间距距离差最大的图像帧为第一特征图像帧和与第一个图像帧的嘴部间距距离差最大的图像帧为第二特征图像帧。
在本发明的一些实施方式中,所述两个眉部特征点和两个嘴部特征点均被标记在图像帧上,并为每个图像帧构建二维坐标系,分别得到两个眉部特征点和两个嘴部特征点的坐标,采用欧氏距离计算两个眉部特征点的眉间距距离和两个嘴部特征点的嘴部间距距离。
采用上述方案,根据调研结果可知,测谎最具预测性的微表情是:皱眉、挑眉、抿嘴、嘟嘴,由此可知以上微表情都是集中于眉毛和嘴部,因此本专利主要采集了眉毛和嘴部的特征眉间距距离和嘴部间距距离均与受试者的情绪相关度较大,因此,本方案挑选第一特征图像帧和第二特征图像帧。
在本发明的一些实施方式中,所述图像特征标准化斜率包括眉部特征标准化斜率和嘴部特征标准化斜率,所述分别计算第一特征图像帧和第二特征图像帧的图像特征标准化斜率的步骤包括:
基于所述第一特征图像帧中两个眉部特征点之间的眉间距距离计算眉部特征斜率,基于眉部特征斜率计算眉部特征标准化斜率;
基于所述第二特征图像帧中两个嘴角特征点之间的嘴部间距距离计算嘴部特征斜率,基于嘴部特征斜率计算嘴部特征标准化斜率。
在本发明的一些实施方式中,在基于所述第一特征图像帧中两个眉部特征点之间的眉间距距离计算眉部特征斜率的步骤中,基于如下公式计算眉部特征斜率:
其中,GEyebrows表示眉部特征斜率,DistanceEyebrowsi表示与第一个图像帧的眉间距距离差最大的图像帧的眉间距距离参数,DistanceEyebrows1表示第一个图像帧的眉间距距离参数,tEyebrows为第一特征图像帧被记录的时间点,t1表示第一个图像帧被记录的时间点;
在基于所述第二特征图像帧中两个嘴角特征点之间的嘴部间距距离计算嘴部特征斜率的步骤中,基于两个嘴角特征点之间的嘴部间距距离计算嘴部特征初斜率,基于嘴部特征初斜率和眉部特征斜率计算嘴部特征斜率,在基于两个嘴角特征点之间的嘴部间距距离计算嘴部特征初斜率的步骤中,基于如下公式计算嘴部特征初斜率:
在基于嘴部特征初斜率和眉部特征斜率计算嘴部特征斜率的步骤中,基于如下公式计算嘴部特征斜率;
GMouth=G-m-Mouth+|G-m-Mouth-GEyebrows|/GEyebrows;
其中,G-m-Mouth表示嘴部特征初斜率,GMouth表示嘴部特征斜率,DistanceMouthj表示与第一个图像帧的嘴部间距距离差最大的图像帧的嘴部间距距离参数,DistanceMouth1第一个图像帧的嘴部间距距离参数,tMouth表示第二特征图像帧被记录的时间点。
采用上述方式,本方案在计算计算嘴部特征初斜率时引入眉部特征斜率,增强了嘴部和眉部特征之间的相关性,能够基于嘴部和眉部的联系进一步提高计算的精准度,提高对融合判定的准确度。
在本发明的一些实施方式中,所述第一个图像帧即为图像数据的多个图像帧中,最早被记录的图像帧。
在本发明的一些实施方式中,在基于眉部特征斜率计算眉部特征标准化斜率的步骤中,根据如下公式计算眉部特征标准化斜率:
其中,σ(GEyebrows)表示眉部特征标准化斜率,GEyebrows表示眉部特征斜率;
基于嘴部特征斜率计算嘴部特征标准化斜率的步骤中,根据如下公式计算嘴部特征标准化斜率:
其中,σ(GMouth)表示嘴部特征标准化斜率,GMouth表示嘴部特征斜率。
e为欧拉数。
在本发明的一些实施方式中,所述基于音频特征标准化斜率和图像特征标准化斜率确定构建第二融合向量的音频子数据和图像帧,并将音频子数据的音频参数和图像帧的图像参数构建为第二融合向量的步骤为:
将音频特征标准化斜率分别与眉部特征标准化斜率和嘴部特征标准化斜率计算差值;
若音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值大于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数和第一特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果;
若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值大于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数和第二特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果;
若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数、第一特征图像帧的图像参数和第二特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果。
在本发明的一些实施方式中,若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值大于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值大于预设的差值阈值,则判定音频数据和图像数据为无效数据。
采用上述方案,在实际采集过程中,由于视频特征和音频特征可能会存在一定的延迟,因此需要设定一个差值阈值,如果音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值≤差值阈值或音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值≤差值阈值,那么则可以判定该视频特征和音频特征可以进行融合。
在本发明的一些实施方式中,所述音频参数包括短时能量值参数和过零率参数;所述图像参数包括图像帧的灰度值、亮度值和分辨率。
在本发明的一些实施方式中,所述分类器模型可以为决策树模型或随机森林模型等。
在本发明的一些实施方式中,本方案的步骤还包括对分类器模型进行预训练,将带有标签的训练数据输入到分类器模型计算损失函数,基于损失函数利用反向传播算法更新分类器模型最终的参数。
本发明实施例还提供一种基于多特征融合的测谎分析装置,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法所实现的步骤。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时以实现前述基于多特征融合的测谎分析方法所实现的步骤。该计算机可读存储介质可以是有形存储介质,诸如随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、软盘、硬盘、可移动存储盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本领域普通技术人员应该可以明白,结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法,能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,做出各种改变、修改和添加,或者改变步骤之间的顺序。
本发明中,针对一个实施方式描述和/或例示的特征,可以在一个或更多个其它实施方式中以相同方式或以类似方式使用,和/或与其他实施方式的特征相结合或代替其他实施方式的特征。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多特征融合的测谎分析方法,其特征在于,所述方法的步骤包括:
基于采集设备获取测谎过程中对待测者采集的多模态数据,所述多模态数据包括音频数据和图像数据;
将采集的音频数据和图像数据分别划分为多个音频子数据和多个图像帧;
基于傅里叶变换计算每个音频子数据的梅尔频率倒谱系数,基于多个音频子数据的所述梅尔频率倒谱系数的平均值在多个音频子数据中筛选出与所述梅尔频率倒谱系数的平均值的差最大的梅尔频率倒谱系数对应的音频子数据为差异音频子数据;基于图像帧的灰度值构建每个图像帧的特征向量,基于感知哈希算法计算特征向量之间的汉明距离,筛选出与其他图像帧的特征向量汉明距离之和最大的图像帧为差异图像帧;
基于所述差异图像帧的采集时间和差异音频子数据的起始时间确定是否将所述差异图像帧和差异音频子数据融合;
若是,则分别获取差异音频子数据的音频参数和差异图像帧的图像参数,构建为第一融合向量,并输入预设的分类器模型中,输出测谎结果;
若否,则获取每个音频子数据的过零率参数和短时能量参数,分别筛选最大的过零率参数和短时能量参数,基于最大的过零率参数和短时能量参数计算音频特征标准化斜率;对每个图像帧进行特征点标记,基于相同特征点在不同图像帧的位置在多个图像帧中筛选出第一特征图像帧和第二特征图像帧,分别计算第一特征图像帧和第二特征图像帧的图像特征标准化斜率;基于音频特征标准化斜率和图像特征标准化斜率确定构建第二融合向量的音频子数据和图像帧,并将音频子数据的音频参数和图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果。
2.根据权利要求1所述的基于多特征融合的测谎分析方法,其特征在于,在基于所述差异图像帧的采集时间和差异音频子数据的起始时间确定是否将所述差异图像帧和差异音频子数据融合的步骤中,计算所述差异图像帧的采集时间和差异音频子数据的起始时间之间的时间差,若所述时间差小于预设的时差阈值,则将所述差异图像帧和差异音频子数据融合;若所述时间差不小于预设的时差阈值,则不将所述差异图像帧和差异音频子数据融合。
3.根据权利要求1所述的基于多特征融合的测谎分析方法,其特征在于,所述基于最大的过零率参数和短时能量参数计算音频特征标准化斜率的步骤包括:
基于最大的过零率参数计算最大的过零率参数对应的音频子数据的过零率斜率;
基于最大的短时能量参数计算最大的短时能量参数对应的音频子数据的短时能量斜率;
基于过零率斜率和短时能量斜率计算每个音频子数据的音频特征标准化斜率;
基于过零率斜率和短时能量斜率计算整体斜率,基于整体斜率计算音频子数据的音频特征标准化斜率。
5.根据权利要求3所述的基于多特征融合的测谎分析方法,其特征在于,在基于最大的过零率参数计算最大的过零率参数对应的音频子数据的过零率斜率;基于最大的短时能量参数计算最大的短时能量参数对应的音频子数据的短时能量斜率的步骤中,基于如下公式计算过零率斜率:
其中,maxo表示最大的过零率参数,Zn表示全部音频子数据的过零率的平均值,to表示最大的过零率参数对应的音频子数据中频率首次经过零值的时间,to1表示最大的过零率参数对应的音频子数据的起始时间,Go表示过零率斜率;
基于如下公式计算短时能量斜率:
其中,Maxe表示最大的短时能量参数,En表示全部音频子数据的短时能量参数的平均值,te表示最大的短时能量参数对应的音频子数据中出现最大能量值的时间点,te1最大的短时能量参数对应的音频子数据中能量值第一次出现波动的时间,Ge为短时能量斜率。
6.根据权利要求1所述的基于多特征融合的测谎分析方法,其特征在于,所述特征点包括两个眉部特征点和两个嘴部特征点,所述基于相同特征点在不同图像帧的位置在多个图像帧中筛选出第一特征图像帧和第二特征图像帧的步骤包括:
计算每个图像帧中两个眉部特征点之间的眉间距距离和两个嘴角特征点之间的嘴部间距距离;
分别将每个图像帧的眉间距距离和嘴部间距距离与第一个图像帧的眉间距距离和嘴部间距距离进行对比,得到与第一个图像帧的眉间距距离差最大的图像帧为第一特征图像帧和与第一个图像帧的嘴部间距距离差最大的图像帧为第二特征图像帧。
7.根据权利要求6所述的基于多特征融合的测谎分析方法,其特征在于,所述图像特征标准化斜率包括眉部特征标准化斜率和嘴部特征标准化斜率,所述分别计算第一特征图像帧和第二特征图像帧的图像特征标准化斜率的步骤包括:
基于所述第一特征图像帧中两个眉部特征点之间的眉间距距离计算眉部特征斜率,基于眉部特征斜率计算眉部特征标准化斜率;
基于所述第二特征图像帧中两个嘴角特征点之间的嘴部间距距离计算嘴部特征斜率,基于嘴部特征斜率计算嘴部特征标准化斜率。
8.根据权利要求7所述的基于多特征融合的测谎分析方法,其特征在于,在基于所述第一特征图像帧中两个眉部特征点之间的眉间距距离计算眉部特征斜率的步骤中,基于如下公式计算眉部特征斜率:
其中,GEyebrows表示眉部特征斜率,DistanceEyebrowsi表示与第一个图像帧的眉间距距离差最大的图像帧的眉间距距离参数,DistanceEyebrows1表示第一个图像帧的眉间距距离参数,tEyebrows为第一特征图像帧被记录的时间点,t1表示第一个图像帧被记录的时间点;
在基于所述第二特征图像帧中两个嘴角特征点之间的嘴部间距距离计算嘴部特征斜率的步骤中,基于两个嘴角特征点之间的嘴部间距距离计算嘴部特征初斜率,基于嘴部特征初斜率和眉部特征斜率计算嘴部特征斜率,在基于两个嘴角特征点之间的嘴部间距距离计算嘴部特征初斜率的步骤中,基于如下公式计算嘴部特征初斜率:
在基于嘴部特征初斜率和眉部特征斜率计算嘴部特征斜率的步骤中,基于如下公式计算嘴部特征斜率;
GMouth=G-m-Mouth+|G-m-Mouth-GEyebrows|/GEyebrows;
其中,G-m-Mouth表示嘴部特征初斜率,GMouth表示嘴部特征斜率,DistanceMouthj表示与第一个图像帧的嘴部间距距离差最大的图像帧的嘴部间距距离参数,DistanceMouth1第一个图像帧的嘴部间距距离参数,tMouth表示第二特征图像帧被记录的时间点。
9.根据权利要求1-8任一项所述的基于多特征融合的测谎分析方法,其特征在于,所述基于音频特征标准化斜率和图像特征标准化斜率确定构建第二融合向量的音频子数据和图像帧,并将音频子数据的音频参数和图像帧的图像参数构建为第二融合向量的步骤为:
将音频特征标准化斜率分别与眉部特征标准化斜率和嘴部特征标准化斜率计算差值;
若音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值大于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数和第一特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果;
若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值大于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数和第二特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果;
若音频特征标准化斜率与嘴部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,音频特征标准化斜率与眉部特征标准化斜率的差值的绝对值小于或等于预设的差值阈值,则将最大的短时能量参数对应的音频子数据的音频参数、最大的过零率参数对应的音频子数据的音频参数、第一特征图像帧的图像参数和第二特征图像帧的图像参数构建为第二融合向量,并输入预设的分类器模型中,输出测谎结果。
10.一种基于多特征融合的测谎分析装置,其特征在于,该装置包括计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1-9任一项所述方法所实现的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211159091.4A CN115662447B (zh) | 2022-09-22 | 2022-09-22 | 一种基于多特征融合的测谎分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211159091.4A CN115662447B (zh) | 2022-09-22 | 2022-09-22 | 一种基于多特征融合的测谎分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115662447A CN115662447A (zh) | 2023-01-31 |
CN115662447B true CN115662447B (zh) | 2023-04-07 |
Family
ID=84984619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211159091.4A Active CN115662447B (zh) | 2022-09-22 | 2022-09-22 | 一种基于多特征融合的测谎分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115662447B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10381022B1 (en) * | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
CN110265063A (zh) * | 2019-07-22 | 2019-09-20 | 东南大学 | 一种基于固定时长语音情感识别序列分析的测谎方法 |
CN110781916A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 |
CN110969106A (zh) * | 2019-11-25 | 2020-04-07 | 东南大学 | 一种基于表情、语音和眼动特征的多模态测谎方法 |
CN113887332A (zh) * | 2021-09-13 | 2022-01-04 | 华南理工大学 | 一种基于多模态融合的肌肤作业安全监测方法 |
CN114881668A (zh) * | 2022-05-05 | 2022-08-09 | 灵图数据(杭州)有限公司 | 一种基于多模态的欺骗检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11386712B2 (en) * | 2019-12-31 | 2022-07-12 | Wipro Limited | Method and system for multimodal analysis based emotion recognition |
-
2022
- 2022-09-22 CN CN202211159091.4A patent/CN115662447B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10381022B1 (en) * | 2015-12-23 | 2019-08-13 | Google Llc | Audio classifier |
CN110265063A (zh) * | 2019-07-22 | 2019-09-20 | 东南大学 | 一种基于固定时长语音情感识别序列分析的测谎方法 |
CN110781916A (zh) * | 2019-09-18 | 2020-02-11 | 平安科技(深圳)有限公司 | 视频数据的欺诈检测方法、装置、计算机设备和存储介质 |
CN110969106A (zh) * | 2019-11-25 | 2020-04-07 | 东南大学 | 一种基于表情、语音和眼动特征的多模态测谎方法 |
CN113887332A (zh) * | 2021-09-13 | 2022-01-04 | 华南理工大学 | 一种基于多模态融合的肌肤作业安全监测方法 |
CN114881668A (zh) * | 2022-05-05 | 2022-08-09 | 灵图数据(杭州)有限公司 | 一种基于多模态的欺骗检测方法 |
Non-Patent Citations (3)
Title |
---|
宋绪靖.《硕士毕业论文:基于文本、语音和视频的多模态情感识别的研究》.山东大学,2019,全文. * |
陈昭昀.《硕士学位论文:基于异构多模态数据的虚假新闻》.北京邮电大学,2022,全文. * |
魏江平,等.多特征非接触式测谎技术.《华东理工大学学报(自然科学版)》.2019,第46卷(第4期),556-563. * |
Also Published As
Publication number | Publication date |
---|---|
CN115662447A (zh) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mouawad et al. | Robust detection of COVID-19 in cough sounds: using recurrence dynamics and variable Markov model | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN107657964B (zh) | 基于声学特征和稀疏数学的抑郁症辅助检测方法及分类器 | |
EP3839942A1 (en) | Quality inspection method, apparatus, device and computer storage medium for insurance recording | |
US7369991B2 (en) | Speech recognition system, speech recognition method, speech synthesis system, speech synthesis method, and program product having increased accuracy | |
CN105160318B (zh) | 基于面部表情的测谎方法及系统 | |
JP4546767B2 (ja) | 感情推定装置及び感情推定プログラム | |
CN110659582A (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
CN108305615A (zh) | 一种对象识别方法及其设备、存储介质、终端 | |
CN110796199B (zh) | 一种图像处理方法、装置以及电子医疗设备 | |
CN103503060A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN108962231B (zh) | 一种语音分类方法、装置、服务器及存储介质 | |
CN108877787A (zh) | 语音识别方法、装置、服务器及存储介质 | |
US20210121125A1 (en) | Apparatus for estimating mental/neurological disease | |
CN111126366A (zh) | 一种活体人脸的判别方法、装置、设备及存储介质 | |
CN112232276A (zh) | 一种基于语音识别和图像识别的情绪检测方法和装置 | |
CN112037929A (zh) | 基于多模态机器学习的分类方法、在线新冠肺炎预警模型训练方法及预警方法 | |
CN108880815A (zh) | 身份验证方法、装置和系统 | |
CN110728993A (zh) | 一种变声识别方法及电子设备 | |
CN116723793A (zh) | 基于语音分析的自动生理和病理评定 | |
CN112017690B (zh) | 一种音频处理方法、装置、设备和介质 | |
Kothalkar et al. | Automatic screening to detect’at risk’child speech samples using a clinical group verification framework | |
Guarin et al. | Video-based facial movement analysis in the assessment of bulbar amyotrophic lateral sclerosis: clinical validation | |
CN115662447B (zh) | 一种基于多特征融合的测谎分析方法及装置 | |
CN107894837A (zh) | 动态情感分析模型样本处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |