CN113673322A - 一种基于深度学习的人物表达姿态谎言检测方法及系统 - Google Patents
一种基于深度学习的人物表达姿态谎言检测方法及系统 Download PDFInfo
- Publication number
- CN113673322A CN113673322A CN202110786761.4A CN202110786761A CN113673322A CN 113673322 A CN113673322 A CN 113673322A CN 202110786761 A CN202110786761 A CN 202110786761A CN 113673322 A CN113673322 A CN 113673322A
- Authority
- CN
- China
- Prior art keywords
- text
- features
- extracting
- sound
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 32
- 238000013135 deep learning Methods 0.000 title claims abstract description 24
- 239000013598 vector Substances 0.000 claims abstract description 83
- 238000000605 extraction Methods 0.000 claims abstract description 53
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000013528 artificial neural network Methods 0.000 claims abstract description 49
- 230000009471 action Effects 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims description 35
- 230000006870 function Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 210000002569 neuron Anatomy 0.000 claims description 8
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 230000009467 reduction Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 239000000284 extract Substances 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- -1 compresses Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/18—Artificial neural networks; Connectionist approaches
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Human Computer Interaction (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明提出了一种基于深度学习的人物表达姿态谎言检测方法及系统,涉及深度学习领域。一种基于深度学习的人物表达姿态谎言检测方法包括:对训练视频进行提取文本;对提取出来的文本进行处理,转化为词向量;对训练视频进行声音提取,并生成预训练声音特征提取网络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理;使用文本特征神经网络对词向量特征进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图像特征进行提取;将提取后的声音、文本、图像特征向量与动作细节特征合并后,使用分类网络进行分类。此外本发明还提出了一种基于深度学习的人物表达姿态谎言检测系统。
Description
技术领域
本发明涉及深度学习领域,具体而言,涉及一种基于深度学习的人物 表达姿态谎言检测方法及系统。
背景技术
智能测谎分析系统是电子、计算机、自动化等技术发展到一定程度的 必然产物,许多智能化音视频分析系统已成为我国解决证据可信度的有效 工具。近年来我国密集出台多项政策用以支持计算机视觉技术及语音识别 技术的发展,随着我国计算机视觉技术及语音识别技术趋于成熟。
传统的语言真实性判断主要通过手动记录文字信息,由多轮人工反复 审核、验证的方式,确认发言人所说是否属实。该方法耗费大量时间成本 与人工成本,且常规判断语言真实性的方式掺杂了主观判断、理解偏差等 诸多主观因素,使得采信效率低,时效性与准确性有待提升。
发明内容
本发明的目的在于提供一种基于深度学习的人物表达姿态谎言检测方 法,其能够提高如作证、采证和音视频取证等需要判断语言真实性的工作 的效率,大幅度提升判断语言真伪的时效性与准确性。
本发明的另一目的在于提供一种基于深度学习的人物表达姿态谎言检 测系统,其能够运行一种基于深度学习的人物表达姿态谎言检测方法。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种基于深度学习的人物表达姿态谎言 检测方法,其包括对训练视频进行提取文本;对提取出来的文本进行处理, 转化为词向量;对训练视频进行声音提取,并生成预训练声音特征提取网 络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理;使用 文本特征神经网络对词向量特征进行提取,使用声音特征神经网络对声音 特征进行提取,使用图像特征神经网络对图像特征进行提取;将提取后的声音、文本、图像特征向量与动作细节特征合并后,使用分类网络进行分 类。
在本发明的一些实施例中,上述对提取出来的文本进行处理,转化为 词向量包括:根据视频文件的路径,得到批量处理文本文件的路径,按照 如所述路径,遍历所有文本文件,将得到的词汇加入target_vocabulary 中,生成目标词汇表,使用sorted函数将所述目标词汇表按字母序排序; 按照得到的目标词汇表,得到每个词汇对应的参数index,读取每个句子, 将index参数加入该句子对应的向量vect;将文件名、句子向量、可信标 签列为表格,得到text_data,将text_data按index顺序压缩为 Text_Dataset.pkl。
在本发明的一些实施例中,上述对训练视频进行声音提取,并生成预 训练声音特征提取网络,对训练视频进行图片提取,逐帧分割、对分割后 的图像预处理包括:根据视频文件的路径,使用ffmpeg在视频中提取音频, 生成待处理音频文件列表;使用sox将所述待处理音频文件进行降噪处理, 得到降噪后的音频文件;将得到的降噪后的音频文件,用opensmile抽取 特征,得到音频文件对应的特征向量;将文件名、音频、可信标签列为表格,得到audio_data,将audio_data按index顺序压缩为 Audio_Dataset.pkl;将得到的特征向量输入到两个全链接层训练,得到音 频的模型文件。
在本发明的一些实施例中,上述对训练视频进行声音提取,并生成预 训练声音特征提取网络,对训练视频进行图片提取,逐帧分割、对分割后 的图像预处理包括:根据视频文件的路径,得到批量处理图像数据的路径, 按照所述路径,遍历所有视频文件,将视频文件逐帧分割为图片序列;将 得到的图片序列,进行裁剪,得到大小一致的图片序列,将裁剪过的图片 序列,使用sorted函数排序;收集图片序列的元数据,包括文件路径,文 件名及序列长度;使用Image_dataset_creation模块将图片转换为矩阵格 式;将图片信息按index顺序转换为video_metadata.csv。
在本发明的一些实施例中,上述使用文本特征神经网络对词向量特征 进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神 经网络对图像特征进行提取包括:使用Embedding网络层对文本特征进行 嵌入,将高维的原始数据映射到低维流形,对低维流形数据进行维度变化, 将一维与二维对换;使用若干一维卷积神经网络对低维流形数据进行特征 多次抽取,将抽取后的特征进行平铺;将平铺后的特征输入全连接层,得到文本特征提取网络的输出,该输出为最终提取出的文本特征。
在本发明的一些实施例中,上述使用文本特征神经网络对词向量特征 进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神 经网络对图像特征进行提取包括:将声音数据载入audio_model声音模型, 将量化特征转化为向量特征,对携带声音数据的神经元进行Relu函数激活; 对携带声音数据的神经元进行丢弃操作,缓解过拟合的发生,将丢弃操作 后得到的声音特征作为声音提取网络的输出。
在本发明的一些实施例中,上述使用文本特征神经网络对词向量特征 进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神 经网络对图像特征进行提取包括:对数据进行维度变化,将一维与二维对 换,使用若干次三维卷积神经网络对数据进行特征多次抽取;将抽取后的 特征进行三维池化,将池化后的特征输入全连接层,得到图像特征提取网 络的输出,该输出为最终提取出的图像特征。
在本发明的一些实施例中,上述将提取后的声音、文本、图像特征向 量与动作细节特征合并后,使用分类网络进行分类包括:读取输出的文字 特征向量参数、读取输出的声音特征向量参数、读取输出的图像特征向量 参数及读取动作细节向量参数;计文本音频图像三种模态的特征向量的哈 达玛积,将计算得到的哈达玛积与人物表达姿态细节向量连接在一起,该 输出用于计算文本音频图像三种模态与人物表达姿态细节之间的相关性。
第二方面,本申请实施例提供一种基于深度学习的人物表达姿态谎言 检测系统,其包括提取文本模块,用于对训练视频进行提取文本;
转化模块,用于对提取出来的文本进行处理,转化为词向量;
预处理模块,用于对训练视频进行声音提取,并生成预训练声音特征 提取网络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理;
特征提取模块,用于使用文本特征神经网络对词向量特征进行提取, 使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图 像特征进行提取;
分类模块,用于将提取后的声音、文本、图像特征向量与动作细节特 征合并后,使用分类网络进行分类。
在本发明的一些实施例中,上述包括:用于存储计算机指令的至少一 个存储器;与上述存储器通讯的至少一个处理器,其中当上述至少一个处 理器执行上述计算机指令时,上述至少一个处理器使上述系统执行:提取 文本模块、转化模块、预处理模块、特征提取模块及分类模块。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有 计算机程序,该计算机程序被处理器执行时实现如一种基于深度学习的人 物表达姿态谎言检测方法中任一项的方法。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
根据视频提取出文本音频图像三种模态的数据,结合视频中人物的表 达姿态细节进行谎言检测的方法:利用已有的视频文件,使用ffmpeg提取 其中的声音数据,并通过声音预处理神经网络进行模型训练;提取视频中 对话的文本数据,并进行Word2Vector转换得到文本特征向量;使用逐帧 分割技术提取视频中的图像数据;将文本、音频、图像三种模态的特征向 量的哈达玛积,与人物表达姿态细节向量相连接;计算得到人物表达姿态细节与谎言之间的相关性,并进行谎言检测。
对比于已授权的基于传感器的自动测谎方法,本发明创新点如下:
使用已有的视频文件代替传统的一系列传感器(电极感应器、心跳检 测器等)来感应受测人员,收集数据,进行语言、动作的识及侦测,大幅 度降低了设备成本。
过滤掉文档中停止词(stop word),主要包括语气助词、介词、副词、 连接词等,更加准确地识别出有效的语义信息;
遍历所有视频文件,将视频文件逐帧分割为图片序列。从而捕捉更多 连续的画面信息,避免错过转瞬即逝的细节表达。更多的信息素材有助于 谎言检测,这将显著提高测谎效率。
读取动作特征向量参数。此动作特征为人工标注的微动作特征,如面 部特征:皱眉、向上凝视、嘴角上扬,肢体特征:举起手,放下手等。对 细节的人体动作进行量化分析。对比于已有的测谎系统,本发明对于细节 动作的捕捉更胜一筹。
对比于广泛使用的常规测谎仪器,及传统的通过手动记录文字信息, 由多轮人工反复审核、验证的方式。本发明是一种应用信息技术推动社会 进步的可行方法,可以节省大量额外设备成本与人工成本,同时使得语言 的采信效率提高,相关工作的时效性与准确性得到提升。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需 要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些 实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种基于深度学习的人物表达姿态谎言检 测方法步骤示意图;
图2为本发明实施例提供的音频特征分析神经网络图。
图3为本发明实施例提供的视频特征分析神经网络图。
图4为本发明实施例提供的文本特征分析神经网络图。
图5为本发明实施例提供的MultimodalHadamardNN图。
图6为本发明实施例提供的FinalNN图。
图7为本发明实施例提供的一种基于深度学习的人物表达姿态谎言检 测系统模块示意图;
图8为本发明实施例提供的一种电子设备。
图标:10-提取文本模块;20-转化模块;30-预处理模块;40-特征提 取模块;50-分类模块;101-存储器;102-处理器;103-通信接口。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。 通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配 置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限 制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本 申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获 得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一 旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步 定义和解释。
需要说明的是,术语“包括”或者其任何其他变体意在涵盖非排他性 的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括 那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语 句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、 物品或者设备中还存在另外的相同要素。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情 况下,下述的各个实施例及实施例中的各个特征可以相互组合。
实施例1
请参阅图1,图1为本发明实施例提供的一种基于深度学习的人物表达 姿态谎言检测方法步骤示意图,其如下所示:
步骤S100,对训练视频进行提取文本;
在一些实施方式中,根据视频文件的路径,得到批量处理文本文件的 路径,按照如所述路径,遍历所有文本文件,将得到的词汇加入 target_vocabulary中,生成目标词汇表,使用sorted函数将所述目标词 汇表按字母序排序;
按照得到的目标词汇表,得到每个词汇对应的参数index,读取每个句 子,将index参数加入该句子对应的向量vect;
将文件名、句子向量、可信标签列为表格,得到text_data,将text_data 按index顺序压缩为Text_Dataset.pkl。
步骤S120,对训练视频进行声音提取,并生成预训练声音特征提取网 络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理;
在一些实施方式中,根据视频文件的路径,使用ffmpeg在视频中提取 音频,生成待处理音频文件列表;
使用sox将所述待处理音频文件进行降噪处理,得到降噪后的音频文 件;
将得到的降噪后的音频文件,用opensmile抽取特征,得到音频文件 对应的特征向量;
将文件名、音频、可信标签列为表格,得到audio_data,将audio_data 按index顺序压缩为Audio_Dataset.pkl;
将得到的特征向量输入到两个全链接层训练,得到音频的模型文件。
步骤S130,使用文本特征神经网络对词向量特征进行提取,使用声音 特征神经网络对声音特征进行提取,使用图像特征神经网络对图像特征进 行提取;
在一些实施方式中,根据视频文件的路径,得到批量处理图像数据的 路径,按照所述路径,遍历所有视频文件,将视频文件逐帧分割为图片序 列;
将得到的图片序列,进行裁剪,得到大小一致的图片序列,将裁剪过 的图片序列,使用sorted函数排序;
收集图片序列的元数据,包括文件路径,文件名及序列长度;
使用Image_dataset_creation模块将图片转换为矩阵格式;
将图片信息按index顺序转换为video_metadata.csv。
使用Embedding网络层对文本特征进行嵌入,将高维的原始数据映射 到低维流形,对低维流形数据进行维度变化,将一维与二维对换;
使用若干一维卷积神经网络对低维流形数据进行特征多次抽取,将抽 取后的特征进行平铺;
将平铺后的特征输入全连接层,得到文本特征提取网络的输出,该输 出为最终提取出的文本特征。
将声音数据载入audio_model声音模型,将量化特征转化为向量特征, 对携带声音数据的神经元进行Relu函数激活;
对携带声音数据的神经元进行丢弃操作,缓解过拟合的发生,将丢弃 操作后得到的声音特征作为声音提取网络的输出。
对数据进行维度变化,将一维与二维对换,使用若干次三维卷积神经 网络对数据进行特征多次抽取;
将抽取后的特征进行三维池化,将池化后的特征输入全连接层,得到 图像特征提取网络的输出,该输出为最终提取出的图像特征。
步骤S140,将提取后的声音、文本、图像特征向量与动作细节特征合 并后,使用分类网络进行分类。
在一些实施方式中,读取输出的文字特征向量参数、读取输出的声音 特征向量参数、读取输出的图像特征向量参数及读取动作细节向量参数;
计文本音频图像三种模态的特征向量的哈达玛积,将计算得到的哈达 玛积与人物表达姿态细节向量连接在一起,该输出用于计算文本音频图像 三种模态与人物表达姿态细节之间的相关性。
实施例2
如图2所示,本发明文本特征分析部分主要对被测人所述语句进行提 取、特征压缩、特征抽取以及特征处理。主要步骤为读取预处理过的文本 数据Text_Dataset.pkl,并使用Embedding网络层对文本特征进行嵌入, 将高维的原始数据映射到低维流形,优选地,压缩后的数据维度为300。对 映射后的低维流形数据进行维度变化,将一维与二维对换。后使用三个一 维卷积神经网络对低维流形数据进行特征平行抽取。优选地,设置第一个 一维卷积神经网络输入维度为300,输出维度为20,卷积核大小为3。优选 地,设置第一个一维卷积神经网络输入维度为300,输出维度为20,卷积 核大小为5。优选地,设置第一个一维卷积神经网络输入维度为300,输出 维度为20,卷积核大小为8。再将三个一维卷积神经网络抽取后的特征链 接后进行平铺。将平铺后的特征输入全连接层,得到文本特征提取网络的输出,该输出为最终提取出的文本特征,优选地,设置该全连接层的输入 维度为3800,输出维度为300。
如图3所示,本发明语音特征分析部分主要对被测人声音的脉冲编码 调制后的参数进行提取及分析。首先,其通过sox、opensmile等提取出声 音的脉冲编码调制参数,再将声音数据载入audio_model声音模型,将量 化特征提取压缩为向量特征。对携带声音数据的神经元进行Relu函数激活、 丢弃操作后,作为声音特征输出。优选地,设置丢弃率为0.5。
如图4所示,本发明图像特征分析部分主要对被测人逐帧图像信息进 行提取及分析。首先对图像数据进行逐帧抽取、裁剪、归一化,并将逐帧 抽取的二维图像堆叠成三维图像后作为神经网络的输入。使用三次三维卷 积神经网络对数据进行特征抽取。优选地,设置第一层三位卷积神经网络 输入维度为3,输出维度为32,卷积核大小为5,步长为1;设置第二层三 位卷积神经网络输入维度为32,输出维度为16,卷积核大小为5,步长为 1;设置第三层三位卷积神经网络输入维度为16,输出维度为8,卷积核大 小为5,步长为1。将抽取后的特征进行三维池化,优选地,设置卷积核大 小为3。将S73中池化后的特征输入全连接层,得到图像特征提取网络的输 出,该输出为最终提取出的图像特征。优选地,设置全连接层的输入维度 为3872,输出维度为300。
如图5所示,将提取后的声音、文本、图像特征向量与动作特征合并, 使用分类网络进行分类得出是否说谎。分别读取文本分析网络输出的文字 特征向量参数、声音分析网络输出的声音特征向量参数、图像分析网络输 出的图像特征向量参数。并读取动作特征向量参数,此动作特征为人工标 注的微动作特征,如面部特征:皱眉、向上凝视、嘴角上扬,肢体特征: 举起手,放下手等。计算文本、音频、图像三种模态的特征向量的哈达玛 积,公式如下:
将计算得到的哈达玛积与人物表达姿态细节向量水平拼接在一起。优 选地,设置人物动作细节特征向量维度为39维。拼接在一起的特征向量为 339维。将得到的特征向量输入到分类层中,得到最终结果。此为前向传播 过程。
如图6所示,分类层由两个全连接层组成。优选地,设置第一个全连 接层输入维度为339,输出维度为1024。在第一个全连接层后加Relu激活 层。优选地,设置第二个全连接层输入维度为1024,输出维度为2。若是 测试过程,将S87中得到的结果排序后,选取最大值所对应的类别即为最 终输出结果。若是训练过程,使用交叉熵损失函数计算loss,并使用Adam 算法优化训练过程,进行反向传播,直到网络收敛为止。
实施例3
请参阅图7,图7为本发明实施例提供的一种基于深度学习的人物表达 姿态谎言检测系统模块示意图,其如下所示:
提取文本模块10,用于对训练视频进行提取文本;
转化模块20,用于对提取出来的文本进行处理,转化为词向量;
预处理模块30,用于对训练视频进行声音提取,并生成预训练声音特 征提取网络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处 理;
特征提取模块40,用于使用文本特征神经网络对词向量特征进行提取, 使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图 像特征进行提取;
分类模块50,用于将提取后的声音、文本、图像特征向量与动作细节 特征合并后,使用分类网络进行分类。
如图8所示,本申请实施例提供一种电子设备,其包括存储器101,用 于存储一个或多个程序;处理器102。当一个或多个程序被处理器102执行 时,实现如上述第一方面中任一项的方法。
还包括通信接口103,该存储器101、处理器102和通信接口103相互 之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件 相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101 可用于存储软件程序及模块,处理器102通过执行存储在存储器101内的 软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103 可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器101 (Random Access Memory,RAM),只读存储器101(Read Only Memory, ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM), 可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM), 电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器 102可以是通用处理器102,包括中央处理器102 (Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器 件、分立硬件组件。
在本申请所提供的实施例中,应该理解到,所揭露的方法及系统和方 法,也可以通过其它的方式实现。以上所描述的方法及系统实施例仅仅是 示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例 的方法及系统、方法和计算机程序产品的可能实现的体系架构、功能和操 作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或 代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方 式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例 如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反 的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中 的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功 能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机 指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个 独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集 成形成一个独立的部分。
另一方面,本申请实施例提供一种计算机可读存储介质,其上存储有 计算机程序,该计算机程序被处理器102执行时实现如上述第一方面中任 一项的方法。所述功能如果以软件功能模块的形式实现并作为独立的产品 销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理 解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技 术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在 一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计 算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部 或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器101(ROM, Read-Only Memory)、随机存取存储器101(RAM,Random Access Memory)、 磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请实施例提供的一种基于深度学习的人物表达姿态谎 言检测方法及系统,根据视频提取出文本音频图像三种模态的数据,结合 视频中人物的表达姿态细节进行谎言检测的方法:利用已有的视频文件, 使用ffmpeg提取其中的声音数据,并通过声音预处理神经网络进行模型训 练;提取视频中对话的文本数据,并进行Word2Vector转换得到文本特征 向量;使用逐帧分割技术提取视频中的图像数据;将文本、音频、图像三种模态的特征向量的哈达玛积,与人物表达姿态细节向量相连接;计算得 到人物表达姿态细节与谎言之间的相关性,并进行谎言检测。
对比于已授权的基于传感器的自动测谎方法,本发明创新点如下:
使用已有的视频文件代替传统的一系列传感器(电极感应器、心跳检 测器等)来感应受测人员,收集数据,进行语言、动作的识及侦测,大幅 度降低了设备成本。
过滤掉文档中停止词(stop word),主要包括语气助词、介词、副词、 连接词等,更加准确地识别出有效的语义信息;
遍历所有视频文件,将视频文件逐帧分割为图片序列。从而捕捉更多 连续的画面信息,避免错过转瞬即逝的细节表达。更多的信息素材有助于 谎言检测,这将显著提高测谎效率。
读取动作特征向量参数。此动作特征为人工标注的微动作特征,如面 部特征:皱眉、向上凝视、嘴角上扬,肢体特征:举起手,放下手等。对 细节的人体动作进行量化分析。对比于已有的测谎系统,本发明对于细节 动作的捕捉更胜一筹。
对比于广泛使用的常规测谎仪器,及传统的通过手动记录文字信息, 由多轮人工反复审核、验证的方式。本发明是一种应用信息技术推动社会 进步的可行方法,可以节省大量额外设备成本与人工成本,同时使得语言 的采信效率提高,相关工作的时效性与准确性得到提升。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领 域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节, 而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式 实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的, 而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定, 因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在 本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要 求。
Claims (10)
1.一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,包括:
对训练视频进行提取文本;
对提取出来的文本进行处理,转化为词向量;
对训练视频进行声音提取,并生成预训练声音特征提取网络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理;
使用文本特征神经网络对词向量特征进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图像特征进行提取;
将提取后的声音、文本、图像特征向量与动作细节特征合并后,使用分类网络进行分类。
2.如权利要求1所述的一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,所述对提取出来的文本进行处理,转化为词向量包括:
根据视频文件的路径,得到批量处理文本文件的路径,按照如所述路径,遍历所有文本文件,将得到的词汇加入target_vocabulary中,生成目标词汇表,使用sorted函数将所述目标词汇表按字母序排序;
按照得到的目标词汇表,得到每个词汇对应的参数index,读取每个句子,将index参数加入该句子对应的向量vect;
将文件名、句子向量、可信标签列为表格,得到text_data,将text_data按index顺序压缩为Text_Dataset.pkl。
3.如权利要求1所述的一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,所述对训练视频进行声音提取,并生成预训练声音特征提取网络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理包括:
根据视频文件的路径,使用ffmpeg在视频中提取音频,生成待处理音频文件列表;
使用sox将所述待处理音频文件进行降噪处理,得到降噪后的音频文件;
将得到的降噪后的音频文件,用opensmile抽取特征,得到音频文件对应的特征向量;
将文件名、音频、可信标签列为表格,得到audio_data,将audio_data按index顺序压缩为Audio_Dataset.pkl;
将得到的特征向量输入到两个全链接层训练,得到音频的模型文件。
4.如权利要求1所述的一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,所述对训练视频进行声音提取,并生成预训练声音特征提取网络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理包括:
根据视频文件的路径,得到批量处理图像数据的路径,按照所述路径,遍历所有视频文件,将视频文件逐帧分割为图片序列;
将得到的图片序列,进行裁剪,得到大小一致的图片序列,将裁剪过的图片序列,使用sorted函数排序;
收集图片序列的元数据,包括文件路径,文件名及序列长度;
使用Image_dataset_creation模块将图片转换为矩阵格式;
将图片信息按index顺序转换为video_metadata.csv。
5.如权利要求1所述的一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,所述使用文本特征神经网络对词向量特征进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图像特征进行提取包括:
使用Embedding网络层对文本特征进行嵌入,将高维的原始数据映射到低维流形,对低维流形数据进行维度变化,将一维与二维对换;
使用若干一维卷积神经网络对低维流形数据进行特征多次抽取,将抽取后的特征进行平铺;
将平铺后的特征输入全连接层,得到文本特征提取网络的输出,该输出为最终提取出的文本特征。
6.如权利要求1所述的一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,所述使用文本特征神经网络对词向量特征进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图像特征进行提取包括:
将声音数据载入audio_model声音模型,将量化特征转化为向量特征,对携带声音数据的神经元进行Relu函数激活;
对携带声音数据的神经元进行丢弃操作,缓解过拟合的发生,将丢弃操作后得到的声音特征作为声音提取网络的输出。
7.如权利要求1所述的一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,所述使用文本特征神经网络对词向量特征进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图像特征进行提取包括:
对数据进行维度变化,将一维与二维对换,使用若干次三维卷积神经网络对数据进行特征多次抽取;
将抽取后的特征进行三维池化,将池化后的特征输入全连接层,得到图像特征提取网络的输出,该输出为最终提取出的图像特征。
8.如权利要求1所述的一种基于深度学习的人物表达姿态谎言检测方法,其特征在于,所述将提取后的声音、文本、图像特征向量与动作细节特征合并后,使用分类网络进行分类包括:
读取输出的文字特征向量参数、读取输出的声音特征向量参数、读取输出的图像特征向量参数及读取动作细节向量参数;
计文本音频图像三种模态的特征向量的哈达玛积,将计算得到的哈达玛积与人物表达姿态细节向量连接在一起,该输出用于计算文本音频图像三种模态与人物表达姿态细节之间的相关性。
9.一种基于深度学习的人物表达姿态谎言检测系统,其特征在于,包括:
提取文本模块,用于对训练视频进行提取文本;
转化模块,用于对提取出来的文本进行处理,转化为词向量;
预处理模块,用于对训练视频进行声音提取,并生成预训练声音特征提取网络,对训练视频进行图片提取,逐帧分割、对分割后的图像预处理;
特征提取模块,用于使用文本特征神经网络对词向量特征进行提取,使用声音特征神经网络对声音特征进行提取,使用图像特征神经网络对图像特征进行提取;
分类模块,用于将提取后的声音、文本、图像特征向量与动作细节特征合并后,使用分类网络进行分类。
10.如权利要求9所述的一种基于深度学习的人物表达姿态谎言检测系统,其特征在于,包括:
用于存储计算机指令的至少一个存储器;
与所述存储器通讯的至少一个处理器,其中当所述至少一个处理器执行所述计算机指令时,所述至少一个处理器使所述系统执行:提取文本模块、转化模块、预处理模块、特征提取模块及分类模块。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786761.4A CN113673322A (zh) | 2021-07-12 | 2021-07-12 | 一种基于深度学习的人物表达姿态谎言检测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110786761.4A CN113673322A (zh) | 2021-07-12 | 2021-07-12 | 一种基于深度学习的人物表达姿态谎言检测方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113673322A true CN113673322A (zh) | 2021-11-19 |
Family
ID=78538929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110786761.4A Withdrawn CN113673322A (zh) | 2021-07-12 | 2021-07-12 | 一种基于深度学习的人物表达姿态谎言检测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113673322A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522212A (zh) * | 2023-07-05 | 2023-08-01 | 清华大学 | 基于图像文本融合的谎言检测方法、装置、设备及介质 |
-
2021
- 2021-07-12 CN CN202110786761.4A patent/CN113673322A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522212A (zh) * | 2023-07-05 | 2023-08-01 | 清华大学 | 基于图像文本融合的谎言检测方法、装置、设备及介质 |
CN116522212B (zh) * | 2023-07-05 | 2023-09-26 | 清华大学 | 基于图像文本融合的谎言检测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188194B (zh) | 一种基于多任务学习模型的假新闻检测方法及系统 | |
WO2020164278A1 (zh) | 一种图像处理方法、装置、电子设备和可读存储介质 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN111476023A (zh) | 识别实体关系的方法及装置 | |
CN111831790A (zh) | 一种基于低门限集成与文本内容匹配的虚假新闻识别方法 | |
CN108108354A (zh) | 一种基于深度学习的微博用户性别预测方法 | |
CN113469214A (zh) | 虚假新闻检测方法、装置、电子设备和存储介质 | |
CN112926332A (zh) | 一种实体关系联合抽取方法及装置 | |
CN113704396A (zh) | 短文本分类方法、装置、设备及存储介质 | |
CN112784580A (zh) | 基于事件抽取的金融数据分析方法及装置 | |
CN116597406A (zh) | 基于多模态的用户意图车型识别方法及装置、存储介质 | |
CN116150651A (zh) | 基于ai的深度合成检测方法和系统 | |
CN114881668A (zh) | 一种基于多模态的欺骗检测方法 | |
CN113673322A (zh) | 一种基于深度学习的人物表达姿态谎言检测方法及系统 | |
CN114372532A (zh) | 标签标注质量的确定方法、装置、设备、介质及产品 | |
CN111523301B (zh) | 合同文档合规性检查方法及装置 | |
CN112541082A (zh) | 一种文本情感分类方法及系统 | |
Srinivas et al. | Forged File Detection and Steganographic content Identification (FFDASCI) using Deep Learning Techniques. | |
CN115357718A (zh) | 主题集成服务重复材料发现方法、系统、设备和存储介质 | |
CN113761126A (zh) | 文本内容的识别方法、装置、设备及可读存储介质 | |
CN113515633B (zh) | 基于计算机视觉的屏幕浏览场景分类方法 | |
Abdella et al. | Detection of Emotions in Afan Oromo Social Media Texts Using Deep Learning Method | |
CN116662585B (zh) | 一种基于校园题库的数字信息检测方法及检测系统 | |
US20240062569A1 (en) | Optical character recognition filtering | |
US20240144909A1 (en) | Apparatus and methods for generating and transmitting simulated communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20211119 |