CN112329748A - 面向交互场景的自动谎言检测方法、装置、设备及介质 - Google Patents

面向交互场景的自动谎言检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN112329748A
CN112329748A CN202110001077.0A CN202110001077A CN112329748A CN 112329748 A CN112329748 A CN 112329748A CN 202110001077 A CN202110001077 A CN 202110001077A CN 112329748 A CN112329748 A CN 112329748A
Authority
CN
China
Prior art keywords
time
features
sentence
short
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110001077.0A
Other languages
English (en)
Other versions
CN112329748B (zh
Inventor
陶建华
连政
刘斌
孙立才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110001077.0A priority Critical patent/CN112329748B/zh
Publication of CN112329748A publication Critical patent/CN112329748A/zh
Application granted granted Critical
Publication of CN112329748B publication Critical patent/CN112329748B/zh
Priority to US17/389,364 priority patent/US11238289B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/164Lie detection
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • G06V40/176Dynamic expression
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Psychiatry (AREA)
  • Surgery (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Developmental Disabilities (AREA)
  • Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Educational Technology (AREA)
  • Hospice & Palliative Care (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Fuzzy Systems (AREA)
  • Evolutionary Biology (AREA)

Abstract

本申请实施例涉及一种面向交互场景的自动谎言检测方法、装置、设备及介质,旨在提高自动谎言检测的准确率。所述方法包括:将待测样片分别按照视频、音频和文本这三个模态进行切分,提取出这三个模态的短时特征,将待测样片中每句对话中三个模态的短时特征分别进行融合,得到每句对话对应的三个模态的长时特征,使用自注意力机制对三个模态的长时特征进行融合,得到每句对话的多模态特征,通过图神经网络为每句对话的多模态特征融合交互信息,得到融合交互信息的多模态特征,根据融合交互信息的多模态特征,预测每句对话的谎言水平。

Description

面向交互场景的自动谎言检测方法、装置、设备及介质
技术领域
本申请实施例涉及谎言分析技术领域,具体而言,涉及一种面向交互场景的自动谎言检测方法、装置、设备及介质。
背景技术
自动谎言检测技术是总结人在说谎和非说谎条件下,面部表情、语音、文本的变化规律,提出相应的模型和方法来建立起机器在捕获谎言线索方面的能力。自动谎言检测在安全领域具有广泛的应用前景,能够帮助刑侦人员加快审讯速度,提升审讯效率。现有的自动谎言检测方法是分别对人说每句话时的面部表情、语音进行分析,判断此人这句话是否是谎言。
现有技术中存在的问题是,当被测人员说话时,只分析被测人员当前一句话的面部表情、语音,并未将被测人员的面部表情和语音结合起来进行考虑,忽略了被测人员人之前时刻的谎言状态对当前时刻的谎言状态的影响,还忽略了被测人员和与其对话人员之间的交互信息,检测结果不准确。
发明内容
本申请实施例提供一种面向交互场景的自动谎言检测方法、装置、设备及介质,旨在提高自动谎言检测的准确率。
本申请实施例第一方面提供一种面向交互场景的自动谎言检测方法,所述方法包括:
输入待测样片;
将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息;
根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征;
将所述待测样片中每句对话中包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征;
将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征;
将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的;
根据所述融合交互信息的多模态特征预测所述每句对话的谎言水平。
可选地,将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息,包括:
将所述待测样片的视频按照秒为单位进行切分,将所述待测样片中一秒内出现的所有的图像帧作为一个时间段内的视频信息,并将所述视频信息中的所有图像帧归一化,得到尺寸为第一预设尺寸的图像;
将所述待测样片的音频按照秒为单位进行切分,将所述待测样片中一秒内出现所有的音频采样点作为一个时间内的音频信息;
将所述待测样片的文本按照秒为单位进行切分,将所述待测样片中一秒内说话人说出的文字作为一个时间段内的文本信息。
可选地,根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征,包括:
从所述多个时间段内的短时视频信息中抽取出人脸区域图像;
对所述人脸区域图像进行矫正和归一化操作,得到尺寸为第二预设大小的标准人脸图像;
利用预先训练的表情识别网络,从所述标准人脸图像中抽取出隐含层特征表示,得到标准人脸特征;
对所述标准人脸特征进行特征统计,得到一个时间段内的所述标准人脸特征,作为述短时视频特征;
通过计算得到所述多个时间段内的音频信息中的韵律特征、音质特征和普参数特征及其统计量,作为所述短时音频特征;
通过计算得到所述多个时间段内的文本信息中的词向量及其统计量,作为所述短时文本特征。
可选地,将所述待测样片中每句对话包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征,包括:
抽取所述待测样片中每句对话包含的所有短时视频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时视频特征进行计算,得到所述待测样片中每句对话的长时视频特征;
抽取所述待测样片中每句对话包含的所有短时音频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时音频特征进行计算,得到所述待测样片中每句对话的长时音频特征;
抽取所述待测样片中每句对话包含的所有短时文本特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时文本特征进行计算,得到所述待测样片中每句对话的长时文本特征。
可选地,将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的,包括:
将所述长时视频特征、长时音频特征和长时文本特征进行拼接,得到多模态拼接特征;
计算每个模态的注意力权重,依据所述注意力权重对所述多模态拼接特征进行融合,得到所述待测样片中每句对话的多模态特征,一个模态为视频、音频或文本。
可选地,将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,包括:
将所述每句对话的多模态特征作为所述图神经网络中每个句子节点的特征表示,将所述每句对话对应的说话人信息作为所述图神经网络中每个说话人节点的特征表示;
将所述图神经网络中每个句子节点与其邻域内的句子使用边进行连接,建立所述待测样片中每句对话之间的时序关系模型,得到所述待测样片中每句对话的时序关系;其中,连接所述句子节点的边分为两种类型,一种是前向边,一种是后向边,所述前向边的出发节点时序靠后,所述前向边指向的节点时序靠前,所述后向边的出发节点时序靠前,所述后向边指向的节点时序靠后;
将所述图神经网络中每个句子节点与该句子节点对应的说话人节点使用边进行连接,建立所述待测样片中每句对话的说话人信息模型,得到所述待测样片中每句对话与对应说话人之间的关系;
将所述每句对话的多模态特征与所述时序关系和所述每句对话与对应说话人之间的关系进行融合,得到所述融合交互信息的多模态特征。
可选地,抽取所述待测样片中每句对话包含的所有短时视频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时视频特征进行计算,得到所述待测样片中每句对话的长时视频特征,包括:
将所述待测样片中每句对话包含的短时视频特征赋值到三个变量之中,对所述三个变量进行m次线性映射,记录从第一次映射到第m次映射中每一次映射后的三个变量;
对所述每一次映射后的三个变量进行注意力计算,根据计算得到的注意力权重进行加权求和,得到每一次映射后的短时视频特征;
将所述每一次映射后的短时视频特征按顺序进行拼接,得到融合时序信息的短时视频特征;
对所述融合时序信息的短时视频特征进行注意力计算,根据计算等得到的注意力权重对所述融合时序信息的短时视频特征进行加权求和,得到所述待测样片中每句对话的长时视频特征;所述长时音频特征与所述长时文本特征的计算方法与所述长时视频特征的计算方法相同。
本申请实施例第二方面提供一种面向交互场景的自动谎言检测装置,所述装置包括:
样片输入模块,用于输入待测样片;
样片切分模块,用于将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息;
短时特征提取模块,用于根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征;
长时特征提取模块,用于将所述待测样片中每句对话中包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征;
多模态融合模块,用于将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征;
交互建模模块,用于将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的;
谎言水平预测模块,用于根据所述融合交互信息的多模态特征预测所述每句对话的谎言水平。
可选地,所述样片切分模块包括:
视频切分子模块,用于将所述待测样片的视频按照秒为单位进行切分,将所述待测样片中一秒内出现的所有的图像帧作为一个时间段内的视频信息,并将所述视频信息中的所有图像帧归一化,得到尺寸为第一预设尺寸的图像;
音频切分子模块,用于将所述待测样片的音频按照秒为单位进行切分,将所述待测样片中一秒内出现所有的音频采样点作为一个时间内的音频信息;
文本切分子模块,用于将所述待测样片的文本按照秒为单位进行切分,将所述待测样片中一秒内说话人说出的文字作为一个时间段内的文本信息。
可选地,所述短时特征提取模块包括:
第一图像抽取子模块,用于从所述多个时间段内的短时视频信息中抽取出人脸区域图像;
第一图像处理子模块,用于对所述人脸区域图像进行矫正和归一化操作,得到尺寸为第二预设大小的标准人脸图像;
表情识别子模块,用于利用预先训练的表情识别网络,从所述标准人脸图像中抽取出隐含层特征表示,得到标准人脸特征;
短时视频特征提取子模块,用于对所述标准人脸特征进行特征统计,得到一个时间段内的所述标准人脸特征,作为述短时视频特征;
短时音频特征提取子模块,用于通过计算得到所述多个时间段内的音频信息中的韵律特征、音质特征和普参数特征及其统计量,作为所述短时音频特征;
短时文本特征提取子模块,用于通过计算得到所述多个时间段内的文本信息中的词向量及其统计量,作为所述短时文本特征。
可选地,所述长时特征提取模块包括:
长时视频特征提取子模块,用于抽取所述待测样片中每句对话包含的所有短时视频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时视频特征进行计算,得到所述待测样片中每句对话的长时视频特征;
长时音频特征提取子模块,用于抽取所述待测样片中每句对话包含的所有短时音频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时音频特征进行计算,得到所述待测样片中每句对话的长时音频特征;
长时文本特征提取子模块,用于抽取所述待测样片中每句对话包含的所有短时文本特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时文本特征进行计算,得到所述待测样片中每句对话的长时文本特征。
可选地,所述多模态特征融合模块包括:
特征拼接子模块,用于将所述长时视频特征、长时音频特征和长时文本特征进行拼接,得到多模态拼接特征;
多模态特征计算子模块,用于计算每个模态的注意力权重,依据所述注意力权重对所述多模态拼接特征进行融合,得到所述待测样片中每句对话的多模态特征,一个模态为视频、音频或文本。
可选地,所述交互建模模块包括:
节点表示子模块,用于将所述每句对话的多模态特征作为所述图神经网络中每个句子节点的特征表示,将所述每句对话对应的说话人信息作为所述图神经网络中每个说话人节点的特征表示;
时序关系建立子模块,用于将所述图神经网络中每个句子节点与其邻域内的句子使用边进行连接,建立所述待测样片中每句对话之间的时序关系模型,得到所述待测样片中每句对话的时序关系;其中,连接所述句子节点的边分为两种类型,一种是前向边,一种是后向边,所述前向边的出发节点时序靠后,所述前向边指向的节点时序靠前,所述后向边的出发节点时序靠前,所述后向边指向的节点时序靠后;
人物关系建立子模块,用于将所述图神经网络中每个句子节点与该句子节点对应的说话人节点使用边进行连接,建立所述待测样片中每句对话的说话人信息模型,得到所述待测样片中每句对话与对应说话人之间的关系;
融合交互子模块,用于将所述每句对话的多模态特征与所述时序关系和所述每句对话与对应说话人之间的关系进行融合,得到所述融合交互信息的多模态特征。
可选的,所述长时视频特征提取子模块包括:
特征映射子模块,用于将所述待测样片中每句对话包含的短时视频特征赋值到三个变量之中,对所述三个变量进行m次线性映射,记录从第一次映射到第m次映射中每一次映射后的三个变量;
第一短时视频特征计算子模块,用于对所述每一次映射后的三个变量进行注意力计算,根据计算得到的注意力权重进行加权求和,得到每一次映射后的短时视频特征;
第二短时视频特征计算子模块,用于将所述每一次映射后的短时视频特征按顺序进行拼接,得到融合时序信息的短时视频特征;
长时视频特征计算子模块,用于对所述融合时序信息的短时视频特征进行注意力计算,根据计算等得到的注意力权重对所述融合时序信息的短时视频特征进行加权求和,得到所述待测样片中每句对话的长时视频特征;所述长时音频特征与所述长时文本特征的计算方法与所述长时视频特征的计算方法相同。
本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
采用本申请提供的自动谎言检测方法,对待测样片中的视频、音频和文本分别以秒为单位进行切分,得到短时视频信息、短时音频信息和短时文本信息。从多个短时视频信息、短时音频信息和短时文本信息中提取出多个短时视频特征、短时音频特征和短时文本特征。将多个短时视频信息聚合成句子级别的长时视频特征,将多个短时音频特征聚合成句子级别的长时音频特征,将多个短时文本特征聚合成句子级别的长时文本特征。利用自注意力机制将长时视频特征、长时音频特征和长时文本特征融合成多模态特征,将多模态特征和人物信息特征输入图神经网络中,得到融合了交互信息的多模态特征,人物信息特征是由预先训练好的人物信息识别网络提取出来的。根据融合了交互信息的多模态特征对对话的谎言水平进行预测。这种方法通过自注意力机制将视频、音频和文本特征融合成了多模态特征,将三种模态的特征结合起来进行考虑,并且通过图神经网络建模了对话的时序信息与每个句子与对应的说话人之间的信息,将多模态特征与交互信息进行融合考虑,提高了谎言检测的准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的面向交互场景的自动谎言检测方法的流程图;
图2是本申请一实施例提出的面向交互场景的自动谎言检测装置的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的面向交互场景的自动谎言检测方法的流程图。如图1所示,该方法包括以下步骤:
S11:输入待测样片。
本实施例中,待测样片可以是一段对话视频,对话视频中需要有人的面部特征,对话的语音即可,在此不做限制。
S12:将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息。
本实施例中,待测样片中的画面是视频,待测样片中的语音是音频,待测样片中每句对话的内容是文本。将视频、音频和文本切分成较短的片段,可以更加有效的提取每句对话的特征,有助于谎言检测准确率的提升。
本实施例中,将待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息的具体步骤为:
S12-1:将所述待测样片的视频按照秒为单位进行切分,将所述待测样片中一秒内出现的所有的图像帧作为一个时间段内的视频信息,并将所述视频信息中的所有图像帧归一化,得到尺寸为第一预设尺寸的图像。
本实施例中,从视频中可以看出人面部表情的特征变化,将视频以秒为单位进行切分,将一秒内的所有的图像帧作为一个时间段内的视频信息,所有的图像帧不能出现重叠,即切分时间不能出现重叠。例如,待测样片时长为60秒,待测样片的帧率为25帧/秒,则将这25帧的画面作为一个时间段内的视频信息,即取0-1秒内的25帧画面作为第一个时间段内的视频信息,1-2秒内的25帧画面作为第二个时间段内的视频信息,直至59-60秒内的25帧画面作为第60个时间段内的视频信息。
本实施例中,将视频中的所有图像帧进行归一化以便于对图像的进一步处理,例如,可以将所有图像帧归一化到300×300大小。
S12-2:将所述待测样片的音频按照秒为单位进行切分,将所述待测样片中一秒内出现所有的音频采样点作为一个时间内的音频信息。
本实施例中,通过待测样片中的音频信息可以提取到说话人的声音,说话语气,说话速度等信息。将一秒内出现的所有的音频采样点作为一个时间段内的音频信息,音频采样点不能出现重叠,即切分的时间段不能出现重叠。例如,待测样片时长为60秒,待测样片的音频采样率为16000采样点/秒,那么,将0-1秒内的16000个采样点作为第一个时间段内的音频信息,将1-2秒内的16000个采样点作为第二个时间段内的音频信息,直至59-60秒内的16000个采样点作为第60个时间段内的音频信息。
S12-3:将所述待测样片的文本按照秒为单位进行切分,将所述待测样片中一秒内说话人说出的文字作为一个时间段内的文本信息。
本实施例中,待测样片的文本为样片中说话人说话内容,结合说话人的用词,前后文的信息也有助于谎言的检测,将一秒内出现的所有文字作为一个时间段内的文本信息,文字不能出现重叠,即切分的时间段不能出现重叠。
例如,待测样片时长为60秒,那么将0-1秒内出现的文字作为第一个时间段内的文本信息,将1-2秒内出现的文字作为第二个时间段内的文本信息,直至第59-60秒内出现的文字作为第60个时间段内的文本信息。
S13:根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征。
本实施例中,短时视频特征、短时音频特征,短时文本特征实质上是包含了短时视频特征、短时音频特征和短时文本特征的向量。
本实施例中,根据多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征的具体步骤为:
S13-1:从所述多个时间段内的短时视频信息中抽取出人脸区域图像。
本实施例中,神经网络对接收到的短时视频信息进行处理,可以抽取出人脸区域的图像,抽取出人脸区域图像,用于对说话人的面部特征进行提取。
S13-2:对所述人脸区域图像进行矫正和归一化操作,得到尺寸为第二预设大小的标准人脸图像。
本实施例中,先对人脸区域图像进行矫正,矫正的目的是将人脸区域图像中的人脸矫正到一个正常角度,这样有利于人脸信息的提取。将人脸矫正到正常角度后将图像再次进行归一化,得到尺寸为第二预设大小的标准人脸图像,例如100×100大小的标准人脸图像。
S13-3:利用预先训练的表情识别网络,从所述标准人脸图像中抽取出隐含层特征表示,得到标准人脸特征。
本实施例中,利用收集的好的标注了表情的图片可以训练出表情识别网络,从标准人脸图像中抽取出隐含层特征表示,就是人脸图像进入神经网络之后,隐藏层对人脸图像的每个像素点进行分析,从而的到人的面部表情特征。
S13-4:对所述标准人脸特征进行特征统计,得到一个时间段内的所述标准人脸特征,作为述短时视频特征。
本实施例中,一个时间段内的每一帧中都有一张人脸图片,对一个时间段内的所有人脸特征进行统计,将统计到的人脸特征作为短时视频特征。短时视频特征中可以包括人嘴角上扬的角度,人的瞳孔大小,人的眉头是否紧皱等。
S13-5:通过计算得到所述多个时间段内的音频信息中的韵律特征、音质特征和普参数特征及其统计量,作为所述短时音频特征。
本实施例中,韵律特征包括了音高、音长和音强等特征,音质特征可以随着不同人改变,普参数特征是一个人声纹形成的频谱,每个人因为声道的形状不同,普参数都不同。通过计算每个时间段内的所有采样点,可以得出音频信息中的韵律特征、音质特征和普参数特征。统计量是对这些数据进行分析、检验的变量,有效反映了音频特征。
S13-6:通过计算得到所述多个时间段内的文本信息中的词向量及其统计量,作为所述短时文本特征。
本实施例中,对每个时间段内的短时文本信息中的词向量进行计算,根据这些词向量以及词向量的统计量,可以得到短时文本特征。
S14:将所述待测样片中每句对话中包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征。
本实施例中,长时视频特征、长时音频特征和长时文本特征是由短时视频特征、短时音频特征和短时文本特征分别聚合而成的,聚合出的长时特征是待测样片中每个句子的特征。
本实施例中,将待测样片中每句对话中包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长音频特征和长时文本特征的具体步骤是:
S14-1:抽取所述待测样片中每句对话包含的所有短时视频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时视频特征进行计算,得到所述待测样片中每句对话的长时视频特征。
本实施例中,自注意力机制是对注意力机制的改进,相较于注意力机制,自注意力机制减少了对外部信息的依赖,更擅长捕捉数据或特征的内部相关性。使用自注意力机制对待测样片中每句对话包含的所有短时视频特征计算,得到待测样片中每句对话的长时视频特征的具体步骤包括:
S14-1-1:将所述待测样片中每句对话包含的短时视频特征赋值到三个变量之中,对所述三个变量进行m次线性映射,记录从第一次映射到第m次映射中每一次映射后的三个变量。
本实施例中,假设待测样片中有对话假设对话
Figure 529511DEST_PATH_IMAGE001
,其中
Figure 992853DEST_PATH_IMAGE002
是对话中的第j句话。从
Figure 337247DEST_PATH_IMAGE003
中抽取音频模态或文本模型的短时特征,标记为
Figure 835225DEST_PATH_IMAGE004
。将
Figure 341292DEST_PATH_IMAGE004
赋值到三个变量Q,K,V中,每个变量经过m次线性映射,从而得到:
Figure 88668DEST_PATH_IMAGE005
(1)
Figure 971174DEST_PATH_IMAGE006
(2)
Figure 323658DEST_PATH_IMAGE007
(3)
其中
Figure 627DEST_PATH_IMAGE008
分别是Q,K,V的映射参数,
Figure 438561DEST_PATH_IMAGE009
变量经过第m线性映射后的值。
S14-1-2:对所述每一次映射后的三个变量进行注意力计算,根据计算得到的注意力权重进行加权求和,得到每一次映射后的短时视频特征。
本实施例中,将
Figure 124758DEST_PATH_IMAGE010
输入到注意力模块中,注意力模块的输出标记为
Figure 862906DEST_PATH_IMAGE011
Figure 976356DEST_PATH_IMAGE012
(4)
其中
Figure 901587DEST_PATH_IMAGE013
计算的是注意力权重,用于对
Figure 125895DEST_PATH_IMAGE014
进行加权求和,
Figure 452971DEST_PATH_IMAGE015
为第m次映射后的短时视频特征。
S14-1-3:将所述每一次映射后的短时视频特征按顺序进行拼接,得到融合时序信息的短时视频特征。
本实施例中,将
Figure 737321DEST_PATH_IMAGE016
拼接起来,作为融合时序信息的短时特征Z:
Figure 415428DEST_PATH_IMAGE017
(5)
其中Z是融合了视讯信息的短时特征,contact ( )为将向量进行拼接。
S14-1-4:对所述融合时序信息的短时视频特征进行注意力计算,根据计算等得到的注意力权重对所述融合时序信息的短时视频特征进行加权求和,得到所述待测样片中每句对话的长时视频特征;所述长时音频特征与所述长时文本特征的计算方法与所述长时视频特征的计算方法相同。
将短时特征Z输入到段级别注意力模块中,从而获取长时特征G。段级别注意力模块能够关注于重点段信息,提升谎言特征的区分性:
Figure 443426DEST_PATH_IMAGE018
(6)
Figure 625009DEST_PATH_IMAGE019
(7)
其中softmax( )为用于计算的函数,
Figure 80261DEST_PATH_IMAGE020
为可训练参数,A为每段特征所对应的注意力权重,G为基于注意力A对短时特征Z加权融合后的结果,即每段对话的长时视频特征。
S14-2抽取所述待测样片中每句对话包含的所有短时音频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时音频特征进行计算,得到所述待测样片中每句对话的长时音频特征。
本实施例中,长时音频同样可用S14-1-1至S14-1-4计算得到,在此不再叙述。
S14-3:抽取所述待测样片中每句对话包含的所有短时文本特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时文本特征进行计算,得到所述待测样片中每句对话的长时文本特征。
本实施例中,长时文本特征同样可用S14-1-1至S14-1-4计算得到,在此不再叙述。
S15:将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征。
本实施例中,利用多模态注意力融合策略可从视频特征、音频特征和文本特征三个模态进行谎言检测。将长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到待测样片中每句话的多模态特征的具体步骤为:
S15-1:将所述长时视频特征、长时音频特征和长时文本特征进行拼接,得到多模态拼接特征。
本实施例中,将三个模态的长时特征拼接成为多模态特征,首先要将每句对话中三个模态的特征向量直接进行拼接,得到多模态拼接特征。假设
Figure 980084DEST_PATH_IMAGE021
为长时音频特征,
Figure 77353DEST_PATH_IMAGE022
为长时文本特征,
Figure 113442DEST_PATH_IMAGE023
为长时面部特征,将多模态特征拼接:
Figure 739596DEST_PATH_IMAGE024
(8)
其中
Figure 861135DEST_PATH_IMAGE025
为拼接后的向量,contact( )表示将三个向量进行拼接。
S15-2:计算每个模态的注意力权重,依据所述注意力权重对所述多模态拼接特征进行融合,得到所述待测样片中每句对话的多模态特征,一个模态为视频、音频或文本。
本实施例中,计算每个模态的注意力权重,依据注意力权重融合多模态特征:
Figure 230937DEST_PATH_IMAGE026
(9)
Figure 387112DEST_PATH_IMAGE027
(10)
Figure 715325DEST_PATH_IMAGE028
(11)
其中,
Figure 324161DEST_PATH_IMAGE029
Figure 232074DEST_PATH_IMAGE030
为可训练参数,
Figure 242755DEST_PATH_IMAGE031
为每个模态的注意力权重。
Figure 210711DEST_PATH_IMAGE032
为中间值,F为多模态特征。
本实施例中,依据注意力机制将三个模态的长时特征融合成为多模态特征,神经网络在接收到每句话的多模态特征时会重点分析权重较高的部分,例如待测样片中说话人说一个句子时表情和说的话正常,但说话声音突然加重或减小,这时神经网络就会重点分析多模态特征中表征此人说话声音的部分。
S16:将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的。
本实施例中,利用预先标注好的人物图片和对应的人物信息作为训练集,对人物信息识别网络进行训练,得到训练好的人物信息识别网络,人物信息识别网络可以在接收到人物图片时识别出人物的特征信息,例如身份信息等。
本实施例中,将每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征的具体步骤为:
S16-1:将所述每句对话的多模态特征作为所述图神经网络中每个句子节点的特征表示,将所述每句对话对应的说话人信息作为所述图神经网络中每个说话人节点的特征表示。
本实施例中,图神经网络也是图卷积网络,由多个节点和边构成。假设对话
Figure 306843DEST_PATH_IMAGE033
,其中
Figure 549606DEST_PATH_IMAGE034
是对话中的第j句话,每个句子经过多模态特征融合模块后,获取每句话的多模态特征表示
Figure 680373DEST_PATH_IMAGE035
。将整个对话U表示为图神经网络,其中包括两种类型节点:句子节点和说话人节点。采用
Figure 819230DEST_PATH_IMAGE036
作为每个句子节点的特征表示,采用预先训练好的人物信息识别网络识别出的人物特征作为说话人节点,例如,可以是x-vector,x-vector是一种神经网络,在人物信息识别上效果较好。
S16-2:将所述图神经网络中每个句子节点与其邻域内的句子使用边进行连接,建立所述待测样片中每句对话之间的时序关系模型,得到所述待测样片中每句对话的时序关系;其中,连接所述句子节点的边分为两种类型,一种是前向边,一种是后向边,所述前向边的出发节点时序靠后,所述前向边指向的节点时序靠前,所述后向边的出发节点时序靠前,所述后向边指向的节点时序靠后。
S16-3:将所述图神经网络中每个句子节点与该句子节点对应的说话人节点使用边进行连接,建立所述待测样片中每句对话的说话人信息模型,得到所述待测样片中每句对话与对应说话人之间的关系。
S16-4:将所述每句对话的多模态特征与所述时序关系和所述每句对话与对应说话人之间的关系进行融合,得到所述融合交互信息的多模态特征。
本实施例中,多模态特征经过图神经网络后,获取了融合交互信息的特征表示。对于单层图神经网络而言:
Figure 137079DEST_PATH_IMAGE037
(12)
其中,
Figure 652374DEST_PATH_IMAGE038
为线性整流函数,R为边类型集合,
Figure 637647DEST_PATH_IMAGE039
为在关系r 下与节点
Figure 478564DEST_PATH_IMAGE040
相连的节点集合,
Figure 283709DEST_PATH_IMAGE041
为集合
Figure 337116DEST_PATH_IMAGE042
包含的元素个数。
Figure 176896DEST_PATH_IMAGE043
为节点
Figure 657556DEST_PATH_IMAGE040
和节点j之间边的权重,
Figure 215576DEST_PATH_IMAGE044
为关系r所对应的权重参数,
Figure 338253DEST_PATH_IMAGE045
为节点j的初始特征,对于句子节点
Figure 298119DEST_PATH_IMAGE046
Figure 949680DEST_PATH_IMAGE047
,对于说话人节点,
Figure 729417DEST_PATH_IMAGE048
为人物特征向量,
Figure 124626DEST_PATH_IMAGE049
是单层神经网络中节点i输出的融合交互信息的多模态特征。
对于多层图神经网络而言:
Figure 938999DEST_PATH_IMAGE050
(13)
假设有L层网络,那么最终节点
Figure 761461DEST_PATH_IMAGE051
的输出为
Figure 559653DEST_PATH_IMAGE052
Figure 758553DEST_PATH_IMAGE053
是L层网络中节点
Figure 427432DEST_PATH_IMAGE054
输出的融合交互信息的多模态特征。
本实施例中,在多模态特征中融合了时序信息和交互信息,通过时序信息可以考虑到前一时刻的谎言状态对当前时刻谎言状态的影响,例如前一时刻说的话是谎言的几率较大,那么这一时刻说的话是谎言的几率也会随之提高。交互信息同样会影响人的谎言状态,例如在审讯过程中,被审讯人员可能会受到审讯人员的影响而改变谎言状态。
S17:根据所述融合交互信息的多模态特征预测所述每句对话的谎言水平。
本实施例中,图神经网络输出融合交互信息的多模态特征,根据每句对话的多模态特征对对话的谎言水平进行预测。例如可以使用单层感知机来预测每句对话的谎言水平,计算方法为:
Figure 420796DEST_PATH_IMAGE055
(14)
其中
Figure 175125DEST_PATH_IMAGE056
为用于计算的函数,
Figure 177716DEST_PATH_IMAGE057
是单层感知机的参数。
Figure 232260DEST_PATH_IMAGE058
是谎言水平预测结果,预测结果显示出来是这句话为真话的概率和这句话为假话的概率,
Figure 396525DEST_PATH_IMAGE059
是节
Figure 638150DEST_PATH_IMAGE060
点输出的融合交互信息的多模态特征。
采用本实施例的S11-S17,首先将待测样片进行切分,得到多段短时视频信息、短时音频信息和短时文本信息,从多段短时视频信息、短时音频信息和短时文本信息中提取出短时视频特征、短时音频特征和短时文本特征,利用自注意力机制将每句对话的所有短时视频特征、短时音频特征和短时文本特征进行融合,得到每句对话的长时视频特征、长时音频特征和长时文本特征,利用利用多模态注意力融合策略将每句对话的长时视频特征、长时音频特征和长时文本特征进行融合,得到每句对话的多模态特征,将每句对话的多模态特征与人物特征输入图神经网络中,得到融合交互信息的多模态特征,根据融合交互信息的多模态特征来预测每句对话的谎言水平。这样结合了多模态信息和交互信息进行谎言检测,大大提高了谎言检测的准确性。
基于同一发明构思,本申请一实施例提供一种面向交互场景的自动谎言检测装置。参考图2,图2是本申请一实施例提出的面向交互场景的自动谎言检测装置200的示意图。如图2所示,该装置包括:
样片输入模块201,用于输入待测样片;
样片切分模块202,用于将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息;
短时特征提取模块203,用于根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征;
长时特征提取模块204,用于将所述待测样片中每句对话中包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征;
多模态融合模块205,用于将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征;
交互建模模块206,用于将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的;
谎言水平预测模块207,用于根据所述融合交互信息的多模态特征预测所述每句对话的谎言水平。
可选地,所述样片切分模块包括:
视频切分子模块,用于将所述待测样片的视频按照秒为单位进行切分,将所述待测样片中一秒内出现的所有的图像帧作为一个时间段内的视频信息,并将所述视频信息中的所有图像帧归一化,得到尺寸为第一预设尺寸的图像;
音频切分子模块,用于将所述待测样片的音频按照秒为单位进行切分,将所述待测样片中一秒内出现所有的音频采样点作为一个时间内的音频信息;
文本切分子模块,用于将所述待测样片的文本按照秒为单位进行切分,将所述待测样片中一秒内说话人说出的文字作为一个时间段内的文本信息。
可选地,所述短时特征提取模块包括:
第一图像抽取子模块,用于从所述多个时间段内的短时视频信息中抽取出人脸区域图像;
第一图像处理子模块,用于对所述人脸区域图像进行矫正和归一化操作,得到尺寸为第二预设大小的标准人脸图像;
表情识别子模块,用于利用预先训练的表情识别网络,从所述标准人脸图像中抽取出隐含层特征表示,得到标准人脸特征;
短时视频特征提取子模块,用于对所述标准人脸特征进行特征统计,得到一个时间段内的所述标准人脸特征,作为述短时视频特征;
短时音频特征提取子模块,用于通过计算得到所述多个时间段内的音频信息中的韵律特征、音质特征和普参数特征及其统计量,作为所述短时音频特征;
短时文本特征提取子模块,用于通过计算得到所述多个时间段内的文本信息中的词向量及其统计量,作为所述短时文本特征。
可选地,所述长时特征提取模块包括:
长时视频特征提取子模块,用于抽取所述待测样片中每句对话包含的所有短时视频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时视频特征进行计算,得到所述待测样片中每句对话的长时视频特征;
长时音频特征提取子模块,用于抽取所述待测样片中每句对话包含的所有短时音频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时音频特征进行计算,得到所述待测样片中每句对话的长时音频特征;
长时文本特征提取子模块,用于抽取所述待测样片中每句对话包含的所有短时文本特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时文本特征进行计算,得到所述待测样片中每句对话的长时文本特征。
可选地,所述多模态特征融合模块包括:
特征拼接子模块,用于将所述长时视频特征、长时音频特征和长时文本特征进行拼接,得到多模态拼接特征;
多模态特征计算子模块,用于计算每个模态的注意力权重,依据所述注意力权重对所述多模态拼接特征进行融合,得到所述待测样片中每句对话的多模态特征,一个模态为视频、音频或文本。
可选地,所述交互建模模块包括:
节点表示子模块,用于将所述每句对话的多模态特征作为所述图神经网络中每个句子节点的特征表示,将所述每句对话对应的说话人信息作为所述图神经网络中每个说话人节点的特征表示;
时序关系建立子模块,用于将所述图神经网络中每个句子节点与其邻域内的句子使用边进行连接,建立所述待测样片中每句对话之间的时序关系模型,得到所述待测样片中每句对话的时序关系;其中,连接所述句子节点的边分为两种类型,一种是前向边,一种是后向边,所述前向边的出发节点时序靠后,所述前向边指向的节点时序靠前,所述后向边的出发节点时序靠前,所述后向边指向的节点时序靠后;
人物关系建立子模块,用于将所述图神经网络中每个句子节点与该句子节点对应的说话人节点使用边进行连接,建立所述待测样片中每句对话的说话人信息模型,得到所述待测样片中每句对话与对应说话人之间的关系;
融合交互子模块,用于将所述每句对话的多模态特征与所述时序关系和所述每句对话与对应说话人之间的关系进行融合,得到所述融合交互信息的多模态特征。
可选的,所述长时视频特征提取子模块包括:
特征映射子模块,用于将所述待测样片中每句对话包含的短时视频特征赋值到三个变量之中,对所述三个变量进行m次线性映射,记录从第一次映射到第m次映射中每一次映射后的三个变量;
第一短时视频特征计算子模块,用于对所述每一次映射后的三个变量进行注意力计算,根据计算得到的注意力权重进行加权求和,得到每一次映射后的短时视频特征;
第二短时视频特征计算子模块,用于将所述每一次映射后的短时视频特征按顺序进行拼接,得到融合时序信息的短时视频特征;
长时视频特征计算子模块,用于对所述融合时序信息的短时视频特征进行注意力计算,根据计算等得到的注意力权重对所述融合时序信息的短时视频特征进行加权求和,得到所述待测样片中每句对话的长时视频特征;所述长时音频特征与所述长时文本特征的计算方法与所述长时视频特征的计算方法相同。
基于同一发明构思,本申请另一实施例提供一种可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的面向交互场景的自动谎言检测方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的面向交互场景的自动谎言检测方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种面向交互场景的自动谎言检测方法、装置、设备及介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种面向交互场景的自动谎言检测方法,其特征在于,所述方法包括:
输入待测样片;
将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息;
根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征;
将所述待测样片中每句对话中包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征;
将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征;
将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的;
根据所述融合交互信息的多模态特征预测所述每句对话的谎言水平。
2.根据权利要求1所述的方法,其特征在于,将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息,包括:
将所述待测样片的视频按照秒为单位进行切分,将所述待测样片中一秒内出现的所有的图像帧作为一个时间段内的视频信息,并将所述视频信息中的所有图像帧归一化,得到尺寸为第一预设尺寸的图像;
将所述待测样片的音频按照秒为单位进行切分,将所述待测样片中一秒内出现所有的音频采样点作为一个时间内的音频信息;
将所述待测样片的文本按照秒为单位进行切分,将所述待测样片中一秒内说话人说出的文字作为一个时间段内的文本信息。
3.根据权利要求1所述的方法,其特征在于,根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征,包括:
从所述多个时间段内的短时视频信息中抽取出人脸区域图像;
对所述人脸区域图像进行矫正和归一化操作,得到尺寸为第二预设大小的标准人脸图像;
利用预先训练的表情识别网络,从所述标准人脸图像中抽取出隐含层特征表示,得到标准人脸特征;
对所述标准人脸特征进行特征统计,得到一个时间段内的所述标准人脸特征,作为述短时视频特征;
通过计算得到所述多个时间段内的音频信息中的韵律特征、音质特征和普参数特征及其统计量,作为所述短时音频特征;
通过计算得到所述多个时间段内的文本信息中的词向量及其统计量,作为所述短时文本特征。
4.根据权利要求1所述的方法,其特征在于,将所述待测样片中每句对话包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征,包括:抽取所述待测样片中每句对话包含的所有短时视频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时视频特征进行计算,得到所述待测样片中每句对话的长时视频特征;
抽取所述待测样片中每句对话包含的所有短时音频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时音频特征进行计算,得到所述待测样片中每句对话的长时音频特征;
抽取所述待测样片中每句对话包含的所有短时文本特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时文本特征进行计算,得到所述待测样片中每句对话的长时文本特征。
5.根据权利要求1所述的方法,其特征在于,将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的,包括:
将所述长时视频特征、长时音频特征和长时文本特征进行拼接,得到多模态拼接特征;
计算每个模态的注意力权重,依据所述注意力权重对所述多模态拼接特征进行融合,得到所述待测样片中每句对话的多模态特征,一个模态为视频、音频或文本。
6.根据权利要求1所述的方法,其特征在于,将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,包括:
将所述每句对话的多模态特征作为所述图神经网络中每个句子节点的特征表示,将所述每句对话对应的说话人信息作为所述图神经网络中每个说话人节点的特征表示;
将所述图神经网络中每个句子节点与其邻域内的句子使用边进行连接,建立所述待测样片中每句对话之间的时序关系模型,得到所述待测样片中每句对话的时序关系;其中,连接所述句子节点的边分为两种类型,一种是前向边,一种是后向边,所述前向边的出发节点时序靠后,所述前向边指向的节点时序靠前,所述后向边的出发节点时序靠前,所述后向边指向的节点时序靠后;
将所述图神经网络中每个句子节点与该句子节点对应的说话人节点使用边进行连接,建立所述待测样片中每句对话的说话人信息模型,得到所述待测样片中每句对话与对应说话人之间的关系;
将所述每句对话的多模态特征与所述时序关系和所述每句对话与对应说话人之间的关系进行融合,得到所述融合交互信息的多模态特征。
7.根据权利要求4所述的方法,其特征在于,抽取所述待测样片中每句对话包含的所有短时视频特征,利用自注意力机制对所述待测样片中每句对话包含的所有短时视频特征进行计算,得到所述待测样片中每句对话的长时视频特征,包括:
将所述待测样片中每句对话包含的短时视频特征赋值到三个变量之中,对所述三个变量进行m次线性映射,记录从第一次映射到第m次映射中每一次映射后的三个变量;
对所述每一次映射后的三个变量进行注意力计算,根据计算得到的注意力权重进行加权求和,得到每一次映射后的短时视频特征;
将所述每一次映射后的短时视频特征按顺序进行拼接,得到融合时序信息的短时视频特征;
对所述融合时序信息的短时视频特征进行注意力计算,根据计算等得到的注意力权重对所述融合时序信息的短时视频特征进行加权求和,得到所述待测样片中每句对话的长时视频特征;所述长时音频特征与所述长时文本特征的计算方法与所述长时视频特征的计算方法相同。
8.一种面向交互场景的自动谎言检测装置,其特征在于,所述装置包括:
样片输入模块,用于输入待测样片;
样片切分模块,用于将所述待测样片的视频、音频和文本按照预设时间段进行切分,得到多个时间段内的视频信息、音频信息和文本信息;
短时特征提取模块,用于根据所述多个时间段内的视频信息、音频信息和文本信息提取出多个时间段内的短时视频特征、短时音频特征和短时文本特征;
长时特征提取模块,用于将所述待测样片中每句对话中包含的所有短时视频特征、短时音频特征和短时文本特征分别按照时间顺序进行聚合,得到长时视频特征、长时音频特征和长时文本特征;
多模态融合模块,用于将所述长时视频特征、长时音频特征和长时文本特征利用多模态注意力融合策略进行融合,得到所述待测样片中每句对话的多模态特征;
交互建模模块,用于将所述每句对话的多模态特征与每句对话对应的说话人信息按照时间顺序输入图神经网络中,得到融合交互信息的多模态特征,所述说话人信息是利用预先训练好的人物信息识别网络识别得到的;
谎言水平预测模块,用于根据所述融合交互信息的多模态特征预测所述每句对话的谎言水平。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时,实现如权利要求1至7任一所述的方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至7任一所述的方法的步骤。
CN202110001077.0A 2021-01-04 2021-01-04 面向交互场景的自动谎言检测方法、装置、设备及介质 Active CN112329748B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110001077.0A CN112329748B (zh) 2021-01-04 2021-01-04 面向交互场景的自动谎言检测方法、装置、设备及介质
US17/389,364 US11238289B1 (en) 2021-01-04 2021-07-30 Automatic lie detection method and apparatus for interactive scenarios, device and medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110001077.0A CN112329748B (zh) 2021-01-04 2021-01-04 面向交互场景的自动谎言检测方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112329748A true CN112329748A (zh) 2021-02-05
CN112329748B CN112329748B (zh) 2021-04-30

Family

ID=74302013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110001077.0A Active CN112329748B (zh) 2021-01-04 2021-01-04 面向交互场景的自动谎言检测方法、装置、设备及介质

Country Status (2)

Country Link
US (1) US11238289B1 (zh)
CN (1) CN112329748B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886572A (zh) * 2021-08-24 2022-01-04 北京达佳互联信息技术有限公司 资源分类方法、装置、电子设备及存储介质
CN116522212A (zh) * 2023-07-05 2023-08-01 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN109793526A (zh) * 2018-12-18 2019-05-24 深圳壹账通智能科技有限公司 测谎方法、装置、计算机设备和存储介质
CN110222331A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 谎言识别方法及装置、存储介质、计算机设备
CN110427803A (zh) * 2019-06-18 2019-11-08 平安科技(深圳)有限公司 基于视频分析的测谎方法、装置、电子设备及存储介质
CN110969106A (zh) * 2019-11-25 2020-04-07 东南大学 一种基于表情、语音和眼动特征的多模态测谎方法
CN112017671A (zh) * 2020-10-14 2020-12-01 杭州艺兴科技有限公司 一种基于多特征的面谈内容可信度评价方法和系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065394A1 (en) * 2018-08-22 2020-02-27 Soluciones Cognitivas para RH, SAPI de CV Method and system for collecting data and detecting deception of a human using a multi-layered model
US11151385B2 (en) * 2019-12-20 2021-10-19 RTScaleAI Inc System and method for detecting deception in an audio-video response of a user
US11315040B2 (en) * 2020-02-12 2022-04-26 Wipro Limited System and method for detecting instances of lie using Machine Learning model

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108520753A (zh) * 2018-02-26 2018-09-11 南京工程学院 基于卷积双向长短时记忆网络的语音测谎方法
CN109793526A (zh) * 2018-12-18 2019-05-24 深圳壹账通智能科技有限公司 测谎方法、装置、计算机设备和存储介质
CN110222331A (zh) * 2019-04-26 2019-09-10 平安科技(深圳)有限公司 谎言识别方法及装置、存储介质、计算机设备
CN110427803A (zh) * 2019-06-18 2019-11-08 平安科技(深圳)有限公司 基于视频分析的测谎方法、装置、电子设备及存储介质
CN110969106A (zh) * 2019-11-25 2020-04-07 东南大学 一种基于表情、语音和眼动特征的多模态测谎方法
CN112017671A (zh) * 2020-10-14 2020-12-01 杭州艺兴科技有限公司 一种基于多特征的面谈内容可信度评价方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LICAI SUN等: "Multi-modal Continuous Dimensional Emotion Recognition Using Recurrent Neural Network and Self-Attention Mechanism", 《ACM》 *
ZHENG LIAN: "Conversational Emotion Analysis via Attention Mechanisms", 《ARXIV》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886572A (zh) * 2021-08-24 2022-01-04 北京达佳互联信息技术有限公司 资源分类方法、装置、电子设备及存储介质
CN116522212A (zh) * 2023-07-05 2023-08-01 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质
CN116522212B (zh) * 2023-07-05 2023-09-26 清华大学 基于图像文本融合的谎言检测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112329748B (zh) 2021-04-30
US11238289B1 (en) 2022-02-01

Similar Documents

Publication Publication Date Title
CN108520741B (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
JP2017156854A (ja) 感情分類によって文脈意味の理解精度を高める発話意味分析プログラム、装置及び方法
CN112329748B (zh) 面向交互场景的自动谎言检测方法、装置、设备及介质
CN112686048B (zh) 基于语音、语义、面部表情融合的情绪识别方法及装置
CN111640456B (zh) 叠音检测方法、装置和设备
CN112329746A (zh) 多模态谎言检测方法、装置、设备
CN112951240A (zh) 模型训练、语音识别方法及装置、电子设备及存储介质
Kopparapu Non-linguistic analysis of call center conversations
CN112233680A (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN114420169B (zh) 情绪识别方法、装置及机器人
CN114495217A (zh) 基于自然语言和表情分析的场景分析方法、装置及系统
CN114677634B (zh) 面签识别方法、装置、电子设备及存储介质
CN114616565A (zh) 使用视听不一致性的活体检测
US11069108B2 (en) Method and system for creating an intelligent cartoon chat strip based on dynamic content
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN112232276A (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN113393841B (zh) 语音识别模型的训练方法、装置、设备及存储介质
CN112584238A (zh) 影视资源匹配方法、装置及智能电视
Koolagudi et al. Recognition of emotions from speech using excitation source features
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
KR102480722B1 (ko) 엣지 컴퓨터 환경에서의 감성 인식 장치 및 그 방법
CN116935889B (zh) 一种音频类别的确定方法、装置、电子设备及存储介质
CN112786052B (zh) 语音识别方法、电子设备和存储装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant