CN110378228A - 面审视频数据处理方法、装置、计算机设备和存储介质 - Google Patents
面审视频数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110378228A CN110378228A CN201910522249.1A CN201910522249A CN110378228A CN 110378228 A CN110378228 A CN 110378228A CN 201910522249 A CN201910522249 A CN 201910522249A CN 110378228 A CN110378228 A CN 110378228A
- Authority
- CN
- China
- Prior art keywords
- data
- face
- target user
- dimension
- colour
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000001755 vocal effect Effects 0.000 claims abstract description 83
- 238000012545 processing Methods 0.000 claims abstract description 62
- 230000008859 change Effects 0.000 claims abstract description 59
- 230000002996 emotional effect Effects 0.000 claims abstract description 55
- 238000004458 analytical method Methods 0.000 claims abstract description 49
- 239000000284 extract Substances 0.000 claims abstract description 36
- 230000035772 mutation Effects 0.000 claims abstract description 18
- 230000036651 mood Effects 0.000 claims description 111
- 230000001815 facial effect Effects 0.000 claims description 32
- 238000004590 computer program Methods 0.000 claims description 27
- 230000002159 abnormal effect Effects 0.000 claims description 7
- 238000013481 data capture Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 3
- 230000002547 anomalous effect Effects 0.000 claims 1
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 6
- 238000003786 synthesis reaction Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013524 data verification Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000009432 framing Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000035484 reaction time Effects 0.000 description 2
- 206010027951 Mood swings Diseases 0.000 description 1
- 206010044565 Tremor Diseases 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012911 target assessment Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
- G06V40/176—Dynamic expression
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Psychiatry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Hospice & Palliative Care (AREA)
- Child & Adolescent Psychology (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及人工智能技术领域,提供了一种面审视频数据处理方法、装置、计算机设备和存储介质。方法包括:获取目标用户的面审视频,并提取出音频流数据和视频流数据,对音频流数据进行声纹识别处理,得到声纹波动数据,进而确定目标用户的情绪变化数据,获取视频流数据中的目标用户面部图像进行面部肤色变化分析,得到目标用户的肤色状况信息,通过语音识别和微表情识别处理,得到面审问答文本和微表情识别结果,根据情绪变化数据、肤色状况信息、面审问答文本和微表情识别结果,对目标用户进行各维度数据的综合面审评估分析,分析更为全面,从而得到更为准确的面审评估结果。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种面审视频数据处理方法、装置、计算机设备和存储介质。
背景技术
现有的面审技术,一般是通过对用户进行问答,通过采集用户问答过程中的面部图像或视频数据,通过面部识别技术进行用户微表情识别,用以确定用户的申请信息是否为本人,以及是否存在欺诈的可能性。
但对于通过包装、刻意伪装的用户,现有的面审技术对欺诈可能性识别的准确度不高,面审评估结果不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高面审评估结果准确性的面审视频数据处理方法、装置、计算机设备和存储介质。
一种面审视频数据处理方法,所述方法包括:
获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据;
对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据;
获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到所述目标用户的肤色状况信息;
对所述面审视频分别进行语音识别和微表情识别处理,得到所述目标用户的面审问答文本和微表情识别结果;
根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本和所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果。
在其中一个实施例中,所述获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据包括:
获取目标用户的面审视频和所述面审视频的问答时间记录数据,
查找所述问答时间记录数据中单个问题的问答开始时间戳,以各所述问答开始时间戳为节点,对所述面审视频进行视频片段分割;
提取各所述视频片段的音频流数据和视频流数据。
在其中一个实施例中,所述对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据包括:
提取所述音频流数据中的声纹数据;
提取所述声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定所述基频信息与语速信息对应的基础情绪因子,所述情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围;
根据预设的基频阈值范围与所述基频信息的幅值变化、以及预设的语速阈值范围与所述语速信息的幅值变化,获得所述声纹波动数据;
根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据。
在其中一个实施例中,所述获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据之前,还包括:
获取所述目标用户的申请信息,所述申请信息包括所述目标用户的个人信息、证件信息以及声纹信息;
根据所述个人信息和所述证件信息,生成问题集,所述问题集用于对所述目标用户进行面审提问;
当接收到所述目标用户的登录请求时,根据所述证件信息验证所述登录请求中携带的登录数据,并根据所述声纹信息验证所述登录请求中携带的声纹数据;
当所述登录数据和所述声纹数据验证通过时,进入获取目标用户的面审视频的步骤。
在其中一个实施例中,所述获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,获得所述目标用户的肤色状况信息包括:
提取所述视频流数据中的目标用户面部图像,获取所述目标用户面部图像中各预设面部区域的肤色数据;
检测所述肤色数据是否满足预设肤色数据变化阈值范围,根据检测结果,确定不满足所述阈值范围的肤色数据对应的目标面部区域,并对所述目标面部区域进行异常标注;
当所述异常标注的标注数量和标注等级超过设定的标注数据阈值范围时,根据所述标注数量和所述标注等级,确定所述目标用户的肤色异常等级,所述肤色异常等级用于表征所述肤色状况信息。
在其中一个实施例中,所述根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本和所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果之前,还包括:
获取携带有已有欺诈数据的各样本用户的样本数据,分别提取所述样本数据中预设维度的维度数据,所述预设维度包括情绪数据维度、面审问答数据维度、肤色数据维度以及微表情数据维度;
根据各所述样本用户已有欺诈数据、所述维度数据以及预设维度等级标准,通过回归计算确定各所述预设维度对应的权重比。
一种面审视频数据处理装置,所述装置包括:
面审视频获取模块,用于获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据;
声纹识别处理模块,用于对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据;
面部肤色变化分析模块,用于获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到所述目标用户的肤色状况信息;
语音与微表情识别模块,用于对所述面审视频分别进行语音识别和微表情识别处理,得到所述目标用户的面审问答文本和微表情识别结果;
面审评估模块,用于根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本、以及所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果。
在其中一个实施例中,所述声纹识别处理模块,包括:
声纹数据提取单元,用于提取所述音频流数据中的声纹数据;
基础情绪因子确定单元,用于提取所述声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定所述基频信息与语速信息对应的基础情绪因子,所述情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围;
声纹波动数据获取单元,用于根据预设的基频阈值范围与所述基频信息的幅值变化、以及预设的语速阈值范围与所述语速信息的幅值变化,获得所述声纹波动数据;
情绪变化数据获取单元,用于根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据;
对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据;
获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到所述目标用户的肤色状况信息;
对所述面审视频分别进行语音识别和微表情识别处理,得到所述目标用户的面审问答文本和微表情识别结果;
根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本和所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据;
对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据;
获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到所述目标用户的肤色状况信息;
对所述面审视频分别进行语音识别和微表情识别处理,得到所述目标用户的面审问答文本和微表情识别结果;
根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本和所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果。
上述面审视频数据处理方法、装置、计算机设备和存储介质,通过获取目标用户的面审视频,并提取面审视频中的音频流数据和视频流数据,对音频流数据进行声纹识别处理,得到声纹波动数据,进而通过声纹波动数据与预设的基础情绪数据波动范围的比较,得到目标用户的情绪变化数据,获取视频流数据中的目标用户面部图像,通过分析面部肤色中的肤色异常面部区域的标注数量与异常等级,得到肤色状况信息,根据情绪变化数据与肤色状况信息,结合通过对面审视频进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果,对目标用户进行各维度数据的综合面审评估分析,分析更为全面,从而得到更为准确的面审评估结果。
附图说明
图1为一个实施例中面审视频数据处理方法的应用场景图;
图2为一个实施例中面审视频数据处理方法的流程示意图;
图3为另一个实施例中面审视频数据处理方法的流程示意图;
图4为又一个实施例中面审视频数据处理方法的流程示意图;
图5为再一个实施例中面审视频数据处理方法的流程示意图;
图6为还一个实施例中面审视频数据处理方法的流程示意图;
图7为一个实施例中面审视频数据处理装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的面审视频数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取终端102采集的对目标用户进行面审问答时的面审视频,提取面审视频中的音频流数据和视频流数据;通过服务器104对音频流数据进行声纹识别处理,得到声纹波动数据,当声纹波动数据超出预设的基础情绪数据波动范围时,根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据,获取视频流数据中的目标用户面部图像,对目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到目标用户的肤色状况信息,对面审视频分别进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果,根据情绪变化数据、肤色状况信息、面审问答文本和微表情识别结果分别所对应的维度,以及各维度的预设维度等级标准,确定目标用户各维度的等级数据,根据各维度的预设权重比数据和等级数据,得到目标用户的面审评估结果,并将面审评估结果推送至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种面审视频数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S200,获取目标用户的面审视频,提取面审视频中的音频流数据和视频流数据。
目标用户是指需要通过采集面审视频进行面审分析的用户,面审视频是指在对用户进行审核时,通过用户所在终端的摄像装置采集得到的用户进行面审问答的视频,视频数据包括音频流数据和视频流数据,音频流数据是指采集到的用户输入的语音数据,视频流数据是指采集到的画面数据。根据面审视频中各数据流的数据类型,对音频流数据和视频流数据进行分离,提取得到面审视频中的音频流数据和视频流数据。
步骤S300,对音频流数据进行声纹识别处理,得到声纹波动数据,当声纹波动数据超出预设的基础情绪数据波动范围时,根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据。
声纹是指语音信号的声波频谱,声纹具有特定性和稳定性,通过声纹识别,可以进行检测用户身份,还可以根据声纹数据,检测用户在说话过程中的情绪,获得目标用户的基础情绪。声纹波动数据是指用户的音频流数据中的基频和语速的变化幅度的数据,不同的基础情绪对应有不同的情绪数据波动范围,包括基频和语速的波动,根据声纹数据可以确定用户的基础情绪因子,当声纹波动数据中的基频和语速波动范围,超过基础情绪因子对应的基础情绪数据波动范围时,表征用户的基础情绪发生了变化,声纹波动数据超出基础情绪数据波动范围部分的数据量越大,用户的情绪变化更为显著,不同的数据量对应有不同的情绪变化等级,具体可以根据预先设定的等级划分范围进行确定。
步骤S400,获取视频流数据中的目标用户面部图像,对目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到目标用户的肤色状况信息。
肤色是表征用户生活状态的一个重要因素,长期处于被逼迫和恐吓的情况下,脸部的肤色信息偏于青紫,苍白,或充血,如有被殴打情况,会出现局部淤青等情况,通过面部图像识别,对目标用户面部图像进行面部肤色变化分析,检测目标用户各面部区域的肤色状况,确认目标用户近期生活状态是否为正常,通过将各面部区域中肤色异常的区域进行标注,根据预先设定的等级标准,以及异常标注的标注数量和标注等级,得到目标用户的肤色状况信息对应的肤色异常等级。
步骤S500,对面审视频分别进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果。
采用语音识别模型,对面审视频中的音频流数据进行语音识别处理,获得目标用户的面审问答文本。语音识别是指识别语音的内容,并将语音内容转换为相应的文字,根据语音识别,可获得面审问答文本,用来判断目标用户的回答准确性。采用微表情识别模型,对面审视频中的视频流数据进行微表情识别处理,获得目标用户的微表情识别结果,微表情是心理应激微反应的一部分,它从人类本能出发,不受思想的控制,无法掩饰,也不能伪装,通过微表情识别,可以检测目标用户是否存在说谎的嫌疑,用以辅佐判断在面审问答过程中是否为真实情况。
在其中一个实施例中,在对面审视频中的音频流数据进行语音识别处理之前,还包括对音频流数据进行数据预处理,具体包括:对音频流数据进行预加重、加窗分帧处理、端点检测和降噪处理,预加重处理是利用信号特性和噪声特性的差别来有效地对信号进行处理,对语音的高频部分进行加重,去除口鼻辐射的影响,增加语音的高频分辨率。加窗分帧处理包括加窗和分帧,由于语音信号具有短时平稳性,可以通过将语音信号分为短段来进行分帧处理,分帧采用可移动的有限长度的窗口进行加权的方法来实现的,例如采用汉明窗或矩形窗等窗函数,形成加窗语音信号来实现。端点检测是从一段给定的语音信号中找出语音的起始点和结束点,减少计算量和缩短处理时间,并能排除无声段的噪声干扰、提高语音识别的正确率。语音降噪处理可以通过自适应滤波器/谱减法/维纳滤波法等降噪算法来实现,从而提高性噪比。
步骤S600,根据情绪变化数据、肤色状况信息、面审问答文本和微表情识别结果分别所对应的维度,以及各维度的预设维度等级标准,确定目标用户各维度的等级数据,根据各维度的预设权重比数据和等级数据,得到目标用户的面审评估结果。
通过获取上述各维度所占的预设权重比数据,结合情绪变化数据、肤色状况信息、面审问答文本、以及微表情识别结果对应的等级数据,可以计算得到面审评估值,根据面审评分值对应的风险等级,可以得到面审评估结果。在实施例中,可以通过对面审视频进行片段划分,通过对各视频片段进行声纹识别、肤色状态分析、微表情识别和面审问答文本识别处理,根据处理结果,计算各视频片段对应的评分值,根据各视频片段的评分值,确定目标用户的面审评估结果。
上述面审视频数据处理方法,通过获取目标用户的面审视频,并提取面审视频中的音频流数据和视频流数据,对音频流数据进行声纹识别处理,得到声纹波动数据,进而通过声纹波动数据与预设的基础情绪数据波动范围的比较,得到目标用户的情绪变化数据,获取视频流数据中的目标用户面部图像,通过分析面部肤色中的肤色异常面部区域的标注数量与异常等级,得到肤色状况信息,根据情绪变化数据与肤色状况信息,结合通过对面审视频进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果,对目标用户进行各维度数据的综合面审评估分析,分析更为全面,从而得到更为准确的面审评估结果。具体来说,通过面审问答文本的正确率,结合微表情识别结果,可以确定用户在问答过程中的真实性,考虑到非自主借贷用户这一类特殊人群的鉴别难度,增加声纹识别和肤色状况分析过程,通过对面审视频的分析,不仅可以识别出用户的信息是否真实,还可以确定用户在面审时是否处于正常状态,例如,如果声音的语调语气和波动情况跟正常状态下人员的情况有异,会表现出明显的犹疑,颤抖等,如果用户在多天被逼迫和恐吓的情况下,脸部的肤色信息与正常人员的脸部肤色等信息存在区别。通过增加声纹识别和肤色状况分析,结合原有面审技术中的微表情识别和智能问答技术,可以提高用户鉴别准确度,降低欺诈风险。
在一个实施例中,步骤S200,获取目标用户的面审视频,提取面审视频中的音频流数据和视频流数据包括:
获取目标用户的面审视频和面审视频的问答时间记录数据,
查找问答时间记录数据中单个问题的问答开始时间戳,以各问答开始时间戳为节点,对面审视频进行视频片段分割。
提取各视频片段的音频流数据和视频流数据。
可以通过标记用户提问的开始时间或设定的答题时间来确定单个问题的问答开始时间,将面审视频划分为单个片段的过程。举例来说,面审开始时,可以提示目标用户“面审开始”,将此时对应的时间戳标记为第一问题的开始时间,并开始向目标用户提出第一问题,提问形式可以为文字展示或语音提问,还可以是面审人员提问,当检测到提问结束后,开始计时,当到达设定的答题时间时,开始向目标用户提出第二问题,并将此时对应的时间戳标记为第二问题的开始时间(即第一问题的结束时间)。在其他实施例中,还可以通过检测目标用户的语音回答,当语音间断时间达到设定时间如3S后,将此时对应的时间戳标记为第二片段开始时间。对音频流数据进行声纹识别处理的步骤,具体包括,分别对各视频片段的音频流数据进行声纹识别,得到视频片段的声纹波动数据,从而确定目标用户在回答该视频时的情绪变化。
在一个实施例中,如图3所示,步骤S300,对音频流数据进行声纹识别处理,得到声纹波动数据,当声纹波动数据超出预设的基础情绪数据波动范围时,根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据包括:
步骤S320,提取音频流数据中的声纹数据。
步骤S340,提取声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定基频信息与语速信息对应的基础情绪因子,情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围。
步骤S360,根据预设的基频阈值范围与基频信息的幅值变化、以及预设的语速阈值范围与语速信息的幅值变化,获得声纹波动数据。
步骤S380,根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据。
基频是指一个复音中基音的频率,在构成一个复音的若干个音中,基音的频率最低,强度最大。语速是语言符号在单位时间内所呈现的词汇速度,根据声纹数据中的基频信息与语速信息,通过查找预设的情绪因子数据库,可以确定基频信息与语速信息组合时对应的情绪类别,确定基础情绪因子。情绪因子数据库可以根据已知情绪特征的语音样本,分析各个语音样本的基频信息与语速信息来构建得到,情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围。根据音频流片段数据的基频数据的幅值变化,计算基频变化值和基频均值,将基频变化值和与基础情绪因子的第一基频阈值范围比较,获得第一比较结果;将基频均值和与基础情绪因子的第二基频阈值范围比较,获得第二比较结果;根据音频流片段数据的语速数据的幅值变化,计算语速变化值,将语速变化值和与基础情绪因子的语速阈值范围比较,获得第三比较结果;根据第一比较结果、第二比较结果以及第三比较结果,得到情绪变化数据,确定基频对应的情绪波动变化。
在一个实施例中,如图4所示,步骤S200,获取目标用户的面审视频,提取面审视频中的音频流数据和视频流数据之前,还包括:
步骤S120,获取目标用户的申请信息,申请信息包括目标用户的个人信息、证件信息以及声纹信息。
步骤S140,根据个人信息和证件信息,生成问题集,问题集用于对目标用户进行面审提问。
步骤S160,当接收到目标用户的登录请求时,根据证件信息验证登录请求中携带的登录数据,并根据声纹信息验证登录请求中携带的声纹数据。
当登录数据和声纹数据验证通过时,进入获取目标用户的面审视频的步骤S200。
申请信息是指目标用户进行待办理业务时提交的信息,包括目标用户的个人信息、证件信息以及声纹信息,个人信息包括姓名、联系方式、住址、家庭成员、学历等,证件信息包括身份证、银行卡等信息,声纹信息包括目标用户本人的语音数据信息。问题集是指在面审问答时对目标用户进行面审提问的多个问题构成的集合,根据目标用户的个人信息和证件信息生成的问题集。提交申请和面审可以连续进行,也可以间断进行,当用户进行面审时,通过终端向服务器发送登录请求,登录请求中携带有登录数据和声纹数据,通过申请信息中采集的证件信息和声纹信息,对登录请求中的登录数据和声纹数据进行验证,当验证通过时进行面审,终端采集面审视频并发送至服务器,以使服务器获取到目标用户的面审视频。
在一个实施例中,如图5所示,步骤S400,获取视频流数据中的目标用户面部图像,对目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到目标用户的肤色状况信息包括:
步骤S420,提取视频流数据中的目标用户面部图像,获取目标用户面部图像中各预设面部区域的肤色数据。
步骤S440,检测肤色数据是否满足预设肤色数据变化阈值范围,根据检测结果,确定不满足阈值范围的肤色数据对应的目标面部区域,并对目标面部区域进行异常标注。
步骤S460,当异常标注的标注数量和标注等级超过设定的标注数据阈值范围时,根据标注数量和标注等级,确定目标用户的肤色异常等级,肤色异常等级用于表征肤色状况信息。
视频流有多个画面帧组成,通过提取视频流中的其中一个画面帧,可以获得用目标用户面部图像,通过人脸识别,可以获取用户的面部区域信息,获取各面部区域信息的皮肤RGB色值,以及皮肤RGB色值的变化数据,通过预设肤色数据变化阈值范围,检测面部区域信息的皮肤RGB色值是否处于正常状态,当面部区域信息的皮肤RGB色值的变化范围超过设定阈值范围时,根据皮肤RGB色值,确定该预设面部区域的异常等级,并进行标注。在其中一个实施例中,预设肤色数据变化阈值范围具体包括设定面积的允许RGB色值差,以及允许的RGB色值差极限值。
在一个实施例中,如图6所示,步骤S600,根据情绪变化数据、肤色状况信息、面审问答文本和微表情识别结果分别所对应的维度,以及各维度的预设维度等级标准,确定目标用户各维度的等级数据,根据各维度的预设权重比数据和等级数据,得到目标用户的面审评估结果之前,还包括:
步骤S560,获取携带有已有欺诈数据的各样本用户的样本数据,分别提取样本数据中预设维度的维度数据,预设维度包括情绪数据维度、面审问答数据维度、肤色数据维度以及微表情数据维度;
步骤S580,根据各样本用户已有欺诈数据、维度数据以及预设维度等级标准,通过回归计算确定各预设维度对应的权重比。
样本用户是指采集有面审视频样本数据,但已经产生了欺诈行为,存在欺诈数据的用户,各样本用户的样本数据是指样本用户的面审视频样本数据,采用相同的方法,可以通过分析得到面审视频样本数据的情绪数据维度、面审问答数据维度、肤色数据维度以及微表情数据维度的维度数据,通过样本用户的已有欺诈数据,进行回归计算,确定各个维度的权重比。在实施例中,根据情绪变化数据和预设情绪阈值范围的差值,获得第一评分值,根据肤色状况信息中的肤色异常等级,获得第二评分值;根据面审问答文本与预设标准答案的符合率,获得第三评分值,根据微表情识别结果对应的微表情类型,获得第四评分值,根据第一评分值、第二评分值、第三评分值、第四评分值以及各维度数据在面审评估中所占的权重比,计算目标用户的面审评分,根据面审评分,确定面审评估结果。
应该理解的是,虽然图2-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图7所示,提供了一种面审视频数据处理装置,包括:
面审视频获取模块200,用于获取目标用户的面审视频,提取面审视频中的音频流数据和视频流数据;
声纹识别处理模块300,用于对音频流数据进行声纹识别处理,得到声纹波动数据,当声纹波动数据超出预设的基础情绪数据波动范围时,根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据;
面部肤色变化分析模块400,用于获取视频流数据中的目标用户面部图像,对目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到目标用户的肤色状况信息;
语音与微表情识别模块500,用于对面审视频分别进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果;
面审评估模块600,用于根据情绪变化数据、肤色状况信息、面审问答文本和微表情识别结果分别所对应的维度,以及各维度的预设维度等级标准,确定目标用户各维度的等级数据,根据各维度的预设权重比数据和等级数据,得到目标用户的面审评估结果。
在一个实施例中,声纹识别处理模块300,包括:
声纹数据提取单元,用于提取音频流数据中的声纹数据;
基础情绪因子确定单元,用于提取声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定基频信息与语速信息对应的基础情绪因子,情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围;
声纹波动数据获取单元,用于根据预设的基频阈值范围与基频信息的幅值变化、以及预设的语速阈值范围与语速信息的幅值变化,获得声纹波动数据;
情绪变化数据获取单元,用于根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据。
面审视频获取模块200,还用于获取目标用户的面审视频和面审视频的问答时间记录数据,查找问答时间记录数据中单个问题的问答开始时间戳,以各问答开始时间戳为节点,对面审视频进行视频片段分割,提取各视频片段的音频流数据和视频流数据。
在一个实施例中,面审视频数据处理装置,还包括登录验证模块,用于获取目标用户的申请信息,申请信息包括目标用户的个人信息、证件信息以及声纹信息,根据个人信息和证件信息,生成问题集,问题集用于对目标用户进行面审提问,当接收到目标用户的登录请求时,根据证件信息验证登录请求中携带的登录数据,并根据声纹信息验证登录请求中携带的声纹数据,当登录数据和声纹数据验证通过时,进入获取目标用户的面审视频的步骤。
面部肤色变化分析模块400,还用于提取视频流数据中的目标用户面部图像,获取目标用户面部图像中各预设面部区域的肤色数据,检测肤色数据是否满足预设肤色数据变化阈值范围,根据检测结果,确定不满足阈值范围的肤色数据对应的目标面部区域,并对目标面部区域进行异常标注,当异常标注的标注数量和标注等级超过设定的标注数据阈值范围时,根据标注数量和标注等级,确定目标用户的肤色异常等级,肤色异常等级用于表征肤色状况信息。
面审视频数据处理装置,还包括维度权重比确定模块,用于获取携带有已有欺诈数据的各样本用户的样本数据,分别提取样本数据中预设维度的维度数据,预设维度包括情绪数据维度、面审问答数据维度、肤色数据维度以及微表情数据维度,根据各样本用户已有欺诈数据、维度数据以及预设维度等级标准,通过回归计算确定各预设维度对应的权重比。
上述面审视频数据处理装置,通过获取目标用户的面审视频,并提取面审视频中的音频流数据和视频流数据,对音频流数据进行声纹识别处理,得到声纹波动数据,进而通过声纹波动数据与预设的基础情绪数据波动范围的比较,得到目标用户的情绪变化数据,获取视频流数据中的目标用户面部图像,通过分析面部肤色中的肤色异常面部区域的标注数量与异常等级,得到肤色状况信息,根据情绪变化数据与肤色状况信息,结合通过对面审视频进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果,对目标用户进行各维度数据的综合面审评估分析,分析更为全面,从而得到更为准确的面审评估结果。
关于面审视频数据处理装置的具体限定可以参见上文中对于面审视频数据处理方法的限定,在此不再赘述。上述面审视频数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储面审视频数据处理数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种面审视频数据处理方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取目标用户的面审视频,提取面审视频中的音频流数据和视频流数据;
对音频流数据进行声纹识别处理,得到声纹波动数据,当声纹波动数据超出预设的基础情绪数据波动范围时,根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据;
获取视频流数据中的目标用户面部图像,对目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到目标用户的肤色状况信息;
对面审视频分别进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果;
根据情绪变化数据、肤色状况信息、面审问答文本和微表情识别结果分别所对应的维度,以及各维度的预设维度等级标准,确定目标用户各维度的等级数据,根据各维度的预设权重比数据和等级数据,得到目标用户的面审评估结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取目标用户的面审视频和面审视频的问答时间记录数据,
查找问答时间记录数据中单个问题的问答开始时间戳,以各问答开始时间戳为节点,对面审视频进行视频片段分割;
提取各视频片段的音频流数据和视频流数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
提取音频流数据中的声纹数据;
提取声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定基频信息与语速信息对应的基础情绪因子,情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围;
根据预设的基频阈值范围与基频信息的幅值变化、以及预设的语速阈值范围与语速信息的幅值变化,获得声纹波动数据;
根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取目标用户的申请信息,申请信息包括目标用户的个人信息、证件信息以及声纹信息;
根据个人信息和证件信息,生成问题集,问题集用于对目标用户进行面审提问;
当接收到目标用户的登录请求时,根据证件信息验证登录请求中携带的登录数据,并根据声纹信息验证登录请求中携带的声纹数据;
当登录数据和声纹数据验证通过时,进入获取目标用户的面审视频的步骤。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
提取视频流数据中的目标用户面部图像,获取目标用户面部图像中各预设面部区域的肤色数据;
检测肤色数据是否满足预设肤色数据变化阈值范围,根据检测结果,确定不满足阈值范围的肤色数据对应的目标面部区域,并对目标面部区域进行异常标注;
当异常标注的标注数量和标注等级超过设定的标注数据阈值范围时,根据标注数量和标注等级,确定目标用户的肤色异常等级,肤色异常等级用于表征肤色状况信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取携带有已有欺诈数据的各样本用户的样本数据,分别提取样本数据中预设维度的维度数据,预设维度包括情绪数据维度、面审问答数据维度、肤色数据维度以及微表情数据维度;
根据各样本用户已有欺诈数据、维度数据以及预设维度等级标准,通过回归计算确定各预设维度对应的权重比。
上述用于实现面审视频数据处理方法的计算机设备,通过通过获取目标用户的面审视频,并提取面审视频中的音频流数据和视频流数据,对音频流数据进行声纹识别处理,得到声纹波动数据,进而通过声纹波动数据与预设的基础情绪数据波动范围的比较,得到目标用户的情绪变化数据,获取视频流数据中的目标用户面部图像,通过分析面部肤色中的肤色异常面部区域的标注数量与异常等级,得到肤色状况信息,根据情绪变化数据与肤色状况信息,结合通过对面审视频进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果,对目标用户进行各维度数据的综合面审评估分析,分析更为全面,从而得到更为准确的面审评估结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标用户的面审视频,提取面审视频中的音频流数据和视频流数据;
对音频流数据进行声纹识别处理,得到声纹波动数据,当声纹波动数据超出预设的基础情绪数据波动范围时,根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据;
获取视频流数据中的目标用户面部图像,对目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到目标用户的肤色状况信息;
对面审视频分别进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果;
根据情绪变化数据、肤色状况信息、面审问答文本和微表情识别结果分别所对应的维度,以及各维度的预设维度等级标准,确定目标用户各维度的等级数据,根据各维度的预设权重比数据和等级数据,得到目标用户的面审评估结果。
在一个实施例中,计算机程序别处理器执行时还实现以下步骤:
获取目标用户的面审视频和面审视频的问答时间记录数据,
查找问答时间记录数据中单个问题的问答开始时间戳,以各问答开始时间戳为节点,对面审视频进行视频片段分割;
提取各视频片段的音频流数据和视频流数据。
在一个实施例中,计算机程序别处理器执行时还实现以下步骤:
提取音频流数据中的声纹数据;
提取声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定基频信息与语速信息对应的基础情绪因子,情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围;
根据预设的基频阈值范围与基频信息的幅值变化、以及预设的语速阈值范围与语速信息的幅值变化,获得声纹波动数据;
根据声纹波动数据超出基础情绪数据波动范围部分的数据量,确定目标用户的情绪变化数据。
在一个实施例中,计算机程序别处理器执行时还实现以下步骤:
获取目标用户的申请信息,申请信息包括目标用户的个人信息、证件信息以及声纹信息;
根据个人信息和证件信息,生成问题集,问题集用于对目标用户进行面审提问;
当接收到目标用户的登录请求时,根据证件信息验证登录请求中携带的登录数据,并根据声纹信息验证登录请求中携带的声纹数据;
当登录数据和声纹数据验证通过时,进入获取目标用户的面审视频的步骤。
在一个实施例中,计算机程序别处理器执行时还实现以下步骤:
提取视频流数据中的目标用户面部图像,获取目标用户面部图像中各预设面部区域的肤色数据;
检测肤色数据是否满足预设肤色数据变化阈值范围,根据检测结果,确定不满足阈值范围的肤色数据对应的目标面部区域,并对目标面部区域进行异常标注;
当异常标注的标注数量和标注等级超过设定的标注数据阈值范围时,根据标注数量和标注等级,确定目标用户的肤色异常等级,肤色异常等级用于表征肤色状况信息。
在一个实施例中,计算机程序别处理器执行时还实现以下步骤:
获取携带有已有欺诈数据的各样本用户的样本数据,分别提取样本数据中预设维度的维度数据,预设维度包括情绪数据维度、面审问答数据维度、肤色数据维度以及微表情数据维度;
根据各样本用户已有欺诈数据、维度数据以及预设维度等级标准,通过回归计算确定各预设维度对应的权重比。
上述用于实现面审视频数据处理方法的计算机可读存储介质,通过通过获取目标用户的面审视频,并提取面审视频中的音频流数据和视频流数据,对音频流数据进行声纹识别处理,得到声纹波动数据,进而通过声纹波动数据与预设的基础情绪数据波动范围的比较,得到目标用户的情绪变化数据,获取视频流数据中的目标用户面部图像,通过分析面部肤色中的肤色异常面部区域的标注数量与异常等级,得到肤色状况信息,根据情绪变化数据与肤色状况信息,结合通过对面审视频进行语音识别和微表情识别处理,得到目标用户的面审问答文本和微表情识别结果,对目标用户进行各维度数据的综合面审评估分析,分析更为全面,从而得到更为准确的面审评估结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种面审视频数据处理方法,所述方法包括:
获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据;
对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据;
获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到所述目标用户的肤色状况信息;
对所述面审视频分别进行语音识别和微表情识别处理,得到所述目标用户的面审问答文本和微表情识别结果;
根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本和所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果。
2.根据权利要求1所述的方法,其特征在于,所述获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据包括:
获取目标用户的面审视频和所述面审视频的问答时间记录数据,
查找所述问答时间记录数据中单个问题的问答开始时间戳,以各所述问答开始时间戳为节点,对所述面审视频进行视频片段分割;
提取各所述视频片段的音频流数据和视频流数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据包括:
提取所述音频流数据中的声纹数据;
提取所述声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定所述基频信息与语速信息对应的基础情绪因子,所述情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围;
根据预设的基频阈值范围与所述基频信息的幅值变化、以及预设的语速阈值范围与所述语速信息的幅值变化,获得所述声纹波动数据;
根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据。
4.根据权利要求1所述的方法,其特征在于,所述获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据之前,还包括:
获取所述目标用户的申请信息,所述申请信息包括所述目标用户的个人信息、证件信息以及声纹信息;
根据所述个人信息和所述证件信息,生成问题集,所述问题集用于对所述目标用户进行面审提问;
当接收到所述目标用户的登录请求时,根据所述证件信息验证所述登录请求中携带的登录数据,并根据所述声纹信息验证所述登录请求中携带的声纹数据;
当所述登录数据和所述声纹数据验证通过时,进入获取目标用户的面审视频的步骤。
5.根据权利要求1所述的方法,其特征在于,所述获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,获得所述目标用户的肤色状况信息包括:
提取所述视频流数据中的目标用户面部图像,获取所述目标用户面部图像中各预设面部区域的肤色数据;
检测所述肤色数据是否满足预设肤色数据变化阈值范围,根据检测结果,确定不满足所述阈值范围的肤色数据对应的目标面部区域,并对所述目标面部区域进行异常标注;
当所述异常标注的标注数量和标注等级超过设定的标注数据阈值范围时,根据所述标注数量和所述标注等级,确定所述目标用户的肤色异常等级,所述肤色异常等级用于表征所述肤色状况信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本和所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果之前,还包括:
获取携带有已有欺诈数据的各样本用户的样本数据,分别提取所述样本数据中预设维度的维度数据,所述预设维度包括情绪数据维度、面审问答数据维度、肤色数据维度以及微表情数据维度;
根据各所述样本用户已有欺诈数据、所述维度数据以及预设维度等级标准,通过回归计算确定各所述预设维度对应的权重比。
7.一种面审视频数据处理装置,其特征在于,所述装置包括:
面审视频获取模块,用于获取目标用户的面审视频,提取所述面审视频中的音频流数据和视频流数据;
声纹识别处理模块,用于对所述音频流数据进行声纹识别处理,得到声纹波动数据,当所述声纹波动数据超出预设的基础情绪数据波动范围时,根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据;
面部肤色变化分析模块,用于获取所述视频流数据中的目标用户面部图像,对所述目标用户面部图像进行面部肤色变化分析,根据分析结果中的肤色异常面部区域的标注数量与异常等级,得到所述目标用户的肤色状况信息;
语音与微表情识别模块,用于对所述面审视频分别进行语音识别和微表情识别处理,得到所述目标用户的面审问答文本和微表情识别结果;
面审评估模块,用于根据所述情绪变化数据、所述肤色状况信息、所述面审问答文本、以及所述微表情识别结果分别所对应的维度,以及各所述维度的预设维度等级标准,确定所述目标用户各维度的等级数据,根据所述各维度的预设权重比数据和所述等级数据,得到所述目标用户的面审评估结果。
8.根据权利要求7所述的面审视频数据处理装置,其特征在于,所述声纹识别处理模块,包括:
声纹数据提取单元,用于提取所述音频流数据中的声纹数据;
基础情绪因子确定单元,用于提取所述声纹数据中的基频信息与语速信息,查找预设的情绪因子数据库,确定所述基频信息与语速信息对应的基础情绪因子,所述情绪因子数据库中存储有各基础情绪因子对应的基础情绪数据波动范围,包括基频信息阈值范围与语速信息阈值范围;
声纹波动数据获取单元,用于根据预设的基频阈值范围与所述基频信息的幅值变化、以及预设的语速阈值范围与所述语速信息的幅值变化,获得所述声纹波动数据;
情绪变化数据获取单元,用于根据所述声纹波动数据超出所述基础情绪数据波动范围部分的数据量,确定所述目标用户的情绪变化数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522249.1A CN110378228A (zh) | 2019-06-17 | 2019-06-17 | 面审视频数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522249.1A CN110378228A (zh) | 2019-06-17 | 2019-06-17 | 面审视频数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110378228A true CN110378228A (zh) | 2019-10-25 |
Family
ID=68248979
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910522249.1A Pending CN110378228A (zh) | 2019-06-17 | 2019-06-17 | 面审视频数据处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110378228A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144197A (zh) * | 2019-11-08 | 2020-05-12 | 宇龙计算机通信科技(深圳)有限公司 | 人性识别方法、装置、存储介质和电子设备 |
CN111339940A (zh) * | 2020-02-26 | 2020-06-26 | 中国工商银行股份有限公司 | 视频风险识别方法及装置 |
CN111401826A (zh) * | 2020-02-14 | 2020-07-10 | 平安科技(深圳)有限公司 | 电子合同签署的双录方法、装置、计算机设备及存储介质 |
CN111429267A (zh) * | 2020-03-26 | 2020-07-17 | 深圳壹账通智能科技有限公司 | 面审风险控制方法、装置、计算机设备及存储介质 |
CN111539339A (zh) * | 2020-04-26 | 2020-08-14 | 北京市商汤科技开发有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN112200462A (zh) * | 2020-10-13 | 2021-01-08 | 中国银行股份有限公司 | 风险评估方法及装置 |
CN112468754A (zh) * | 2020-11-20 | 2021-03-09 | 武汉烽火信息集成技术有限公司 | 一种基于音视频识别技术的笔录数据采集方法及装置 |
CN112667762A (zh) * | 2020-12-25 | 2021-04-16 | 贵州北斗空间信息技术有限公司 | 一种零编程快速构建gis系统的方法 |
CN112786054A (zh) * | 2021-02-25 | 2021-05-11 | 深圳壹账通智能科技有限公司 | 基于语音的智能面试评估方法、装置、设备及存储介质 |
CN113099131A (zh) * | 2021-03-31 | 2021-07-09 | 重庆风云际会智慧科技有限公司 | 一种便携式讯问一体机 |
CN113468983A (zh) * | 2021-06-15 | 2021-10-01 | 杭州海康威视系统技术有限公司 | 一种情绪分析方法、装置、设备及存储介质 |
CN113506018A (zh) * | 2021-07-26 | 2021-10-15 | 中国工商银行股份有限公司 | 线上作业处理方法、装置及系统 |
CN114245204A (zh) * | 2021-12-15 | 2022-03-25 | 平安银行股份有限公司 | 基于人工智能的视频面签方法、装置、电子设备及介质 |
CN115209218A (zh) * | 2022-06-27 | 2022-10-18 | 联想(北京)有限公司 | 一种视频信息处理方法、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019085495A1 (zh) * | 2017-11-01 | 2019-05-09 | 深圳市科迈爱康科技有限公司 | 微表情识别方法、装置、系统及计算机可读存储介质 |
CN109767321A (zh) * | 2018-12-18 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 问答过程优化方法、装置、计算机设备和存储介质 |
CN109815803A (zh) * | 2018-12-18 | 2019-05-28 | 平安科技(深圳)有限公司 | 面审风险控制方法、装置、计算机设备和存储介质 |
US20190164566A1 (en) * | 2017-11-29 | 2019-05-30 | Arobot Innovation Co., Ltd. | Emotion recognizing system and method, and smart robot using the same |
-
2019
- 2019-06-17 CN CN201910522249.1A patent/CN110378228A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019085495A1 (zh) * | 2017-11-01 | 2019-05-09 | 深圳市科迈爱康科技有限公司 | 微表情识别方法、装置、系统及计算机可读存储介质 |
US20190164566A1 (en) * | 2017-11-29 | 2019-05-30 | Arobot Innovation Co., Ltd. | Emotion recognizing system and method, and smart robot using the same |
CN109767321A (zh) * | 2018-12-18 | 2019-05-17 | 深圳壹账通智能科技有限公司 | 问答过程优化方法、装置、计算机设备和存储介质 |
CN109815803A (zh) * | 2018-12-18 | 2019-05-28 | 平安科技(深圳)有限公司 | 面审风险控制方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
朱映映, 周洞汝: "基于视频、音频和文本的视频分段", 计算机工程与应用, no. 03 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111144197A (zh) * | 2019-11-08 | 2020-05-12 | 宇龙计算机通信科技(深圳)有限公司 | 人性识别方法、装置、存储介质和电子设备 |
CN111401826A (zh) * | 2020-02-14 | 2020-07-10 | 平安科技(深圳)有限公司 | 电子合同签署的双录方法、装置、计算机设备及存储介质 |
CN111339940A (zh) * | 2020-02-26 | 2020-06-26 | 中国工商银行股份有限公司 | 视频风险识别方法及装置 |
CN111339940B (zh) * | 2020-02-26 | 2023-07-21 | 中国工商银行股份有限公司 | 视频风险识别方法及装置 |
CN111429267A (zh) * | 2020-03-26 | 2020-07-17 | 深圳壹账通智能科技有限公司 | 面审风险控制方法、装置、计算机设备及存储介质 |
CN111539339A (zh) * | 2020-04-26 | 2020-08-14 | 北京市商汤科技开发有限公司 | 数据处理方法及装置、电子设备和存储介质 |
CN112200462A (zh) * | 2020-10-13 | 2021-01-08 | 中国银行股份有限公司 | 风险评估方法及装置 |
CN112200462B (zh) * | 2020-10-13 | 2024-04-26 | 中国银行股份有限公司 | 风险评估方法及装置 |
CN112468754A (zh) * | 2020-11-20 | 2021-03-09 | 武汉烽火信息集成技术有限公司 | 一种基于音视频识别技术的笔录数据采集方法及装置 |
CN112667762B (zh) * | 2020-12-25 | 2023-04-25 | 贵州北斗空间信息技术有限公司 | 一种零编程快速构建gis系统的方法 |
CN112667762A (zh) * | 2020-12-25 | 2021-04-16 | 贵州北斗空间信息技术有限公司 | 一种零编程快速构建gis系统的方法 |
CN112786054A (zh) * | 2021-02-25 | 2021-05-11 | 深圳壹账通智能科技有限公司 | 基于语音的智能面试评估方法、装置、设备及存储介质 |
CN113099131A (zh) * | 2021-03-31 | 2021-07-09 | 重庆风云际会智慧科技有限公司 | 一种便携式讯问一体机 |
CN113468983A (zh) * | 2021-06-15 | 2021-10-01 | 杭州海康威视系统技术有限公司 | 一种情绪分析方法、装置、设备及存储介质 |
CN113506018A (zh) * | 2021-07-26 | 2021-10-15 | 中国工商银行股份有限公司 | 线上作业处理方法、装置及系统 |
CN114245204A (zh) * | 2021-12-15 | 2022-03-25 | 平安银行股份有限公司 | 基于人工智能的视频面签方法、装置、电子设备及介质 |
CN115209218A (zh) * | 2022-06-27 | 2022-10-18 | 联想(北京)有限公司 | 一种视频信息处理方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110378228A (zh) | 面审视频数据处理方法、装置、计算机设备和存储介质 | |
WO2020177380A1 (zh) | 基于短文本的声纹检测方法、装置、设备及存储介质 | |
Balamurali et al. | Toward robust audio spoofing detection: A detailed comparison of traditional and learned features | |
Hansen et al. | Speaker recognition by machines and humans: A tutorial review | |
Korshunov et al. | Overview of BTAS 2016 speaker anti-spoofing competition | |
CN111311327A (zh) | 基于人工智能的服务评价方法、装置、设备及存储介质 | |
Neustein et al. | Forensic speaker recognition | |
CN109346089A (zh) | 活体身份认证方法、装置、计算机设备和可读存储介质 | |
CN109766474A (zh) | 审讯信息审核方法、装置、计算机设备和存储介质 | |
CN109920435A (zh) | 一种声纹识别方法及声纹识别装置 | |
CN110797032A (zh) | 一种声纹数据库建立方法及声纹识别方法 | |
CN113409771B (zh) | 一种伪造音频的检测方法及其检测系统和存储介质 | |
Barrington et al. | Single and multi-speaker cloned voice detection: From perceptual to learned features | |
Singh et al. | Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection. | |
CN111063359B (zh) | 电话回访有效性判别方法、装置、计算机设备和介质 | |
Mandalapu et al. | Multilingual voice impersonation dataset and evaluation | |
Eveno et al. | Co-inertia analysis for" liveness" test in audio-visual biometrics | |
Sengupta et al. | Speaker recognition using occurrence pattern of speech signal | |
Leuzzi et al. | A Statistical Approach to Speaker Identification in Forensic Phonetics | |
Phoophuangpairoj | Automated Classification of Watermelon Quality Using Non-flicking Reduction and HMM Sequences Derived from Flicking Sound Characteristics. | |
Khanum et al. | A novel speaker identification system using feed forward neural networks | |
Nguyen et al. | Vietnamese speaker authentication using deep models | |
Toledo-Ronen et al. | Towards goat detection in text-dependent speaker verification | |
AU2019100372A4 (en) | A robust speaker recognition system based on dynamic time wrapping | |
CN220983921U (zh) | 一种基于人脸和声纹的识别装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |