CN111552833A - 智能双录方法、装置及存储介质 - Google Patents

智能双录方法、装置及存储介质 Download PDF

Info

Publication number
CN111552833A
CN111552833A CN202010236493.4A CN202010236493A CN111552833A CN 111552833 A CN111552833 A CN 111552833A CN 202010236493 A CN202010236493 A CN 202010236493A CN 111552833 A CN111552833 A CN 111552833A
Authority
CN
China
Prior art keywords
face
double
recording
voice
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010236493.4A
Other languages
English (en)
Inventor
熊玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010236493.4A priority Critical patent/CN111552833A/zh
Publication of CN111552833A publication Critical patent/CN111552833A/zh
Priority to PCT/CN2021/071986 priority patent/WO2021196830A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Abstract

本发明属于智能双录技术领域,本发明提供一种智能双录方法、装置及计算机可读存储介质,其中的方法包括:根据用户指令信息的类型,获取预先与用户指令信息匹配的语音模板,每种用户指令信息匹配有相应的语音模板,根据语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频;对双录视频中的人脸图像进行身份识别,并对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检;根据身份识别和语音质检的结果,判断是否输出双录视频。本发明能够将微信公众号的H5页面和微信小程序结合使用,符合小微企业在初期使用微信公众号开展业务的特点,不需要开发宿主APP即可使用双录功能,有效节约成本。

Description

智能双录方法、装置及存储介质
技术领域
本发明属于智能双录技术领域,尤其涉及一种智能双录方法、装置及计算机可读存储介质。
背景技术
智能双录系统是按照保监下发《保险销售行为可回溯管理暂行办法》要求,结合人工智能技术,实现前端APP现场投保过程录制,安全加密的云端存储,人脸识别智能质检,多维度的查询调取功能,确保内部管理和监管检查要求。在双录过程中,使用人脸识别技术,用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别,从而进行身份识别和比对。同时结合微表情和声音识别技术,对客户信息进行动态的确认,综合判断客户的风险,协助业务顺利开展。
现有的智能双录产品多运用于保险、银行业,配置在线下柜面的系统中,很多小微企业在线上销售产品时,也需要使用双录功能,例如,在金融行业中存在的小微企业销售理财产品或办理贷款过程中,这些小型企业通常以微信中的H5页面(第5代html标准规范简称html5)为主,但是,现有的智能双录产品的SDK(软件开发工具包)不适用于微信中的H5页面。
发明内容
基于上述现有技术中存在的问题,本发明提供一种智能双录方法、装置及计算机可读存储介质,其主要目的在于,通过根据用户指令信息的类型,获取预先与用户指令信息匹配的语音模板,根据语音模板进行语音播报,并对画面和声音进行智能双录,再通过人脸识别技术和语音质检技术对用户进行身份识别和对用户的语音应答进行质检,根据身份识别和语音质检结果,判断是否输出双录视频。能够将微信公众号的H5页面和微信小程序结合使用,符合小微企业在初期使用微信公众号开展业务的特点,不需要开发宿主APP即可使用双录功能,有效节约成本。
为实现上述目的,本发明提供一种智能双录方法,该方法包括:
根据用户指令信息的类型,获取预先与所述用户指令信息匹配的语音模板,其中,所述每种用户指令信息匹配有相应的语音模板,所述语音模板包括:用户指令的内容介绍和提示用户完成双录的指令;
根据所述语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频;
通过人脸识别技术对所述双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对所述双录视频中用户对所述提示用户完成双录的指令的语音应答进行语音质检;
根据所述身份识别和语音质检的结果,判断是否输出双录视频。
优选地,通过人脸识别技术对所述双录视频中的人脸图像进行身份识别的步骤包括:
截取所述双录视频中的人脸图像;
对所述人脸图像进行预处理,以得到清晰的人脸图像,所述预处理包括:图像锐化、背景去除、几何归一化和灰度归一化;
对所述清晰的人脸图像进行特征提取,以获取人脸特征数据;
将所述人脸特征数据输入预设人脸模型中,输出人脸比对结果。
优选地,在截取所述双录视频中的人脸图像之前,所述智能双录的方法还包括:
采集人脸样本图像以及与所述人脸样本图像对应的样本身份信息;
提取所述人脸样本图像中的人脸样本特征数据,建立所述人脸样本特征数据与所述样本身份信息的对应关系;
建立基础模型,根据所述对应关系以及人脸相似度算法对所述基础模型进行训练,生成预设人脸模型。
优选地,所述人脸相似度算法为欧氏距离法,所述欧氏距离法的相似度计算公式为:
Figure BDA0002431165500000021
其中,x为人脸特征数据中的向量,y为人脸样本特征数据中的向量,n为空间维度。
优选地,将所述人脸特征数据输入预设人脸模型中,输出人脸比对结果的步骤包括:
根据所述用户身份信息,获取相应的预设人脸模型;
将所述人脸特征数据与所述预设人脸模型中的人脸样本特征数据通过人脸相似度算法进行相似度计算,获取人脸相似值;
将所述人脸相似值与预设相似度阈值比对,输出人脸比对结果。
优选地,通过智能语音质检技术对所述双录视频中用户对所述提示用户完成双录的指令的语音应答进行语音质检的步骤包括:
获取用户对所述提示用户完成双录的指令的语音应答信息;
对所述语音应答信息进行预处理,以得到清晰的语音应答信息,其中,所述预处理包括:降噪处理、预加重处理、分帧加窗处理;
将所述清晰的语音应答信息与预设语音质检模板进行比对,输出语音质检结果。
优选地,根据所述身份识别和语音质检的结果,判断是否输出双录视频的情况包括:
当所述身份识别和/或所述语音质检结果的失败次数达到预设失败阈值时,将失败结果以信息的形式输出;
当所述身份识别和所述语音质检结果在预设失败阈值范围内全部通过时,输出双录视频。
此外,为实现上述目的,本发明还提供一种电子装置,该电子装置包括:存储器、处理器、摄像装置,所述存储器中存储有智能双录程序,所述智能双录程序被所述处理器执行时实现如下步骤:
根据用户指令信息的类型,获取预先与所述用户指令信息匹配的语音模板,其中,所述每种用户指令信息匹配有相应的语音模板,所述语音模板包括:用户指令的内容介绍和提示用户完成双录的指令;
根据所述语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频;
通过人脸识别技术对所述双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对所述双录视频中用户对所述提示用户完成双录的指令的语音应答进行语音质检;
根据所述身份识别和语音质检的结果,判断是否输出双录视频。
优选地,通过人脸识别技术对所述双录视频中的人脸图像进行身份识别包括:
截取所述双录视频中的人脸图像;
对所述人脸图像进行预处理,以得到清晰的人脸图像,所述预处理包括:图像锐化、背景去除、几何归一化和灰度归一化;
对所述清晰的人脸图像进行特征提取,以获取人脸特征数据;
将所述人脸特征数据输入预设人脸模型中,输出人脸比对结果。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有智能双录程序,所述智能双录程序被处理器执行时,实现如上所述的智能双录方法中的任意步骤。
本发明提出的智能双录方法、装置及计算机可读存储介质,通过根据用户指令信息的类型,获取预先与用户指令信息匹配的语音模板,根据语音模板进行语音播报,并对画面和声音进行智能双录,再通过人脸识别技术和语音质检技术对用户进行身份识别和对用户的语音应答进行质检,根据身份识别和语音应答质检结果,结束双录,能够将微信公众号的H5页面和微信小程序结合使用,符合小微企业在初期使用微信公众号开展业务的特点,不需要开发宿主APP即可使用双录功能,有效节约成本。
附图说明
图1为本发明智能双录方法较佳实施例的应用环境示意图;
图2为图1中智能双录程序较佳实施例的模块示意图;
图3为本发明智能双录方法较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种智能双录方法,应用于一种电子装置1。参照图1所示,为本发明智能双录方法较佳实施例的应用环境示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有运算功能的终端设备。
该电子装置1包括:处理器12、存储器11、摄像装置15、网络接口13及通信总线14。
存储器11包括至少一种类型的可读存储介质。该至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器11等的非易失性存储介质。在一些实施例中,可读存储介质可以是电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,可读存储介质也可以是电子装置1的外部存储器11,例如电子装置1上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(FlashCard)等。
在本实施例中,存储器11的可读存储介质通常用于存储安装于电子装置1的智能双录程序10、语音模板库等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行智能双录程序10等。
网络接口13可选地可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接。
通信总线14用于实现上述这些组件之间的连接通信。
该电子装置1还包括摄像装置15,摄像装置15既可以是电子装置1的一部分,也可以独立于电子装置1。在一些实施例中,电子装置1为智能手机、平板电脑、便携计算机等具有摄像头的终端设备,则摄像装置即为电子装置1的摄像头。在其他实施例中,电子装置1可以为服务器,摄像装置独立于该电子装置1、与该电子装置1通过有线或者无线网络连接。
图1仅示出了具有组件11-15的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。该触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
可选地,该电子装置1还可以包括射频(Radio Frequency,RF)电路,传感器、音频电路等等,在此不再赘述。
在图1所示的装置实施例中,作为一种计算机存储介质的存储器11中可以包括操作系统以及智能双录程序10;处理器12执行存储器11中存储的智能双录程序10时实现如下步骤:
根据用户指令信息的类型,获取预先与用户指令信息匹配的语音模板,其中,每种用户指令信息匹配有相应的语音模板,语音模板包括:用户指令的内容介绍和提示用户完成双录的指令;
根据语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频;
通过人脸识别技术对双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检;
根据身份识别和语音质检的结果,判断是否输出双录视频。
作为本发明的一个优选实施例,为了降低在交易过程中的风险,需要对双录视频中的人脸进行身份识别,通过人脸识别技术对双录视频中的人脸图像进行身份识别的步骤包括:
截取双录视频中的人脸图像;
对人脸图像进行预处理,以得到清晰的人脸图像,预处理包括:图像锐化、背景去除、几何归一化和灰度归一化;
对清晰的人脸图像进行特征提取,以获取人脸特征数据;
将人脸特征数据输入预设人脸模型中,输出人脸比对结果。
作为本发明的一个优选实施例,为了便于进行人脸识别,可建立人脸模型,在截取双录视频中的人脸图像之前,智能双录的方法还包括:
采集人脸样本图像以及与人脸样本图像对应的样本身份信息;
提取人脸样本图像中的人脸样本特征数据,建立人脸样本特征数据与样本身份信息的对应关系;
建立基础模型,根据对应关系以及人脸相似度算法对基础模型进行训练,生成预设人脸模型。
作为本发明的一个优选实施例,人脸相似度算法为欧氏距离法,欧氏距离法的相似度计算公式为:
Figure BDA0002431165500000071
其中,x为人脸特征数据中的向量,y为人脸样本特征数据中的向量,n为空间维度。
作为本发明的一个优选实施例,将人脸特征数据输入预设人脸模型中,输出人脸比对结果的步骤包括:
根据用户身份信息,获取相应的预设人脸模型;
将人脸特征数据与预设人脸模型中的人脸样本特征数据通过人脸相似度算法进行相似度计算,获取人脸相似值;
将人脸相似值与预设相似度阈值比对,输出人脸比对结果。
作为本发明的一个优选实施例,为了确保交易是用户的真实意愿,所以在完成双录时,需要通过用户对提示用户完成双录的指令的语音应答进行质检,通过智能语音质检技术对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检的步骤包括:
获取用户对提示用户完成双录的指令的语音应答信息;
对语音应答信息进行预处理,以得到清晰的语音应答信息,其中,预处理包括:降噪处理、预加重处理、分帧加窗处理;
将清晰的语音应答信息与预设语音质检模板进行比对,输出语音质检结果。
作为本发明的一个优选实施例,为了当身份识别和语音质检失败时,对用户能够做出提醒,根据身份识别和语音质检的结果,判断是否输出双录视频的情况包括:
当身份识别和/或语音质检结果的失败次数达到预设失败阈值时,将失败结果以信息的形式输出;
当身份识别和语音质检结果在预设失败阈值范围内全部通过时,输出双录视频。
在其他实施例中,智能双录程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。
本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。参照图2所示,为图1中智能双录程序10较佳实施例的程序模块图。所述智能双录程序10可以被分割为:语音模板获取模块110、智能双录模块120、身份识别和语音质检模块130、视频输出判断模块140。
所述模块110-140所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
语音模板获取模块110:用于根据用户指令信息的类型,获取预先与用户指令信息匹配的语音模板,其中,每种用户指令信息匹配有相应的语音模板,语音模板包括:用户指令的内容介绍和提示用户完成双录的指令。
智能双录模块120:用于根据语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频。
身份识别和语音质检模块130:用于通过人脸识别技术对双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检。
视频输出判断模块140:用于根据身份识别和语音质检的结果,判断是否输出双录视频。
此外,本发明还提供一种智能双录方法。参照图3所示,为本发明智能双录方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,智能双录方法包括:步骤S10-步骤S40。
步骤S10,根据用户指令信息的类型,获取预先与用户指令信息匹配的语音模板。
其中,每种用户指令信息匹配有相应的语音模板,语音模板包括:用户指令的内容介绍和提示用户完成双录的指令。
在金融行业,很多小微企业在线上销售理财产品或办理贷款时,需要使用双录功能,它们的销售平台以微信中的H5页面(第5代html标准规范简称html5)为主,现有的智能双录产品的SDK(软件开发工具包)并不适用于微信中的H5页面,本发明提供的智能双录的方法可适用于微信中的H5页面。
具体地,用户在H5的登录页面中通过输入身份信息登录进入H5的操作页面,在H5的操作页面中选择需要进行的业务,例如,购买产品或者办理贷款等,形成用户指令信息,用户通过点击H5的操作页面中的小程序入口连接,开启小程序。
具体地,处理器12根据用户指令信息的类型,从语音模板库中,获取预先与该用户指令信息匹配的语音模板,每种用户指令信息匹配有相应的语音模板,例如,用户的指令信息是购买某种产品,则与该用户指令信息预先匹配的语音模板为对该种产品的语音介绍和提示用户完成双录的指令,其中,提示用户完成双录的指令采用问答方式或者指示方式,例如,在语音介绍产品后,对用户进行语音提问,如“是否确定购买该种产品?”或者,在语音介绍产品后指示用户复述一句话例如“我购买”等方式,从而能够获取用户愿意完成其所选择的业务的语音信息,作为用户完成双录的指令。
步骤S20,根据语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频。
具体地,根据处理器12获取的语音模板,将语音模板发送至小程序,小程序对用户进行语音播报,同时对用户的业务操作的完成过程进行智能双录,得到双录视频。
步骤S30,通过人脸识别技术对双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检。
其中,通过人脸识别技术对双录视频中的人脸图像进行身份识别的步骤包括:
截取双录视频中的人脸图像;
对人脸图像进行预处理,以得到清晰的人脸图像,预处理包括:图像锐化、背景去除、几何归一化和灰度归一化;
对清晰的人脸图像进行特征提取,以获取人脸特征数据;
将人脸特征数据输入预设人脸模型中,输出人脸比对结果。
具体地,截取多张双录视频中的人脸图像,处理器12先对多张人脸图像进行筛选,筛选出人脸结构完整的图像,对完整的人脸图像进行预处理,得到清晰的人脸图像,其中,通过图像锐化补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使图像变得清晰;通过背景去除,将人脸图像中的背景去除,便于人脸识别;通过几何归一化对图像进行了一系列标准的处理变换,使之变换为一固定标准形式;通过灰度归一化减小甚至消除图像中灰度不一致,得到清晰的人脸图像,通过人脸特征提取技术,提取出人脸特征数据,将人脸特征数据输入到预设人脸模型中,输出人脸比对结果。
其中,在截取双录视频中的人脸图像之前,智能双录的方法还包括:
采集人脸样本图像以及与人脸样本图像对应的样本身份信息;
提取人脸样本图像中的人脸样本特征数据,建立人脸样本特征数据与样本身份信息的对应关系;
建立基础模型,根据对应关系以及人脸相似度算法对基础模型进行训练,生成预设人脸模型。
具体地,预设人脸模型的建立是先采集人脸样本图像和与人脸样本图像对应的样本身份信息,人脸样本图像和人脸样本身份信息的来源优选于公安数据库;通过人脸特征提取技术,获取人脸样本图像中的人脸数据,再建立人脸样本特征数据与样本身份信息之间的对应关系;建议基础模型,根据上述的对应关系和人脸相似度算法对基础模型进行训练,生成预设人脸模型,只需要将人脸特征数据输入模型中,便可获取人脸数据与人脸样本数据两者之间的相似度。
其中,人脸相似度算法为欧氏距离法,欧氏距离法的相似度计算公式为:
Figure BDA0002431165500000111
其中,x为人脸特征数据中的向量,y为人脸样本特征数据中的向量,n为空间维度。
当然也可选择其它的人脸相似度算法,如:闵可夫斯基距离算法、曼哈顿距离算法、余弦相似度算法等,在此不作限定。
其中,将人脸特征数据输入预设人脸模型中,输出人脸比对结果的步骤包括:
根据用户身份信息,获取相应的预设人脸模型;
将人脸特征数据与预设人脸模型中的人脸样本特征数据通过人脸相似度算法进行相似度计算,获取人脸相似值;
将人脸相似值与预设相似度阈值比对,输出人脸比对结果。
具体地,根据用户的用户身份信息,从预设人脸模型库中,获取身份对应的预设人脸模型,将人脸特征数据与预设人脸模型中的人脸样本特征数据通过人脸相似度算法进行相似度计算,获取人脸相似值,将人脸相似值与预设相似度阈值比对,输出人脸比对结果。
当符合预设阈值时,输出人脸比对结果为身份识别成功;当不符合预设阈值时,输出的结果为身份识别失败。
其中,通过智能语音质检技术对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检的步骤包括:
获取用户对提示用户完成双录的指令的语音应答信息;
对语音应答信息进行预处理,以得到清晰的语音应答信息,其中,预处理包括:降噪处理、预加重处理、分帧加窗处理;
将清晰的语音应答信息与预设语音质检模板进行比对,输出语音质检结果。
具体地,获取提示用户完成双录的指令的语音应答信息,对语音应答信息进行声音处理,得到清晰的语音应答信息,将清晰的语音应答信息与预设的语音质检模板比对,以问答形式的购买产品为例,提示用户完成双录的指令为“是否确定购买该种产品?”,则语音质检模板为“同意购买”,如果用户的语音应答信息也为“同意购买”,则通过语音质检,如果用户的语音应答信息为“不同意购买”或其它回答,则语音质检失败。
步骤S40,根据身份识别和语音质检的结果,判断是否输出双录视频。
其中,根据获取的身份识别和语音质检结果,判断是否输出双录视频的情况包括:
当身份识别和/或语音质检结果的失败次数达到预设失败阈值时,将失败结果以信息的形式输出;
当身份识别和语音质检结果在预设失败阈值范围内全部通过时,输出双录视频。
具体地,为了更好的理解,举例如下,例如,身份识别的预设失败阈值为3次,语音质检的失败阈值也为3次,当身份识别的失败次数达到3次,语音质检通过时,输出用户身份识别失败的信息;当语音质检失败次数达到3次,身份识别通过时,输出语音质检失败的信息;当身份识别和语音质检的失败次数都达到3次时,同时输出用户身份识别失败的信息和语音质检失败的信息;当身份识别和语音质检都在3次失败阈值的范围内通过时,则输出双录视频。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有智能双录程序,所述智能双录程序被处理器执行时实现如下操作:
根据用户指令信息的类型,获取预先与用户指令信息匹配的语音模板,其中,每种用户指令信息匹配有相应的语音模板,语音模板包括:用户指令的内容介绍和提示用户完成双录的指令;
根据语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频;
通过人脸识别技术对双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检;
根据身份识别和语音质检的结果,判断是否输出双录视频。
优选地,通过人脸识别技术对双录视频中的人脸图像进行身份识别的步骤包括:
截取双录视频中的人脸图像;
对人脸图像进行预处理,以得到清晰的人脸图像,预处理包括:图像锐化、背景去除、几何归一化和灰度归一化;
对清晰的人脸图像进行特征提取,以获取人脸特征数据;
将人脸特征数据输入预设人脸模型中,输出人脸比对结果。
优选地,在截取双录视频中的人脸图像之前,智能双录的方法还包括:
采集人脸样本图像以及与人脸样本图像对应的样本身份信息;
提取人脸样本图像中的人脸样本特征数据,建立人脸样本特征数据与样本身份信息的对应关系;
建立基础模型,根据对应关系以及人脸相似度算法对基础模型进行训练,生成预设人脸模型。
优选地,人脸相似度算法为欧氏距离法,欧氏距离法的相似度计算公式为:
Figure BDA0002431165500000131
其中,x为人脸特征数据中的向量,y为人脸样本特征数据中的向量,n为空间维度。
优选地,将人脸特征数据输入预设人脸模型中,输出人脸比对结果的步骤包括:
根据用户身份信息,获取相应的预设人脸模型;
将人脸特征数据与预设人脸模型中的人脸样本特征数据通过人脸相似度算法进行相似度计算,获取人脸相似值;
将人脸相似值与预设相似度阈值比对,输出人脸比对结果。
优选地,通过智能语音质检技术对双录视频中用户对提示用户完成双录的指令的语音应答进行语音质检的步骤包括:
获取用户对提示用户完成双录的指令的语音应答信息;
对语音应答信息进行预处理,以得到清晰的语音应答信息,其中,预处理包括:降噪处理、预加重处理、分帧加窗处理;
将清晰的语音应答信息与预设语音质检模板进行比对,输出语音质检结果。
优选地,根据身份识别和语音质检的结果,判断是否输出双录视频的情况包括:
当身份识别和/或语音质检结果的失败次数达到预设失败阈值时,将失败结果以信息的形式输出;
当身份识别和语音质检结果在预设失败阈值范围内全部通过时,输出双录视频。
本发明之计算机可读存储介质的具体实施方式与上述智能双录方法、电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种智能双录方法,应用于电子装置,其特征在于,所述方法包括:
根据用户指令信息的类型,获取预先与所述用户指令信息匹配的语音模板,其中,所述每种用户指令信息匹配有相应的语音模板,所述语音模板包括:用户指令的内容介绍和提示用户完成双录的指令;
根据所述语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频;
通过人脸识别技术对所述双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对所述双录视频中用户对所述提示用户完成双录的指令的语音应答进行语音质检;
根据所述身份识别和语音质检的结果,判断是否输出双录视频。
2.根据权利要求1所述的智能双录方法,其特征在于,通过人脸识别技术对所述双录视频中的人脸图像进行身份识别的步骤包括:
截取所述双录视频中的人脸图像;
对所述人脸图像进行预处理,以得到清晰的人脸图像,所述预处理包括:图像锐化、背景去除、几何归一化和灰度归一化;
对所述清晰的人脸图像进行特征提取,以获取人脸特征数据;
将所述人脸特征数据输入预设人脸模型中,输出人脸比对结果。
3.根据权利要求2所述的智能双录方法,其特征在于,在截取所述双录视频中的人脸图像之前,所述智能双录的方法还包括:
采集人脸样本图像以及与所述人脸样本图像对应的样本身份信息;
提取所述人脸样本图像中的人脸样本特征数据,建立所述人脸样本特征数据与所述样本身份信息的对应关系;
建立基础模型,根据所述对应关系以及人脸相似度算法对所述基础模型进行训练,生成预设人脸模型。
4.根据权利要求3所述的智能双录方法,其特征在于,所述人脸相似度算法为欧氏距离法,所述欧氏距离法的相似度计算公式为:
Figure FDA0002431165490000021
其中,x为人脸特征数据中的向量,y为人脸样本特征数据中的向量,n为空间维度。
5.根据权利要求2所述的智能双录方法,其特征在于,将所述人脸特征数据输入预设人脸模型中,输出人脸比对结果的步骤包括:
根据所述用户身份信息,获取相应的预设人脸模型;
将所述人脸特征数据与所述预设人脸模型中的人脸样本特征数据通过人脸相似度算法进行相似度计算,获取人脸相似值;
将所述人脸相似值与预设相似度阈值比对,输出人脸比对结果。
6.根据权利要求1所述的智能双录方法,其特征在于,通过智能语音质检技术对所述双录视频中用户对所述提示用户完成双录的指令的语音应答进行语音质检的步骤包括:
获取用户对所述提示用户完成双录的指令的语音应答信息;
对所述语音应答信息进行预处理,以得到清晰的语音应答信息,其中,所述预处理包括:降噪处理、预加重处理、分帧加窗处理;
将所述清晰的语音应答信息与预设语音质检模板进行比对,输出语音质检结果。
7.根据权利要求1所述的智能双录方法,其特征在于,根据所述身份识别和语音质检的结果,判断是否输出双录视频的情况包括:
当所述身份识别和/或所述语音质检结果的失败次数达到预设失败阈值时,将失败结果以信息的形式输出;
当所述身份识别和所述语音质检结果在预设失败阈值范围内全部通过时,输出双录视频。
8.一种电子装置,其特征在于,该电子装置包括:存储器、处理器、摄像装置,所述存储器中存储有智能双录程序,所述智能双录程序被所述处理器执行时实现如下步骤:
根据用户指令信息的类型,获取预先与所述用户指令信息匹配的语音模板,其中,所述每种用户指令信息匹配有相应的语音模板,所述语音模板包括:用户指令的内容介绍和提示用户完成双录的指令;
根据所述语音模板进行语音播报,并对画面和声音进行智能双录,得到双录视频;
通过人脸识别技术对所述双录视频中的人脸图像进行身份识别,并通过智能语音质检技术对所述双录视频中用户对所述提示用户完成双录的指令的语音应答进行语音质检;
根据所述身份识别和语音质检的结果,判断是否输出双录视频。
9.根据权利要求8所述的电子装置,其特征在于,通过人脸识别技术对所述双录视频中的人脸图像进行身份识别包括:
截取所述双录视频中的人脸图像;
对所述人脸图像进行预处理,以得到清晰的人脸图像,所述预处理包括:图像锐化、背景去除、几何归一化和灰度归一化;
对所述清晰的人脸图像进行特征提取,以获取人脸特征数据;
将所述人脸特征数据输入预设人脸模型中,输出人脸比对结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有智能双录程序,所述智能双录程序被处理器执行时,实现如权利要求1至7中任一项所述的智能双录方法的步骤。
CN202010236493.4A 2020-03-30 2020-03-30 智能双录方法、装置及存储介质 Pending CN111552833A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010236493.4A CN111552833A (zh) 2020-03-30 2020-03-30 智能双录方法、装置及存储介质
PCT/CN2021/071986 WO2021196830A1 (zh) 2020-03-30 2021-01-15 智能双录方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236493.4A CN111552833A (zh) 2020-03-30 2020-03-30 智能双录方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN111552833A true CN111552833A (zh) 2020-08-18

Family

ID=72002332

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236493.4A Pending CN111552833A (zh) 2020-03-30 2020-03-30 智能双录方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN111552833A (zh)
WO (1) WO2021196830A1 (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017056A (zh) * 2020-10-26 2020-12-01 广州佰锐网络科技有限公司 一种智能双录方法及系统
CN112258317A (zh) * 2020-10-30 2021-01-22 深圳壹账通智能科技有限公司 基于人工智能的线上信贷方法、装置、计算机设备及介质
CN112328999A (zh) * 2021-01-05 2021-02-05 北京远鉴信息技术有限公司 双录质检方法、装置、服务器及存储介质
CN113051546A (zh) * 2021-03-24 2021-06-29 珠海华发金融科技研究院有限公司 一种双录方法、视频音频采集系统及计算机可读存储介质
CN113221990A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 信息录入方法、装置及相关设备
WO2021196830A1 (zh) * 2020-03-30 2021-10-07 深圳壹账通智能科技有限公司 智能双录方法、装置及存储介质
WO2022100349A1 (zh) * 2020-11-16 2022-05-19 深圳壹账通智能科技有限公司 基于人工智能的双录质检方法、装置、计算机设备及介质
CN115330359A (zh) * 2022-10-11 2022-11-11 湖北微模式科技发展有限公司 一种实现本地化双录质检稽核服务的方法
CN115883760A (zh) * 2022-01-11 2023-03-31 北京中关村科金技术有限公司 音视频的实时质检方法、装置及存储介质
CN115941838A (zh) * 2022-03-24 2023-04-07 北京有限元科技有限公司 实现移动端耳机模式进行双录的方法及系统
CN116489291A (zh) * 2022-12-24 2023-07-25 北京汇易达数字科技有限公司 一种用于html5金融双录系统的录制方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114679557A (zh) * 2022-03-18 2022-06-28 中国建设银行股份有限公司 录制数据质检方法、装置、设备、存储介质及程序产品
CN115100713B (zh) * 2022-06-27 2024-01-30 飞虎互动科技(北京)有限公司 基于实时音视频的金融风控检测方法、装置及电子设备
CN115690673B (zh) * 2022-09-30 2023-06-06 广东康君环安技术股份有限公司 一种施工现场安全作业的安全帽监测方法及系统
CN116366927B (zh) * 2023-04-07 2024-04-19 北京海上升科技有限公司 基于区块链的视频直播智能交互和大数据管理方法及系统
CN116308762B (zh) * 2023-05-19 2023-08-11 杭州钱袋数字科技有限公司 一种基于人工智能的可信度评估及授信处理方法
CN116723343A (zh) * 2023-08-08 2023-09-08 北京赛博日新科技有限公司 基于区块链的网络直播大数据智能监测和存储方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104966053B (zh) * 2015-06-11 2018-12-28 腾讯科技(深圳)有限公司 人脸识别方法及识别系统
CN109660744A (zh) * 2018-10-19 2019-04-19 深圳壹账通智能科技有限公司 基于大数据的智能双录方法、设备、存储介质及装置
CN109767335A (zh) * 2018-12-15 2019-05-17 深圳壹账通智能科技有限公司 双录质检方法、装置、计算机设备及存储介质
CN110147726B (zh) * 2019-04-12 2024-02-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置
CN110929244A (zh) * 2019-12-06 2020-03-27 中国建设银行股份有限公司 数字化身份识别方法、装置、设备及存储介质
CN111552833A (zh) * 2020-03-30 2020-08-18 深圳壹账通智能科技有限公司 智能双录方法、装置及存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021196830A1 (zh) * 2020-03-30 2021-10-07 深圳壹账通智能科技有限公司 智能双录方法、装置及存储介质
CN112017056A (zh) * 2020-10-26 2020-12-01 广州佰锐网络科技有限公司 一种智能双录方法及系统
CN112258317A (zh) * 2020-10-30 2021-01-22 深圳壹账通智能科技有限公司 基于人工智能的线上信贷方法、装置、计算机设备及介质
WO2022100349A1 (zh) * 2020-11-16 2022-05-19 深圳壹账通智能科技有限公司 基于人工智能的双录质检方法、装置、计算机设备及介质
CN112328999A (zh) * 2021-01-05 2021-02-05 北京远鉴信息技术有限公司 双录质检方法、装置、服务器及存储介质
CN113051546A (zh) * 2021-03-24 2021-06-29 珠海华发金融科技研究院有限公司 一种双录方法、视频音频采集系统及计算机可读存储介质
CN113221990A (zh) * 2021-04-30 2021-08-06 平安科技(深圳)有限公司 信息录入方法、装置及相关设备
CN113221990B (zh) * 2021-04-30 2024-02-23 平安科技(深圳)有限公司 信息录入方法、装置及相关设备
CN115883760A (zh) * 2022-01-11 2023-03-31 北京中关村科金技术有限公司 音视频的实时质检方法、装置及存储介质
CN115941838A (zh) * 2022-03-24 2023-04-07 北京有限元科技有限公司 实现移动端耳机模式进行双录的方法及系统
CN115330359A (zh) * 2022-10-11 2022-11-11 湖北微模式科技发展有限公司 一种实现本地化双录质检稽核服务的方法
CN115330359B (zh) * 2022-10-11 2023-01-17 湖北微模式科技发展有限公司 一种实现本地化双录质检稽核服务的方法
CN116489291A (zh) * 2022-12-24 2023-07-25 北京汇易达数字科技有限公司 一种用于html5金融双录系统的录制方法

Also Published As

Publication number Publication date
WO2021196830A1 (zh) 2021-10-07

Similar Documents

Publication Publication Date Title
CN111552833A (zh) 智能双录方法、装置及存储介质
US9721156B2 (en) Gift card recognition using a camera
CN107492379B (zh) 一种声纹创建与注册方法及装置
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US20230081645A1 (en) Detecting forged facial images using frequency domain information and local correlation
CN108256591B (zh) 用于输出信息的方法和装置
WO2020024484A1 (zh) 用于输出数据的方法和装置
CN107679572B (zh) 一种图像判别方法、存储设备及移动终端
US11126827B2 (en) Method and system for image identification
CN111683285B (zh) 文件内容识别方法、装置、计算机设备及存储介质
CN109409349B (zh) 信贷证件鉴别方法、装置、终端及计算机可读存储介质
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
CN110263737A (zh) 图像处理方法、图像处理装置、终端设备及可读存储介质
CN111415336A (zh) 一种图像篡改识别方法、装置、服务器及存储介质
CN111553191A (zh) 基于人脸识别的视频分类方法、装置及存储介质
CN111353891A (zh) 资金交易数据中可疑团伙的识别辅助方法及装置
CN111640438B (zh) 音频数据处理方法、装置、存储介质及电子设备
CN115497152A (zh) 基于图像识别的客户信息分析方法、装置、系统及介质
CN112055013A (zh) 一种自动化认证方法、装置、设备和存储介质
CN116486789A (zh) 语音识别模型的生成方法、语音识别方法、装置及设备
CN112699720A (zh) 基于人物信息集的监控方法、设备、存储介质及装置
CN113538103A (zh) 采购控制方法及装置、存储介质及电子设备
CN113077048B (zh) 基于神经网络的印章匹配方法、系统、设备及存储介质
US20230133678A1 (en) Method for processing augmented reality applications, electronic device employing method, and non-transitory storage medium
CN114531290A (zh) 登录信息管理方法、登录信息管理装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40033238

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination