CN111741356B - 双录视频的质检方法、装置、设备及可读存储介质 - Google Patents

双录视频的质检方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN111741356B
CN111741356B CN202010864212.XA CN202010864212A CN111741356B CN 111741356 B CN111741356 B CN 111741356B CN 202010864212 A CN202010864212 A CN 202010864212A CN 111741356 B CN111741356 B CN 111741356B
Authority
CN
China
Prior art keywords
video
quality inspection
recognition
content
double
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010864212.XA
Other languages
English (en)
Other versions
CN111741356A (zh
Inventor
丁凯
严石伟
丁小华
蒋楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010864212.XA priority Critical patent/CN111741356B/zh
Publication of CN111741356A publication Critical patent/CN111741356A/zh
Application granted granted Critical
Publication of CN111741356B publication Critical patent/CN111741356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请公开了一种双录视频的质检方法、装置、设备及可读存储介质,涉及机器学习领域。该方法包括:对双录多媒体文件进行拆分处理;对音频文件进行关键词监听,得到关键词在音频文件中的出现时刻;以出现时刻对视频文件进行分段,得到关键词对应的关键视频片段;以关键词对应的视频质检方式对关键视频片段中的图像帧进行质检,得到双录视频的质检结果。针对双录视频中的音频文件进行关键词监听,根据监听到的关键词从视频文件中划分出关键视频片段,从而针对不同的关键视频片段以关键词对应的质检方式进行不同的质检处理,得到质检结果,提高了质检效率,由服务器完成双录视频的质检计算,提高了质检计算的并行计算能力。

Description

双录视频的质检方法、装置、设备及可读存储介质
技术领域
本申请实施例涉及机器学习领域,特别涉及一种双录视频的质检方法、装置、设备及可读存储介质。
背景技术
双录视频是指保险公司或者保险中介机构通过录音录像的技术采集视听资料、电子数据,以记录和保存保险销售过程的视频,双录视频在录制完毕后,需要通过质检对其中的关键环节,如:签字环节、证件展示环节等进行验证,以确定签字环节中的签字内容、证件展示环节中展示的证件内容符合要求。
相关技术中,在进行双录视频的质检时,采用人工审核的方式,由审核员根据经验从视频中定位至关键环节,并对关键环节中沟通内容和展示内容进行审核。
然而,由于双录视频通常长达十几分钟,通过人工审核的方式,单个双录视频需要5分钟左右的时间进行审核,耗费较多人力资源,且审核效率较低,审核过程耗时较长。
发明内容
本申请实施例提供了一种双录视频的质检方法、装置、设备及可读存储介质,能够提高双录视频的质检效率以及准确率。所述技术方案如下。
一方面,提供了一种双录视频的质检方法,应用于计算机设备中,所述方法包括:
对双录多媒体文件进行拆分处理,得到所述双录多媒体文件中的音频文件和视频文件;
对所述音频文件进行关键词监听,得到关键词在所述音频文件中的出现时刻;
以所述出现时刻对所述视频文件进行分段,得到所述关键词对应的关键视频片段,所述计算机设备中存储有所述关键词与视频质检方式的对应关系;
根据所述关键视频片段对应的所述关键词,从所述对应中确定对应的所述视频质检方式,对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容;
确定与所述视频识别内容对应的所述双录视频的质检结果。
另一方面,提供了一种双录视频的质检装置,所述装置包括:
拆分模块,用于对双录多媒体文件进行拆分处理,得到所述双录多媒体文件中的音频文件和视频文件;
监听模块,用于对所述音频文件进行关键词监听,得到关键词在所述音频文件中的出现时刻;
分段模块,用于以所述出现时刻对所述视频文件进行分段,得到所述关键词对应的关键视频片段,计算机设备中存储有所述关键词与视频质检方式的对应关系;
质检模块,用于根据所述关键视频片段对应的所述关键词,从所述对应中确定对应的所述视频质检方式,对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容;确定与所述视频识别内容对应的所述双录视频的质检结果。
另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述双录视频的质检方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的双录视频的质检方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的双录视频的质检方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
针对双录视频中的音频文件进行关键词监听,根据监听到的关键词从视频文件中划分出关键视频片段,从而针对不同的关键视频片段以关键词对应的质检方式进行不同的质检处理,得到质检结果,无需人工对双录视频进行浏览,并从中对视频内容进行肉眼识别,提高了质检效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的质检结果的展示界面示意图;
图2是本申请一个示例性实施例提供的质检系统的整体框架示意图;
图3是本申请一个示例性实施例提供的质检系统的组成结构示意图;
图4是本申请一个示例性实施例提供的双录视频的质检方法的流程图;
图5是基于图4示出的实施例提供的音视频拆分过程示意图;
图6是本申请另一个示例性实施例提供的双录视频的质检方法的流程图;
图7是基于图6示出的实施例提供的人脸识别以及人体识别的示意图;
图8是基于图6示出的实施例提供的人脸跟踪以及人体跟踪过程示意图;
图9是基于图6示出的实施例提供的预设人脸库中的人脸上传过程示意图;
图10是本申请另一个示例性实施例提供的双录视频的质检方法的流程图;
图11是本申请一个示例性实施例提供的双录视频的视频文件质检过程示意图;
图12是本申请一个示例性实施例提供的双录视频的质检装置的结构框图;
图13是本申请另一个示例性实施例提供的双录视频的质检装置的结构框图;
图14是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,针对本申请实施例中涉及的名词进行简单介绍:
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
双录视频:是指保险公司或者保险中介机构通过录音录像的技术采集视听资料、电子数据,以记录和保存保险销售过程的视频。由于在录制过程中,需要语音播报内容、语音确认内容、视频展示内容进行同步录制,故,采用视频音频录制的双录模式。双录视频在录制完毕后,需要通过质检对其中的关键环节,如:签字环节、证件展示环节等进行验证,以确定签字环节中的签字内容、证件展示环节中展示的证件内容符合要求。
光学字符识别(Optical Character Recognition,OCR):是通过字符识别将待识别文件中的文字转换成文本格式的过程。通常,OCR过程需要经过待识别文件输入、文字特征提取、比对识别等步骤后才能完成。
云技术(Cloud technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。技术网络系统的后台服务需要大量的计算、存储资源,示意性的,双录视频的质检过程中,需要对双录视频进行存储、对双录视频中的不同关键视频片段进行AI计算。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
结合上述名词简介,对本申请实施例涉及的应用场景进行举例说明:
示意性的,针对保险公司在保险销售过程中录制的双录视频,工作人员通过终端将双录视频上传至服务器中,由服务器对双录视频进行拆分处理,得到其中的音频文件和视频文件,其中,将音频文件进行转文字后,监听其中的关键词“身份证展示”、“单证展示”、“签字”、“签字展示”等。
其中,针对监听到关键词“身份证展示”的视频片段,对视频片段进行人脸识别以及人体识别,识别得到人体的展示动作,以及识别人体所展示的身份证卡片,通过OCR识别得到身份证信息,并记录展示时刻。
针对监听到关键词“单证展示”的视频片段,对视频片段进行人脸识别以及人体识别,识别得到人体的展示动作,以及识别人体所展示的单证文件,通过OCR识别得到单证文件的文件内容,以及单证文件对应的单证类型,并记录展示时刻。
针对监听到关键词“签字”的视频片段,对视频片段进行人脸识别以及人体识别,识别得到人体的签字动作,记录签字动作的执行对象,以及记录签字时刻。
针对监听到关键词“签字展示”的视频片段,对视频片段进行人脸识别以及人体识别,识别得到人体的展示动作,以及识别人体所展示的签字内容,通过OCR识别得到签字名字,并记录展示时刻。
其中,在双录视频的质检过程中,对双录视频中出现的人物进行实时监控。
示意性的,质检结果的展示请参考图1,在质检结果展示界面100中包括视频人数监控110、角色监控120、证件展示时刻130、身份证信息识别140、身份确认150、签字动作识别160、签字内容识别170、单证类型识别180、语音转文本内容190。
其中,视频人数监控110需要确保视频中的人物不会离开视频拍摄范围;角色监控120用于确保视频中的人物符合人物身份要求;证件展示时刻130用于定位置双录视频中证件展示的时刻;身份证信息识别140用于对展示的证件进行OCR识别,得到证件内容;身份确认150用于结合证件内容对视频人物进行身份认证;签字动作识别160用于对签字动作在双录视频中的出现时刻进行定位;签字内容识别170用于对签字内容进行认证;单证类型识别180用于对双录视频中展示的单证类型进行确认;语音转文本内容190用于对双录视频中的音频转成文本内容进行审核。
也即,本申请实施例中,主要涉及语音识别、人脸识别、人体识别、动作识别和OCR识别,示意性的,请参考图2,在双录视频质检系统200中首先通过音视频转换开源计算机程序(Fast Forward Moving Picture Experts Group,FFMPEG)210进行音视频分离,针对音频流,通过自动语音识别技术(Automatic Speech Recognition,ASR)220进行该语音识别,并通过神经语言程序学(Neuro-Linguistic Programming,NLP)230进行文字理解,以获取完整的结构化文字。结合文字确定视频文件中各类型关键词对应的视频时间段,并对各个视频片段进行人脸识别240、人体识别250、动作识别260以及OCR识别270中的至少一种识别。
示意性的,结合上述图1和图2,对双录视频质检系统的整体功能进行说明,如图3所示,该系统中包括在流程开始时,前端管理模块311上传双录视频和关键信息321;音视频拆分模块312将双录视频拆分为音频流和视频流322(利用FFMPEG技术);语音转文字模块313对音频流进行转文字处理323,其中,包括1、语音转文字;2、关键词监听;3、结构化文字(利用ASR及NLP技术)。视频取流模块314从视频流中取出实时帧324(利用FFMPEG技术);人脸识别模块315对图像帧进行识别,得到人脸框和人脸轨迹325(利用人脸检测及人脸跟踪技术);人脸检索模块316对人脸进行检索,得到人脸身份326(利用人脸特征提取及人脸检索技术);人体识别模块317对图像帧进行人体识别,得到人体框和人体轨迹327(利用人体检测及人体跟踪技术);人脸人体绑定模块318将人脸人体轨迹绑定328(利用人脸人体绑定技术);OCR签字识别模块319识别签字过程并得到签字结果和时间329(利用OCR手写体识别技术);OCR单证识别模块330对单证展示过程进行识别,得到单证类型和时间340(利用OCR打印体识别技术);OCR身份证识别模块331对身份证展示过程进行识别,得到身份证和时间341(利用OCR证件识别技术);展示类动作识别模块332对动作类型和时段342进行识别,得到展示类动作(利用展示程序开发包);签字类动作识别模块333对动作类型和时段343进行识别,得到签字类动作(利用签字程序开发包)。
值得注意的是,上述举例中,以保险销售过程中的双录视频为例进行说明,本申请提供的双录视频的质检方法还可以应用于其他通过录制音频视频进行认证以及证据留存时,对双录视频进行质检的方案中,本申请实施例对此不加以限定。
值得注意的是,上述服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
示意性的,以本申请实施例中提供的质检方法应用于云服务器中为例,云计算(cloud computing)是指互联网技术(Internet Technology,IT)基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing )、分布式计算(DistributedComputing)、并行计算(Parallel Computing)、效用计算(UtilityComputing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
示意性的,本申请实施例中,不同关键词对应的关键视频片段在进行AI计算时,通过并行计算方式进行并行处理,提高了关键视频片段的AI计算效率。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
而云技术中,还包括人工智能云服务,一般也被称作是AI即服务(AI as aService,AIaaS)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
示意性的,本申请实施例中,AIaaS平台将本申请实施例中,不同关键词对应的AI服务进行拆分,在根据关键词将双录视频拆分为关键视频片段后,根据关键词对应的AI服务对关键视频片段进行AI处理,得到每个关键视频片段质检结果。如:图2所示的人脸识别240、人体识别250、动作识别260以及OCR识别270分别对应云服务器中的不同AI服务。
结合上述名词简介以及应用场景,对本申请提供的双录视频的质检方法进行说明,图4是本申请一个示例性实施例提供的双录视频的质检方法的流程图,以该方法应用于计算机设备,如:服务器中为例进行说明,如图4所示,该方法包括如下步骤。
步骤401,对双录多媒体文件进行拆分处理,得到双录多媒体文件中的音频文件和视频文件。
首先后台服务器接收终端上传的双录视频,对双录视频进行缓存,并通过FFMPEG模块对双录多媒体文件进行音视频分离处理,从而得到双录视频中的音频文件和视频文件。
其中,音频文件主要针对双录视频录制过程中人物发出的声音、语音播报声音等音频内容进行确定;视频文件主要针对双录视频录制过程中人物作出的动作、人物所持有的证件或文件、人物是否离开视频录制范围进行确定。
步骤402,对音频文件进行关键词监听,得到关键词在音频文件中的出现时刻。
在对关键词进行监听时,首先对音频文件进行语音识别,将音频文件转成对应的文字内容,并在文字内容中对关键词进行监听,得到至少两个关键词在音频文件中的出现时刻。
其中,在将音频文件转文字的过程中,首先通过语音识别技术ASR将音频文件转换为原始文字,从而通过神经语言程序学NLP对原始文字进行语义理解,将原始文字转换为完整的结构化文本。
在文字内容中的监听过程中,还可以对预设异常词进行监听,并响应于文字内容中出现预设异常词,结束质检过程,反馈质检不通过的质检结果。可选地,在异常词监听过程中,对指令词进行监听过滤,当指令词异常时,反馈质检不通过的质检结果,如:指令词包括“同意”和“不同意”,当指令词实现为“不同意”时,反馈质检不通过的质检结果。
示意性的,在将音频文件转文字的过程中,通过ASR技术将音频文件转换为原始文字后,对原始文字进行异常词监听,若原始文字中出现异常词,则直接结束质检过程,若原始文字中未出现异常词,则继续通过神经语言程序学NLP对原始文字进行语义理解,并在将原始文字转换为结构化文本后,从结构化文本中进行关键词监听,从结构化文本中监听到至少两个关键词在音频文件中的出现时刻。
示意性的,通过ASR技术将音频文件转换为原始文字后,对原始文字进行异常词“不同意”的监听,若原始文字中出现“不同意”,则直接结束质检过程,若原始文字中未出现“不同意”,则继续通过神经语言程序学NLP对原始文字进行语义理解,并在将原始文字转换为结构化文本时,进行关键词“身份证展示”、“单证展示”的监听,确定关键词“身份证展示”在音频文件中的出现时刻、关键词“单证展示”在音频文件中的出现时刻。
步骤403,以出现时刻对视频文件进行分段,得到关键词对应的关键视频片段。
计算机设备中存储有关键词与视频质检方式的对应关系。可选地,根据关键词将关键视频片段发送至后台质检模块的不同子任务中,不同子任务根据不同的质检方式对关键视频片段进行质检。
可选地,根据出现时刻对视频文件进行分段时,包括如下情况中的至少一种。
第一,以出现时刻或出现时刻之前预设时长对应的时刻为起始时刻,以下一个关键词的出现时刻为终止时刻,划分出关键视频片段。
示意性的,关键词“身份证”的出现时刻为音频文件的第3分20秒,关键词“单证”的出现时刻为音频文件的第4分50秒,则,将3分20秒至4分50秒划分为“身份证”对应的关键视频片段。
第二,以出现时刻为起始时刻,划分得到预设时长的视频片段作为与关键词对应的关键视频片段。
示意性的,关键词“身份证”的出现时刻为音频文件的第3分20秒,预设时长为1分钟,则将第3分20秒至第4分20秒划分为“身份证”对应的关键视频片段。其中,在第二种方案下,需要在双录视频的拍摄过程中,提示视频录制的对象,在语音播报提示关键词“身份证”后的一分钟之内,完成身份证的展示。
第三,在识别得到关键词后,对关键词出现时刻开始的视频内容进行动作识别,并将识别得到的动作符合关键词的部分划分至关键视频片段中。
示意性的,关键词“身份证”的出现时刻为音频文件的第3分20秒,从3分20秒开始对视频内容进行动作识别,将识别得到展示动作的视频片段划分为与“身份证”对应的关键视频片段,关键视频片段的终止时刻为展示动作的结束时刻。
上述三种方式仅为示意性的举例,本申请实施例对关键视频片段的具体划分方式不加以限定。
示意性的,请参考图5,该关键视频片段的拆分过程如图5所示,首先从分布式视频存储模块510中获取双录视频,并将双录视频通过FFMPEG进行音视频拆分520,对拆分得到的音频文件通过ASR进行音频转文字530,对异常词进行监听过滤540,判断是否存在异常词550。当不存在异常词时,通过NLP确定关键词并进行视频拆分560,根据关键词输入视频相应的时间段以及段类型570。
步骤404,根据关键视频片段对应的关键词,从所述对应中确定对应的视频质检方式,对关键视频片段中的图像帧进行图像识别,得到视频识别内容。
在一个实施例中,不同的关键词对应的视频质检方式不同,示意性的,针对关键词“身份证”,需要质检的内容包括身份证的展示动作,身份证信息,身份证信息与视频主体人物是否匹配等;也即在出现关键词“身份证”时,针对对应的关键视频片段需要进行展示动作识别、人脸识别、身份证信息OCR识别。针对关键词“单证”,需要质检的内容包括单证的类型(文档内容OCR识别)、单证的展示动作、单证展示阶段中的签字动作、签字内容OCR识别等;也即在出现关键词“单证”时,针对对应的关键视频片段需要进行单证展示动作识别,也即单证OCR识别、签字动作识别、手写体OCR识别,可选地,签字动作的识别过程中,还需要通过人脸识别和人体识别进行签字人的身份确认。
在一些实施例中,将不同关键词对应的关键视频片段输入云服务器中的不同AI服务模块中,通过对应的AI服务模块进行对应的AI计算,其中,AI计算用于对图像帧进行图像识别,得到视频识别内容。
步骤405,确定与视频识别内容对应的双录视频的质检结果。
当所有关键视频片段皆通过质检时,确定双录视频的质检通过。
示意性的,视频识别内容包括字符识别内容、动作识别内容、人脸识别内容等,当视频识别内容包括字符识别内容(如:证件内容、文档内容)时,确定字符识别内容与要求内容匹配;当视频识别内容包括动作识别内容时,确定动作识别内容对应的动作时刻,以及动作符合要求;当视频识别内容包括人脸识别内容时,确定人脸识别结果与双录视频设定的人物身份匹配。
综上所述,本申请实施例提供的双录视频的质检方法,针对双录视频中的音频文件进行关键词监听,根据监听到的关键词从视频文件中划分出关键视频片段,从而针对不同的关键视频片段以关键词对应的质检方式进行不同的质检处理,得到质检结果,无需人工对双录视频进行浏览,并从中对视频内容进行肉眼识别,提高了质检效率。
本实施例提供的方法,通过图像帧识别方法对视频内容进行质检,避免人工通过肉眼从双录视频中识别关键信息,提高了质检准确率。
在一个可选的实施例中,在双录视频的质检过程中,还需要对视频中的图像帧进行对象识别,其中,对象识别是指对视频中的人物进行识别,其中还包括视频人物的人脸识别。图6是本申请另一个示例性实施例提供的双录视频的质检方法的流程图,以该方法应用于服务器中为例进行说明,如图6所示,该方法包括如下步骤。
步骤601,对双录多媒体文件进行拆分处理,得到双录多媒体文件中的音频文件和视频文件。
首先后台服务器接收终端上传的双录视频,对双录视频进行缓存,并通过FFMPEG模块对双录多媒体文件进行音视频分离处理,从而得到双录视频中的音频文件和视频文件。
步骤602,对音频文件进行关键词监听,得到关键词在音频文件中的出现时刻。
在对关键词进行监听时,首先对音频文件进行语音识别,将音频文件转成对应的文字内容,并在文字内容中对关键词进行监听,得到至少两个关键词在音频文件中的出现时刻。
其中,在将音频文件转文字的过程中,首先通过语音识别技术ASR将音频文件转换为原始文字,从而通过神经语言程序学NLP对原始文字进行语义理解,将原始文字转换为完整的结构化文本。
步骤603,以出现时刻对视频文件进行分段,得到关键词对应的关键视频片段。
关键词还对应设置有视频质检方式。可选地,根据关键词将关键视频片段发送至后台质检模块的不同子任务中,不同子任务根据不同的质检方式对关键视频片段进行质检。
可选地,根据出现时刻对视频文件进行分段时,包括如下情况中的至少一种。
第一,以出现时刻之前预设时长对应的时刻为起始时刻,以下一个关键词的出现时刻为终止时刻,划分出关键视频片段。
第二,以出现时刻为起始时刻,划分得到预设时长的视频片段作为与关键词对应的关键视频片段。
第三,在识别得到关键词后,对关键词出现时刻开始的视频内容进行动作识别,并将识别得到的动作符合关键词的部分划分至关键视频片段中。
步骤604,对关键视频片段中的图像帧进行对象识别,得到目标对象。
可选地,对象识别包括人物识别、人脸识别、指定物体识别中的至少一种,其中,针对上述三种情况分别进行说明。
第一,当对象识别包括人脸识别时,对视频文件中的图像帧进行实时取帧,并针对每一帧,或每一帧关键帧进行人脸识别,得到人脸框以及人脸运动轨迹,其中,将人脸框中的人脸识别图像与预设人脸库进行匹配,得到人脸身份。
可选地,视频文件中包括至少两个人物对应的人脸图像,如:视频文件中包括客户人脸图像和客户经理的人脸图像,其中,客户人脸图像与预先上传的基准人脸图像进行匹配,用于验证客户人脸是否与预先设置的客户人脸匹配;客户经理的人脸图像与保险公司对应的预设人脸库进行匹配,用于验证客户经理是否为保险公司中负责处理该事项的员工。
可选地,人脸识别过程针对整个双录视频进行,以确保在双录视频的录制过程中,不存在人员缺失或者人员更换。
第二,当对象识别包括人物识别时,对视频图像帧中的人体区域进行识别,得到人体框以及人体轨迹。
可选地,根据人物识别得到人体框后,在人体框的框选范围内进行人物动作识别,如:签字动作识别。可选地,在需要进行人物动作识别时,在视频图像帧中进行人物识别,也即,人物识别并非贯穿双录视频的质检完整过程中的,仅在需要进行人物动作识别时,进行人物识别。
可选地,在签字动作的识别中,上述人脸识别和人物识别绑定实现,也即,在进行人脸识别和人物识别后,将图像帧中的人脸区域和人体区域绑定,以及将人脸区域和人体区域的轨迹绑定,从而针对性的选择人脸区域对应的目标对象所对应的人体区域进行人物动作识别,如:图像帧中包括第一人物(客户)和第二人物(客户经理),在图像帧中识别得到第一人物的第一人脸图像和第二人物的第二人脸图像,并且在图像帧中识别得到与第一人脸图像绑定的第一人体区域,以及与第二人脸图像绑定的第二人体区域,由于客户为正在进行签字的对象,故,对与第一人脸图像绑定的第一人体区域进行动作识别,识别得到进行签字动作的对象为第一人物(即客户)。
示意性的,请参考图7,在视频图像帧700中识别得到第一人物710,第一人物710的身份为投保人,以及识别得到第二人物720,第二人物的身份为客户经理,在第一人物710的签字过程中,对视频图像帧700进行人物识别,得到第一人物710的人体区域框730,该人体区域框730仅在“签字动作出现时表示开始签字的关键视频片段中出现。其中,第一人物710和第二人物720对应的人脸识别框上还显示有人物信息(如:人名,或者,人物身份)。
示意性的,人脸跟踪以及人体跟踪过程请参考如图8所示,获取原始视频的原始帧810,对原始帧810进行人脸检测811,对原始帧810进行人脸跟踪812,判断原始帧810是否处于文档展示时段范围内813,当处于文档展示时段范围内,对原始帧810进行人体检测814,对原始帧810进行人体跟踪815,步骤816,将人脸人体绑定。步骤817,绑定成功设置人体轨迹身份为人脸轨迹的身份。步骤818,判断原始帧810对应轨迹是否存在身份。步骤819,当不存在身份时,进行人脸配准。步骤820,获取人脸质量分。步骤821,判断质量分是否超过分数阈值。步骤822,当超过时进行人脸检索。步骤823,设置原始帧810对应的轨迹身份。
第三,当对象识别包括指定物体识别时,直接从关键视频片段中识别出指定物体,如:直接从关键视频片段的图像帧中识别得到身份证卡片,从而根据身份证卡片上的信息进行质检。
步骤605,根据目标对象对所述视频识别内容进行质检,得到所述双录视频的质检结果。
可选地,针对上述目标对象的识别方式,对图像帧进行质检的方式不同,针对上述方式分别进行说明。
第一,当对象识别中包括人脸识别时,双录视频还对应设置有目标人物的人物信息,如:双录视频设置有客户的信息,其中包括存储至预设人脸库的人脸信息,将目标对象的人脸识别图像与预设人脸库进行匹配,并在确定人脸识别图像与预设人脸库中的目标人物匹配时,以关键词对应的视频质检方式对图像帧进行质检。
示意性的,预设人脸库中的人脸上传过程请参考如图9所示,该过程中包括:步骤901,用户输入图片。也即用户将人脸图像上传至服务器进行存储。步骤902,判断图片格式是否合法。也即,判断人脸图像的图像格式是否符合格式要求。步骤903,当图片格式合法时,判断图片大小是否合规。步骤904,当图片大小不合规时,重新调整图片大小。步骤905,当图片大小合规时,选择4个角度。可选地,该4个角度分别为0度、90度、180度、270度。步骤906,人脸检测。步骤907,进行人脸配准并缓存角度对应的配准分。步骤908,判断四个角度是否遍历完毕。步骤909,当四个角度遍历完毕时,取配准分最高的图像作为最终底图。步骤910,提取底图特征。步骤911,存储至预设人脸库。步骤912,判断是否遍历完毕所有原图。
也即,上述过程中,对于用户输入的底图首先需要对图片大小进行判断,若图片过大则需要转为算法软件开发工具包(Software Development Kit,SDK)能处理的图片大小;然后针对输入的图片可能存在的角度问题进行不同角度旋转,调用人脸检测配准,取四个方向配准分最高的作为该底图最终角度,然后提取特征存入预设人脸库。
也即,在双录视频的质检过程中,针对双录视频中的图像帧,根据人脸识别结果对双录视频中的人物进行确认。
或,当对象识别中包括人脸识别时,双录视频还对应设置有目标人物的人物信息,在识别到视频图像帧中人物的动作为指定动作(如:签字动作)时,对签字动作对应的人脸图像进行识别,作为签字主体进行存储。
第二,当对象识别中包括人物识别时,对关键视频片段进行人物识别,得到人体区域,从而从人体区域所在的区域范围内对人物进行动作识别,如:识别得到人物的展示动作;或,识别得到人物的签字动作。
当识别得到人物的展示动作时,对人物的展示内容进行识别;当识别得到人物的签字动作时,对人物的签字过程进行识别。
示意性的,当需要对人物进行动作识别时,对关键视频片段进行人物识别,得到人体区域,从而从人体区域所在的区域范围内对人物进行动作识别,以识别得到展示动作为例进行说明,在人体区域内进行OCR识别,对展示动作对应的展示内容进行文本识别。
第三,当对象识别中包括指定物体识别时,对关键视频片段中的图像帧进行指定物体的识别,从根据识别到的指定物体所在的显示区域,对识别的物体进行内容识别,如:OCR识别。
综上所述,本申请实施例提供的双录视频的质检方法,针对双录视频中的音频文件进行关键词监听,根据监听到的关键词从视频文件中划分出关键视频片段,从而针对不同的关键视频片段以关键词对应的质检方式进行不同的质检处理,得到质检结果,无需人工对双录视频进行浏览,并从中对视频内容进行肉眼识别,提高了质检效率。
本实施例提供的方法,通过人脸识别和人体识别对双录视频进行跟踪识别,避免人物离开双录视频的录制范围导致录制结果不可用,提高了双录视频的质检效率。
在一个可选的实施例中,关键词中包括第一关键词和/或第二关键词,第一关键词指示目标对象执行证件展示动作,第二关键词指示目标对象执行文档展示动作。图10是本申请另一个示例性实施例提供的双录视频的质检方法的流程图,以该方法应用于服务器中为例进行说明,如图10所示,该方法包括如下步骤。
步骤1001,对双录多媒体文件进行拆分处理,得到双录多媒体文件中的音频文件和视频文件。
首先后台服务器接收终端上传的双录视频,对双录视频进行缓存,并通过FFMPEG模块对双录多媒体文件进行音视频分离处理,从而得到双录视频中的音频文件和视频文件。
步骤1002,对音频文件进行关键词监听,得到关键词在音频文件中的出现时刻。
在对关键词进行监听时,首先对音频文件进行语音识别,将音频文件转成对应的文字内容,并在文字内容中对关键词进行监听,得到至少两个关键词在音频文件中的出现时刻。
其中,在将音频文件转文字的过程中,首先通过语音识别技术ASR将音频文件转换为原始文字,从而通过神经语言程序学NLP对原始文字进行语义理解,将原始文字转换为完整的结构化文本。
步骤1003,以出现时刻对视频文件进行分段,得到关键词对应的关键视频片段。
关键词还对应设置有视频质检方式。可选地,根据关键词将关键视频片段发送至后台质检模块的不同子任务中,不同子任务根据不同的质检方式对关键视频片段进行质检。
步骤1004,对关键视频片段中的图像帧进行对象识别,得到目标对象。
可选地,对象识别包括人物识别、人脸识别、指定物体识别中的至少一种。
步骤1005,在第一关键词对应的关键视频片段中,对目标对象的证件展示内容进行识别,得到证件内容识别结果。
在一些实施例中,在目标对象显示区域的区域范围内对证件展示内容进行OCR识别,得到证件内容的文本识别结果,并根据字符识别结果对展示内容进行质检。
可选地,存储该文本识别结果作为质检结果展示过程中的辅助展示内容。
其中,OCR识别包括OCR证件识别;也即,在用户对身份证、社保卡、驾驶证等证件进行展示时,对证件上的内容进行OCR识别,得到证件上的信息,当证件上的信息与双录视频对应设置的身份信息匹配时,则OCR证件识别的质检通过。
步骤1006,根据证件内容识别结果对证件展示内容进行质检。
可选地,对关键视频片段进行动作识别,得到证件展示动作在关键视频片段中的证件展示时段,证件展示时段用于在质检结果的展示过程中,回溯播放证件展示动作。
步骤1007,在第二关键词对应的关键视频片段中,对目标对象的文档展示内容进行识别,得到文档内容识别结果。
可选地,OCR识别包括OCR打印体识别;也即,在用户对文档,如:单证进行展示时,对单证内容进行识别,从而通过单证内容中的标题识别得到单证类型。可选地,当单证类型与双录视频对应设置的业务类型匹配时,则OCR打印体识别的质检通过。
可选地,在文档展示的过程中,需要目标对象在文档中进行签字,则针对关键词如“单证展示”的关键视频片段,需要同步进行:1、展示动作识别;2、OCR打印体识别;3、签名动作识别;4、OCR手写体识别。
其中,展示动作识别中,包括单证的展示和签字的展示,针对单证的展示,通过OCR打印体识别,识别得到单证内容。
可选地,OCR识别还包括OCR手写体识别;也即,在用户签字完毕后,对签字内容进行展示,识别得到用户签字的内容,并根据用户签字的内容(如:名字)与双录视频对应设置的身份信息进行匹配,当匹配成功时,则OCR手写体识别的质检通过。
可选地,由于签字过程还需要确定签字的主体,也即,需要确定签字人的身份,从而,文档展示对应的关键视频片段中,当识别得到签字动作时,在图像帧中进行人脸识别和人体识别,并将人脸识别和人体识别结果进行绑定,从而得到人脸识别结果和人体识别结果之间的关联关系,根据签字动作对应的人体识别框,与其对应的人脸识别结果,确定签字动作的执行主体。
也即,在第二关键词对应的关键视频片段中,对目标对象的动作进行识别,得到签字动作对应的签字视频片段;在签字视频片段中,根据目标对象的人脸识别结果和人体识别结果,对签字动作的对象主体进行质检。
可选地,对关键视频片段进行动作识别,得到签字动作在关键视频片段中的签字时段,该签字时段用于在质检结果的展示过程中,回溯播放签字动作。
步骤1008,根据文档内容识别结果对文档展示内容进行质检。
综上所述,本申请实施例提供的双录视频的质检方法,针对双录视频中的音频文件进行关键词监听,根据监听到的关键词从视频文件中划分出关键视频片段,从而针对不同的关键视频片段以关键词对应的质检方式进行不同的质检处理,得到质检结果,无需人工对双录视频进行浏览,并从中对视频内容进行肉眼识别,提高了质检效率。
本实施例提供的方法,通过展示动作和签字动作的识别,分别确定展示内容、展示动作的展示时段、签字动作的签字时段,增加了双录视频自动质检的丰富性和全面性。
示意性的,图11示出了本申请一个示例性实施例提供的双录视频的视频文件质检过程示意图,如图11所示,该过程包括如下步骤。
步骤1101,接收下发的任务数据。
其中包括,音视频地址、不同类型时间段、视频相关人员的姓名、视频相关人员的人脸图像等。
步骤1102,对任务数据进行参数校验和限流控制。
步骤1103,对人脸图像进行特征提取。
可选地,通过人脸特征提取服务完成人脸图像的特征提取。
步骤1104,判断人脸图像是否异常。
其中,人脸图像的异常情况包括:1、人脸图像特征提取失败;2、不同人员对应的人脸图像属于同一个人脸。
步骤1105,当人脸图像不存在异常时,缓存人员姓名与特征之间的关系至人员检索库。
可选地,根据预先输入的人员信息以及人脸图像的图像特征,将人员信息与人脸图像特征之间的关联关系存储至检索库。
步骤1106,请求读取视频流。
视频流中包括视频文件中的全部原始帧。
步骤1107,识别视频帧中的人脸数量、人体轨迹以及签字动作。
可选地,识别得到签字动作后,记录签字动作对应的签字时段或签字时刻。
步骤1108,识别展示类动作。
示意性的,对用户的身份证展示动作、单证展示动作、签字展示动作进行识别。
步骤1109,识别身份证信息,以及展示时间。
步骤1110,识别单证类型,以及展示时间。
步骤1111,识别签名内容,以及展示时间。
综上所述,本申请实施例提供的双录视频的质检方法,针对双录视频中的音频文件进行关键词监听,根据监听到的关键词从视频文件中划分出关键视频片段,从而针对不同的关键视频片段以关键词对应的质检方式进行不同的质检处理,得到质检结果,无需人工对双录视频进行浏览,并从中对视频内容进行肉眼识别,提高了质检效率。
图12是本申请一个示例性实施例提供的双录视频的质检装置的结构框图,如图12所示,该装置包括如下部分:
拆分模块1210,用于对双录多媒体文件进行拆分处理,得到所述双录多媒体文件中的音频文件和视频文件;
监听模块1220,用于对所述音频文件进行关键词监听,得到关键词在所述音频文件中的出现时刻;
分段模块1230,用于以所述出现时刻对所述视频文件进行分段,得到所述关键词对应的关键视频片段,所述计算机设备中存储有所述关键词与视频质检方式的对应关系;
质检模块1240,用于根据所述关键视频片段对应的所述关键词,从所述对应中确定对应的所述视频质检方式,对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容;确定与所述视频识别内容对应的所述双录视频的质检结果。
在一个可选的实施例中,如图13所示,所述质检模块1240,包括:
识别单元1241,用于对所述图像帧进行对象识别,得到目标对象;
质检单元1242,用于根据所述目标对象对所述视频识别内容进行质检,得到所述双录视频的质检结果。
在一个可选的实施例中,所述关键词中包括第一关键词,所述第一关键词用于指示所述目标对象执行证件展示动作,所述视频识别内容中包括证件内容识别结果;
所述质检单元1242,还用于在所述第一关键词对应的所述关键视频片段中,对所述目标对象的展示内容进行光学字符识别,得到所述证件内容识别结果。
在一个可选的实施例中,所述识别单元1241,还用于对所述关键视频片段进行动作识别,得到所述证件展示动作在所述关键视频片段中的证件展示时段,所述证件展示时段用于在所述质检结果的展示过程中,回溯播放所述证件展示动作。
在一个可选的实施例中,所述识别单元1241,还用于存储所述证件内容识别结果作为所述质检结果展示过程中的辅助展示内容。
在一个可选的实施例中,所述关键词中包括第二关键词,所述第二关键词用于指示所述目标对象执行文档展示动作,所述视频识别内容中包括文档内容识别结果;
所述识别单元1241,还用于在所述第二关键词对应的所述关键视频片段中,对所述目标对象的文档展示内容进行光学字符识别,得到所述文档内容识别结果。
在一个可选的实施例中,对象识别中包括人脸识别和人体识别;
所述识别单元1241,还用于在所述第二关键词对应的所述关键视频片段中,对所述目标对象的动作进行识别,得到签字动作对应的签字视频片段;在所述签字视频片段中,根据所述目标对象的人脸识别结果和人体识别结果,对所述签字动作的对象主体进行质检。
在一个可选的实施例中,所述双录视频还对应设置有目标人物的人物信息;
所述识别单元1241,还用于将所述目标对象的人脸识别图像与预设人脸库进行匹配;响应于所述人脸识别图像与所述预设人脸库中的所述目标人物匹配,对所述视频识别内容进行质检。
在一个可选的实施例中,所述监听模块1220,还用于对所述音频文件进行语音识别,将所述音频文件转成对应的文字内容;在所述文字内容中对关键词进行监听,得到所述关键词在所述音频文件中的出现时刻。
在一个可选的实施例中,所述监听模块1220,还用于在所述文字内容中对预设异常词进行监听;响应于所述文字内容中出现所述预设异常词,结束所述质检过程,并反馈质检不通过。
综上所述,本申请实施例提供的双录视频的质检装置,针对双录视频中的音频文件进行关键词监听,根据监听到的关键词从视频文件中划分出关键视频片段,从而针对不同的关键视频片段以关键词对应的质检方式进行不同的质检处理,得到质检结果,无需人工对双录视频进行浏览,并从中对视频内容进行肉眼识别,提高了质检效率。
需要说明的是:上述实施例提供的双录视频的质检装置,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的双录视频的质检装置与双录视频的质检方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图14示出了本申请一个示例性实施例提供的服务器的结构示意图。具体来讲:
服务器1400包括中央处理单元(Central Processing Unit,CPU)1401、包括随机存取存储器(Random Access Memory,RAM)1402和只读存储器(Read Only Memory,ROM)1403的系统存储器1404,以及连接系统存储器1404和中央处理单元1401的系统总线1405。服务器1400还包括用于存储操作系统1413、应用程序1414和其他程序模块1415的大容量存储设备1406。
大容量存储设备1406通过连接到系统总线1405的大容量存储控制器(未示出)连接到中央处理单元1401。大容量存储设备1406及其相关联的计算机可读介质为服务器1400提供非易失性存储。也就是说,大容量存储设备1406可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory ,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1404和大容量存储设备1406可以统称为存储器。
根据本申请的各种实施例,服务器1400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1400可以通过连接在系统总线1405上的网络接口单元1411连接到网络1412,或者说,也可以使用网络接口单元1411来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,被配置由CPU执行。
本申请的实施例还提供了一种计算机设备,该计算机设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的双录视频的质检方法。
本申请的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行,以实现上述各方法实施例提供的双录视频的质检方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的双录视频的质检方法。
可选地,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM, Resistance RandomAccess Memory)和动态随机存取存储器(DRAM,Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (13)

1.一种双录视频的质检方法,其特征在于,应用于计算机设备中,所述方法包括:
对双录多媒体文件进行拆分处理,得到所述双录多媒体文件中的音频文件和视频文件;
对所述音频文件进行语音识别,将所述音频文件转成对应的文字内容;
在所述文字内容中对预设异常词进行监听,响应于所述文字内容中出现所述预设异常词,结束质检过程,并反馈质检不通过;
响应于所述文字内容中未出现所述预设异常词,在所述文字内容中对关键词进行监听,得到所述关键词在所述音频文件中的出现时刻;
以所述出现时刻对所述视频文件进行分段,得到所述关键词对应的关键视频片段,所述计算机设备中存储有所述关键词与视频质检方式的对应关系,其中,不同关键词对应的视频质检方式不同;
根据所述关键视频片段对应的所述关键词,从所述对应关系中确定对应的所述视频质检方式,对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容;
确定与所述视频识别内容对应的所述双录视频的质检结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容,包括:
对所述图像帧进行对象识别,得到目标对象;
所述确定与所述视频识别内容对应的所述双录视频的质检结果,包括:
根据所述目标对象对所述视频识别内容进行质检,得到所述双录视频的质检结果。
3.根据权利要求2所述的方法,其特征在于,所述关键词中包括第一关键词,所述第一关键词用于指示所述目标对象执行证件展示动作,所述视频识别内容中包括证件内容识别结果;
所述对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容,还包括:
在所述第一关键词对应的所述关键视频片段中,对所述目标对象的展示内容进行光学字符识别,得到所述证件内容识别结果。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
对所述关键视频片段进行动作识别,得到所述证件展示动作在所述关键视频片段中的证件展示时段,所述证件展示时段用于在所述质检结果的展示过程中,回溯播放所述证件展示动作。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
存储所述证件内容识别结果作为所述质检结果展示过程中的辅助展示内容。
6.根据权利要求2所述的方法,其特征在于,所述关键词中包括第二关键词,所述第二关键词用于指示所述目标对象执行文档展示动作,所述视频识别内容中包括文档内容识别结果;
所述对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容,还包括:
在所述第二关键词对应的所述关键视频片段中,对所述目标对象的文档展示内容进行光学字符识别,得到所述文档内容识别结果。
7.根据权利要求6所述的方法,其特征在于,所述对象识别中包括人脸识别和人体识别;
所述方法还包括:
在所述第二关键词对应的所述关键视频片段中,对所述目标对象的动作进行识别,得到签字动作对应的签字视频片段;
在所述签字视频片段中,根据所述目标对象的人脸识别结果和人体识别结果,对所述签字动作的对象主体进行质检。
8.根据权利要求2至7任一所述的方法,其特征在于,所述双录视频还对应设置有目标人物的人物信息;
所述根据所述目标对象对所述视频识别内容进行质检,包括:
将所述目标对象的人脸识别图像与预设人脸库进行匹配;
响应于所述人脸识别图像与所述预设人脸库中的所述目标人物匹配,对所述视频识别内容进行质检。
9.一种双录视频的质检装置,其特征在于,所述装置包括:
拆分模块,用于对双录多媒体文件进行拆分处理,得到所述双录多媒体文件中的音频文件和视频文件;
监听模块,用于对所述音频文件进行语音识别,将所述音频文件转成对应的文字内容;
监听模块,还用于在所述文字内容中对预设异常词进行监听;响应于所述文字内容中出现所述预设异常词,结束质检过程,并反馈质检不通过;响应于所述文字内容中未出现所述预设异常词,在所述文字内容中对关键词进行监听,得到所述关键词在所述音频文件中的出现时刻;
分段模块,用于以所述出现时刻对所述视频文件进行分段,得到所述关键词对应的关键视频片段,计算机设备中存储有所述关键词与视频质检方式的对应关系;
质检模块,用于根据所述关键视频片段对应的所述关键词,从所述对应关系中确定对应的所述视频质检方式,对所述关键视频片段中的图像帧进行图像识别,得到视频识别内容;确定与所述视频识别内容对应的所述双录视频的质检结果。
10.根据权利要求9所述的装置,其特征在于,所述质检模块,包括:
识别单元,用于对所述图像帧进行对象识别,得到目标对象;
质检单元,用于根据所述目标对象对所述视频识别内容进行质检,得到所述双录视频的质检结果。
11.根据权利要求10所述的装置,其特征在于,所述关键词中包括第一关键词,所述第一关键词用于指示所述目标对象执行证件展示动作,所述视频识别内容中包括证件内容识别结果;
所述质检单元,还用于在所述第一关键词对应的所述关键视频片段中,对所述目标对象的展示内容进行光学字符识别,得到所述证件内容识别结果。
12.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行以实现如权利要求1至8任一所述的双录视频的质检方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至8任一所述的双录视频的质检方法。
CN202010864212.XA 2020-08-25 2020-08-25 双录视频的质检方法、装置、设备及可读存储介质 Active CN111741356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010864212.XA CN111741356B (zh) 2020-08-25 2020-08-25 双录视频的质检方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010864212.XA CN111741356B (zh) 2020-08-25 2020-08-25 双录视频的质检方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN111741356A CN111741356A (zh) 2020-10-02
CN111741356B true CN111741356B (zh) 2020-12-08

Family

ID=72658812

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010864212.XA Active CN111741356B (zh) 2020-08-25 2020-08-25 双录视频的质检方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111741356B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017056B (zh) * 2020-10-26 2021-01-19 广州佰锐网络科技有限公司 一种智能双录方法及系统
CN112016538B (zh) * 2020-10-29 2021-06-15 腾讯科技(深圳)有限公司 视频处理方法、装置、计算机设备和存储介质
CN112419257A (zh) * 2020-11-17 2021-02-26 深圳壹账通智能科技有限公司 文本录制视频清晰度检测方法、装置、计算机设备及存储介质
CN112351337B (zh) * 2021-01-04 2022-02-01 腾讯科技(深圳)有限公司 视频质检方法、装置、计算机设备和存储介质
CN112348005A (zh) * 2021-01-11 2021-02-09 北京远鉴信息技术有限公司 双录审核方法、装置、客户端设备及存储介质
CN112766824B (zh) * 2021-03-02 2024-02-23 中国工商银行股份有限公司 数据处理方法、装置、电子设备及存储介质
CN113095204B (zh) * 2021-04-07 2022-09-02 中国工商银行股份有限公司 双录数据质检方法、装置及系统
CN113095202A (zh) * 2021-04-07 2021-07-09 中国工商银行股份有限公司 双录数据质检中的数据分段方法及装置
CN113052568A (zh) * 2021-04-09 2021-06-29 上海云从企业发展有限公司 一种业务数据稽核方法、装置、机器可读介质及设备
CN115250375B (zh) * 2021-04-26 2024-01-26 北京中关村科金技术有限公司 一种基于固定话术的音视频内容合规性检测方法及装置
CN113435349A (zh) * 2021-06-29 2021-09-24 建信金融科技有限责任公司 视频的质检方法和装置
CN115883760A (zh) * 2022-01-11 2023-03-31 北京中关村科金技术有限公司 音视频的实时质检方法、装置及存储介质
CN115883874A (zh) * 2022-01-27 2023-03-31 北京中关村科金技术有限公司 一种基于文件的合规业务检测方法及装置
CN116663549B (zh) * 2023-05-18 2024-03-19 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN109711996A (zh) * 2018-08-17 2019-05-03 深圳壹账通智能科技有限公司 保单双录文件质检方法、装置、设备及可读存储介质
CN109729383A (zh) * 2019-01-04 2019-05-07 深圳壹账通智能科技有限公司 双录视频质量检测方法、装置、计算机设备和存储介质
CN109831665A (zh) * 2019-01-16 2019-05-31 深圳壹账通智能科技有限公司 一种视频质检方法、系统及终端设备
CN110147726A (zh) * 2019-04-12 2019-08-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置
CN110598008A (zh) * 2018-06-13 2019-12-20 杭州海康威视系统技术有限公司 录制数据的数据质检方法及装置、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109472487A (zh) * 2018-11-02 2019-03-15 深圳壹账通智能科技有限公司 视频质检方法、装置、计算机设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110598008A (zh) * 2018-06-13 2019-12-20 杭州海康威视系统技术有限公司 录制数据的数据质检方法及装置、存储介质
CN109711996A (zh) * 2018-08-17 2019-05-03 深圳壹账通智能科技有限公司 保单双录文件质检方法、装置、设备及可读存储介质
CN109376603A (zh) * 2018-09-25 2019-02-22 北京周同科技有限公司 一种视频识别方法、装置、计算机设备及存储介质
CN109729383A (zh) * 2019-01-04 2019-05-07 深圳壹账通智能科技有限公司 双录视频质量检测方法、装置、计算机设备和存储介质
CN109831665A (zh) * 2019-01-16 2019-05-31 深圳壹账通智能科技有限公司 一种视频质检方法、系统及终端设备
CN110147726A (zh) * 2019-04-12 2019-08-20 财付通支付科技有限公司 业务质检方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
CN111741356A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111741356B (zh) 双录视频的质检方法、装置、设备及可读存储介质
CN110147726B (zh) 业务质检方法和装置、存储介质及电子装置
WO2021175019A1 (zh) 音视频录制引导方法、装置、计算机设备及存储介质
CN109783338A (zh) 基于业务信息的录制处理方法、装置和计算机设备
US11315366B2 (en) Conference recording method and data processing device employing the same
CN112016538B (zh) 视频处理方法、装置、计算机设备和存储介质
CN111683285B (zh) 文件内容识别方法、装置、计算机设备及存储介质
CN104463423A (zh) 一种格式化的视频简历采集方法及系统
CN110598008B (zh) 录制数据的数据质检方法及装置、存储介质
US20200089962A1 (en) Character recognition
US20200250608A1 (en) Providing feedback by evaluating multi-modal data using machine learning techniques
CN112101304B (zh) 数据处理方法、装置、存储介质及设备
US20230032728A1 (en) Method and apparatus for recognizing multimedia content
CN112699758B (zh) 动态手势识别的手语翻译方法、装置、计算机设备及介质
CN116415017B (zh) 基于人工智能的广告敏感内容审核方法及系统
CN112732949A (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
CN113095204B (zh) 双录数据质检方法、装置及系统
CN112542172A (zh) 基于在线会议的沟通辅助方法、装置、设备及介质
CN114627419A (zh) 基于多应用场景的视频质检方法、装置、设备及存储介质
CN112040277B (zh) 基于视频的数据处理方法、装置、计算机及可读存储介质
KR102243275B1 (ko) 오프라인 오브젝트에 관한 콘텐츠 자동 생성 방법, 장치 및 컴퓨터 판독가능 저장 매체
CN112417295A (zh) 一种教育云信息推送方法、存储介质及系统
Pranali et al. Inhalt based video recuperation system using OCR and ASR technologies
US20230394851A1 (en) Video frame type classification for a communication session
CN116012750A (zh) 双录视频数据的质检方法、质检装置与处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40031356

Country of ref document: HK