CN111814714B

CN111814714B - 基于音视频录制的图像识别方法、装置、设备及存储介质

Info

Publication number: CN111814714B
Application number: CN202010684731.8A
Authority: CN
Inventors: 陈俣作; 朱健英
Original assignee: Qianhai Life Insurance Co ltd
Current assignee: Qianhai Life Insurance Co ltd
Priority date: 2020-07-15
Filing date: 2020-07-15
Publication date: 2024-03-29
Anticipated expiration: 2040-07-15
Also published as: CN111814714A

Abstract

本发明公开了一种基于音视频录制的图像识别方法、装置、设备及存储介质，所述方法包括：当接收到音视频录制请求时，实时获取视频数据以及音频数据；对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中；将所述视频数据和所述音频数据生成为音视频文件，并从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别。本发明通过将视频数据复制到内存队列，从内存队列中读取视频数据即可进行识别，使得音视频录制和图像识别功能同时实现，提升了音视频录制和图像识别的整体处理效率。

Description

基于音视频录制的图像识别方法、装置、设备及存储介质

技术领域

本发明涉及音视频处理技术领域，尤其涉及一种基于音视频录制的图像识别方法、装置、设备及存储介质。

背景技术

随着技术的发展，音视频录制的使用场景越来越多，如执法过程中通过录制音视频记录执法人员对执法事项的处理，或者金融机构通过录制音视频记录客户对金融事项的处理。该类记录除了录制音视频之外，还需要对所录制音视频中的图像进行识别，以确保处理人或处理事项的正确性。

音视频录制功能和图像识别功能都需要读取图像资源，当前对于该两项功能，通常采用先后获取图像资源进行处理依次实现。即先由音视频录制功能获取图像资源进行处理，再由图像识别功能获取图像资源进行处理；或者先由图像识别功能获取图像资源进行处理，再由音视频录制功能获取图像资源进行处理。但是该先后处理机制，会导致在先处理功能的异常性或耗时较长直接影响到在后处理功能的实现时长。

发明内容

本发明的主要目的在于提供一种基于音视频录制的图像识别方法、装置、设备及存储介质，旨在解决现有技术中对于音视频录制功能和图像识别功能的先后处理机制，导致在后处理功能的实现时长受在先处理功能的处理时长影响的技术问题。

为实现上述目的，本发明提供一种基于音视频录制的图像识别方法，所述基于音视频录制的图像识别方法包括以下步骤：

当接收到音视频录制请求时，实时获取视频数据以及音频数据；

对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中；

将所述视频数据和所述音频数据生成为音视频文件，并从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别。

可选地，所述对所述视频数据中的视频图像进行解码和复制，获得目标视频图像解存储到内存队列中的步骤包括：

对所述视频数据中的视频图像进行解码，并判断解码后的视频图像中是否包含二维码类型的视频图像；

若包含所述二维码类型的视频图像，则检测所述二维码类型的视频图像的完整率是否大于预设阈值；

若所述完整率大于预设阈值，则对所述二维码类型的视频图像进行复制，获得目标视频图像，并将所述目标视频图像创建为图像解码任务存储到内存队列中。

可选地，所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果的步骤包括：

根据所述内存队列中各项所述图像解码任务的排列顺序，逐一获取与各项所述图像解码任务对应的目标视频图像进行识别，生成多项识别子结果；

根据所述音视频录制请求对应的图像识别类型，对多项所述识别子结果进行过滤，生成识别结果。

可选地，所述对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中的步骤之后包括：

判断所述内存队列的存储数据量是否大于预设数量，若大于预设数量，则判断所述内存队列中是否存在历史视频图像；

若存在历史视频图像，则对所述历史视频图像进行清除；

若不存在历史视频图像，则检测所述内存队列存储的各项目标视频图像中是否存在类型重复的目标视频图像；

若存在类型重复的目标视频图像，则将类型重复的目标视频图像剔除。

可选地，所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括：

读取所述视频数据的第一时间戳，以及所述音频数据的第二时间戳；

将所述第一时间戳和所述第二时间戳匹配，生成所述第一时间戳和所述第二时间戳之间的匹配关系；

根据所述匹配关系，对所述视频数据和所述音频数据进行合成，生成为音视频文件。

可选地，所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别的步骤之后包括：

根据所述识别结果，对所述视频数据中的文本信息进行验证，生成验证结果；

将所述验证结果返回到发起所述音视频录制请求的录制终端。

根据所述识别结果，对音视频录制的进程进行控制。

进一步地，为实现上述目的，本发明还提供一种基于音视频录制的图像识别装置，所述基于音视频录制的图像识别装置包括：

获取模块，用于当接收到音视频录制请求时，实时获取视频数据以及音频数据；

复制模块，用于对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中；

音视频合成模块，用于将所述视频数据和所述音频数据生成为音视频文件；

识别模块，用于从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别。

进一步地，为实现上述目的，本发明还提供一种基于音视频录制的图像识别设备，所述基于音视频录制的图像识别设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于音视频录制的图像识别程序，所述基于音视频录制的图像识别程序被所述处理器执行时实现如上述所述的基于音视频录制的图像识别方法的步骤。

进一步地，为实现上述目的，本发明还提供一种存储介质，所述存储介质上存储有基于音视频录制的图像识别程序，所述基于音视频录制的图像识别程序被处理器执行时实现如上所述的基于音视频录制的图像识别方法的步骤。

本发明的基于音视频录制的图像识别方法、装置、设备及存储介质，在接收到音视频录制请求，表征具有录制音视频需求时，实时获取视频数据以及音频数据，并对视频数据中的视频图像进行解码和复制，得到目标视频图像存储到内存队列中；进而将视频数据和音频数据生成为音视频文件，并从内存队列中读取出目标视频图像进行识别，生成识别结果，以此实现在音视频录制的同时，对录制过程中的图像进行识别。因此，本发明通过将视频数据复制到内存队列，从内存队列中读取视频数据即可进行识别，使得音视频录制和图像识别功能同时实现，相对于音视频录制和图像识别的先后处理机制，避免了在先处理功能的处理时长对后处理功能实现时长的影响，减少在后处理功能等待时间的同时，提升了音视频录制和图像识别的整体处理效率。

附图说明

图1为本发明基于音视频录制的图像识别设备实施例方案涉及的设备硬件运行环境的结构示意图；

图2为本发明基于音视频录制的图像识别方法第一实施例的流程示意图；

图3为本发明基于音视频录制的图像识别装置较佳实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于音视频录制的图像识别设备，参照图1，图1为本发明基于音视频录制的图像识别设备实施例方案涉及的设备硬件运行环境的结构示意图。

如图1所示，该基于音视频录制的图像识别设备可以包括：处理器1001，例如CPU，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

本领域技术人员可以理解，图1中示出的基于音视频录制的图像识别设备的硬件结构并不构成对基于音视频录制的图像识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于音视频录制的图像识别程序。其中，操作系统是管理和控制基于音视频录制的图像识别设备与软件资源的程序，支持网络通信模块、用户接口模块、基于音视频录制的图像识别程序以及其他程序或软件的运行；网络通信模块用于管理和控制网络接口1004；用户接口模块用于管理和控制用户接口1003。

在图1所示的基于音视频录制的图像识别设备硬件结构中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；处理器1001可以调用存储器1005中存储的基于音视频录制的图像识别程序，并执行以下操作：

进一步地，所述预设类型为二维码类型，所述对所述视频数据中的视频图像进行解码和复制，获得目标视频图像解存储到内存队列中的步骤包括：

进一步地，所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果的步骤包括：

进一步地，所述对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中的步骤之后，处理器1001可以调用存储器1005中存储的基于音视频录制的图像识别程序，并执行以下操作：

若存在历史视频图像，则对所述历史视频图像进行清除；

进一步地，所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括：

进一步地，所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别的步骤之后，处理器1001可以调用存储器1005中存储的基于音视频录制的图像识别程序，并执行以下操作：

根据所述识别结果，对音视频录制的进程进行控制。

本发明基于音视频录制的图像识别设备的具体实施方式与下述基于音视频录制的图像识别方法各实施例基本相同，在此不再赘述。

本发明还提供一种基于音视频录制的图像识别方法。

参照图2，图2为本发明基于音视频录制的图像识别方法第一实施例的流程示意图。

本发明实施例提供了基于音视频录制的图像识别方法的实施例，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。具体地，本实施例中的基于音视频录制的图像识别方法包括：

步骤S10，当接收到音视频录制请求时，实时获取视频数据以及音频数据；

本实施例中的基于音视频录制的图像识别方法应用于识别设备，该识别设备可以是服务器，也可以是客户端。对于服务器，则与多个具有在音视频录制过程中识别图像需求的客户端通信连接，本实施例以客户端为例进行说明。并且，在音视频录制过程中识别图像的场景多种多样，如执法人员录制音视频对执法过程记录的同时，通过识别证件图像来验证执法人员的身份信息；或者金融机构录制音视频对用户办理金融事项过程进行记录的同时，还通过识别二维码类型的视频图像(即包含有二维码的图像)来验证用户所操作文件或者操作流程的正确性；本实施例优选以金融机构录制音视频过程中对包含二维码的图像进行识别的场景为例进行说明。

进一步地，当具有音视频录制需求时，用户通过其终端所安装客户端的显示界面发起音视频录制请求，客户端在接收到该音视频录制请求时，发起调用指令，以调用启动终端内的摄像头和麦克风，通过摄像头拍摄视频数据，并通过麦克风接收音频数据。以此，实时获取到视频数据和音频数据。

步骤S20，对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中；

可理解地，视频数据中包含多帧视频图像，并非所有的视频图像都需要进行识别，故预先设定所需要识别图像的预设类型，如包含证件图像的类型，包含二维码图像的类型等。实时获取的视频数据和音频数据均存储于终端内存的不同存储位置，且不同存储位置以不同的标识区分。通过表征存储音频数据的标识，对存储视频数据的存储位置进行确定，进而对该存储位置中的视频数据进行初步解码识别，确定其中包含有预设类型的视频图像，进而对该类视频图像进行复制操作，并将经复制得到的图像作为目标视频图像。其中，对于初步解码识别，可预先依据预设类型的视频图像所具有的特征设定识别点；如对于身份证件图像，识别点可以是尺寸，正面图像尺寸、位置、字体位置，反面图像尺寸、位置、字体位置等；对于二维码图像，识别点可以是尺寸大小、是否包含定位图像、校正图像、位置探测图像、空白区域等。通过检测视频数据中的各帧图像是否携带有该识别点，来确定其中包含的预设类型的视频图像。

进一步地，在终端内存中设置终端内存队列，将目标视频数据传输到内存队列中存储。从内存到内存的存储有利于快速存储，并且后续直接可从内存中读取目标视频数据进行识别，相对于将目标视频数据存储于本地外存，识别时从本地外存传输到内存进行处理的机制，有利于快速获取目标视频数据进行识别，且节省了传输处理的资源。

可理解地，内存队列所能存储的数据量有限，而对于视频数据中包含预设类型的视频图像较多的情况，所占有的存储空间也较大，可能影响后续的存储。因此，本实施例在目标视频图像存储到内存队列之后，设置有清除机制；具体地，对视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中的步骤之后包括：

步骤a1，判断所述内存队列的存储数据量是否大于预设数量，若大于预设数量，则判断所述内存队列中是否存在历史视频图像；

步骤a2，若存在历史视频图像，则对所述历史视频图像进行清除；

步骤a3，若不存在历史视频图像，则检测所述内存队列存储的各项目标视频图像中是否存在类型重复的目标视频图像；

步骤a4，若存在类型重复的目标视频图像，则将类型重复的目标视频图像剔除。

进一步地，预先设定表征存储数据量过多的预设数量，在将目标视频图像存储到内存队列后，对内存队列的存储数据量进行检测，该存储数据量为内存队列已占用的存储空间。进而将检测的存储数据量和预设数量对比，判断存储数据量是否大于预设数量；若大于预设数量，则说明内存队列当前所存储的数据量过多，可用的存储空间过少，而需要启动清除机制。此时，判断内存队列中是否存在历史视频图像，该历史视频图像为以往图像识别过程中所存储并经识别处理的目标视频图像。若存在该类目标视频图像，则对该类目标视频图像进行清除，以避免已经处理的视频图像对存储空间的占用，而影响后续的存储。

更进一步地，若不存在目标视频图像，则说明当前存储的目标视频图像的数据量过大。此时，检测存储的各项目标视频图像中是否存在类型重复的目标视频图像，该类型重复的目标视频图像为针对同一事项所生成的多张视频图像。如多张用于对同一用户的身份证的正面图像，或者多张用于确认同一保单的二维码图像等。该类图像包含的图像信息相同，且在连续短时间内生成，使得重复判定为视频数据中包含的预设类型的视频图像。若经确定存在类型重复的目标视频图像，则将该类型重复的目标视频图像剔除，保留其中的任意一张进行识别；或者从类型重复的目标视频图像中筛选出识别效果好的目标视频图像保留，而将其他类型重复的目标视频图像剔除。其中识别效果的好坏可通过图像的清晰度、饱和度、明亮度等因素确定，即筛选出清晰度、饱和度和明亮度均有利于识别的目标视频图像进行保留，而对其他进行剔除操作，以在释放存储空间的同时，确保识别的效果和效率。

可理解地，对于目标视频数据，在存储于内存队列的同时，可从内存队列中读取识别。从而在将在后解码和复制得到的目标视频图像存储在内存队列的过程中，判断在前得到的目标视频图像是否经识别生成识别结果。若经识别生成识别结果，则将内存队列中与当前目标视频图像相关的图像清除，以释放内存队列的存储空间。

需要说明的是，清除机制除了每次将目标视频图像存储到内存队列后进行触发外，还可以设定为定时触发。预先设定清除周期，每间隔该清除周期，即启动清除机制，判断内存队列中存储的数据量是否大于预设数量。若大于则说明内存队列可用的存储空间过小，可能影响后续的存储，故而通过依次判断是否存在历史视频图像、是否存储类型重复的目标视频图像等进行清除，释放内存队列的存储空间。

步骤S30，将所述视频数据和所述音频数据生成为音视频文件，并从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别。

进一步地，对视频数据和音频数据分别进行处理，生成为音视频数据。其中，对视频数据的处理包括但不限于压缩旋转，通过压缩来减少视频数据的数据量，通过旋转来将视频数据的格式规范统一。依据视频数据和音频数据各自的生成时间，将音频数据和视频数据合并，生成为可用于播放查看的音视频文件。此后，对内存队列中存储的目标视频数据逐一读取进行识别，得到识别结果；以此，实现在录制音视频过程中，对录制得到的图像进行识别，得到识别结果来对音视频录制过程中所涉及到的流程事项进行验证或确认。如录制音视频中所涉及到的流程事项为保单签署，则可通过二维码图像的识别来验证保单签署过程中所启用的二维码是合法有效的二维码；或者通过二维码图像的识别来确认保单签署过程中通过二维码跳转的流程是保单签署的下一流程。具体地，从内存队列中读取目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别的步骤之后包括：

步骤b1，根据所述识别结果，对所述视频数据中的文本信息进行验证，生成验证结果；

步骤b2，将所述验证结果返回到发起所述音视频录制请求的录制终端。

可理解地，对目标视频图像进行识别，所生成的识别结果依据目标视频图像类型的不同而不同。若类型为身份证件图像，则识别结果为身份是否合法；若类型为二维码图像，则识别结果可以是所处理事项是否正确，或者二维码本身是有有效，本实施例对依据目标视频图像对所处理事项的正确性验证进行说明。具体地，音视频录制过程中除了录制事项处理者之外，还需要录制由事项处理者所处理的文本信息。该文本信息可以以纸质文档的形式存在，也可以以电子文档的形式存在；无论以哪种形式存在，文本信息均对应有二维码。音视频录制过程中将该二维码所在的视频图像复制为目标视频图像存储在内存队列中进行识别，生成识别结果。通过识别结果，对视频数据中的文本信息进行验证，生成验证结果，表征所处理的文本信息的正确性。并且将验证结果返回到发起音视频录制请求的录制终端，供终端用户查看。

在一具体实施例中，如投保过程中的双录场景，双录过程中除了录制投保相关人员，还需要拍摄保险的单证。此时在单证上附上二维码，通过该二维码所在的视频图像复制为目标视频图像存储在内存队列中进行识别，生成识别结果来快速验证拍摄的单证是否正确，并将是否正确的验证结果返回到投保人员的终端进行提醒。以此，减少用户的误操作，提升投保的效率。

更进一步地，所录制音视频中的目标视频图像除了上述用于验证之外，还可用于控制音视频录制的进程，如用于触发“结束录制”、“进入下一流程”等指令。对于该类目标视频图像经识别，得到识别结果后，则根据识别结果的类型，对音视频录制的进程进行控制。以便简化用户的操作过程，直接通过识别结果控制音视频录制。

本发明的基于音视频录制的图像识别方法，在接收到音视频录制请求，表征具有录制音视频需求时，实时获取视频数据以及音频数据，并对视频数据中的视频图像进行解码和复制，得到目标视频图像存储到内存队列中；进而将视频数据和音频数据生成为音视频文件，并从内存队列中读取出目标视频图像进行识别，生成识别结果，以此实现在音视频录制的同时，对录制过程中的图像进行识别。因此，本发明通过将视频数据复制到内存队列，从内存队列中读取视频数据即可进行识别，使得音视频录制和图像识别功能同时实现，相对于音视频录制和图像识别的先后处理机制，避免了在先处理功能的处理时长对后处理功能实现时长的影响，减少在后处理功能等待时间的同时，提升了音视频录制和图像识别的整体处理效率。

进一步地，基于本发明基于音视频录制的图像识别方法的第一实施例，提出本发明基于音视频录制的图像识别方法第二实施例。

所述基于音视频录制的图像识别方法第二实施例与所述基于音视频录制的图像识别方法第一实施例的区别在于，所述预设类型为二维码类型，所述对所述视频数据中的视频图像进行解码和复制，获得目标视频图像解存储到内存队列中的步骤包括：

步骤S21，对所述视频数据中的视频图像进行解码，并判断解码后的视频数据中是否包含二维码类型的视频图像；

步骤S22，若包含所述二维码类型的视频图像，则检测所述二维码类型的视频图像的完整率是否大于预设阈值；

步骤S23，若所述完整率大于预设阈值，则对所述二维码类型的视频图像进行复制，获得目标视频图像，并将所述目标视频图像创建为图像解码任务存储到内存队列中。

本实施例对于预设类型为二维码类型的视频图像进行识别。具体地，在实时获取到视频数据之后，对视频数据中的视频图像进行界面，并依据二维码类型视频图像特征所预先设定的识别点，判定解码后的视频图像中是否包含有二维码类型的视频图像。若经确定包含有二维码类型的视频图像，则继续检测该二维码类型的视频图像的完整率是否大于预设阈值。其中，完整率表是视频图像中二维码的完整情况，若录制到完整无缺的二维码，则其完整率为100％，若仅录制到一半的二维码，则其完整率为50％；预设阈值为预先设置表征二维码可用于识别的完整情况。根据不同类型二维码的尺寸，以及各类型二维码中由纠错码所表征的支持识别的尺寸面积，来设定同不类型的二维码的该预设阈值。在确定包含有二维码类型的视频图像后，检测该视频图像中二维码的类型，以及该二维码的完整率作为视频图像的完整率。进而依据类型调用对应的预设阈值，并将完整率和预设阈值对比，判断完整率是否大于预设阈值。

进一步地，若经确定完整率大于预设阈值，说明视频图像中的二维码支持识别，则将该二维码类型的视频图像进行复制，得到目标视频图像。此后将目标视频图像创建为图像解码任务，存储到内存队列中。通过解码任务调度器从内存队列中读取图像解码任务启动解码识别，得到识别结果。若经确定完整率不大于预设阈值，则说明视频图像中的二维码不支持识别，此时则不对该视频图像进行复制操作，而继续获取视频数据中的下一张视频图形进行判断，直到获得到包含二维码类型的视频图像的完整率大于预设阈值，才进行复制操作。

更进一步地，所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果的步骤包括：

步骤S31，根据所述内存队列中各项所述图像解码任务的排列顺序，逐一获取与各项所述图像解码任务对应的目标视频图像进行识别，生成多项识别子结果；

步骤S32，根据所述音视频录制请求对应的图像识别类型，对多项所述识别子结果进行过滤，生成识别结果。

进一步地，视频数据依据时间先后顺序生成，使得内存队列中依据目标视图图像所创建的图像解码任务以依据时间先后顺序排列。按照内存队列的先进先出特性，排列在先的图像解码任务先进行处理，排列在后的图像解码任务在后处理。因此，根据内存队列中各图像解码任务的排列顺序，逐一获取各图像解码任务若对应的目标视频图像进行解码识别，即逐一从由目标视频图像创建的图像解码任务中获取出目标视频图像进行解码识别，生成与各个目标视频图像分别对应的多项识别子结果。

可理解地，所录制的音视频中包含有多种类型的图像，如用于验证的图像，用于控制录制音视频进程的图像等。将该包含的图像类型作为与音视频录制请求对应的图像识别类型。同时，添加到内存队列中存储的各项目标视频图像中可能存在类型重复的目标视频图像，该类型重复的目标视频图像经解码识别所生成的识别子结果相同。如对于用于控制录制音视频结束的两张目标视频图像，经解码识别得到的识别子结果均是控制录制音视频结束。因此，在经解码生成多项识别子结果后，依据图像识别类型，对各项识别子结果进行过滤，将其中相同的识别子结果合并过滤为一项识别子结果，形成最终与图像识别类型匹配的识别结果，确保对音视频录制中事项的准确处理，或对音视频录制的准确控制。

本实施例通过检测二维码类型的视频图像的完整率，来确保所复制得到的目标视频图像可支持识别，有利于后续识别的准确性。并且在识别过程中，通过对多项子结果的过滤操作，有利于录制音视频中事项的准确处理，或者准确控制音视频的录制。

进一步地，基于本发明基于音视频录制的图像识别方法的第一或第二实施例，提出本发明基于音视频录制的图像识别方法第三实施例。

所述基于音视频录制的图像识别方法第三实施例与所述基于音视频录制的图像识别方法第一或第二实施例的区别在于，所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括：

步骤S33，读取所述视频数据的第一时间戳，以及所述音频数据的第二时间戳；

步骤S34，将所述第一时间戳和所述第二时间戳匹配，生成所述第一时间戳和所述第二时间戳之间的匹配关系；

步骤S35，根据所述匹配关系，对所述视频数据和所述音频数据进行合成，生成为音视频文件。

在本实施例中，将音视频录制过程中的视频数据和音频数据生成用于播放观看的音视频文件。具体地，音视频录制过程中视频数据和音频数据均依据时间先后顺序依次生成，视频数据中携带有其生成时间，音频数据中也携带有生成时间。将视频数据中携带的生成时间作为视频数据的第一时间戳进行读取，并将音频数据中携带的生成时间作为第二时间戳进行读取。并且将第一时间戳和第二时间戳匹配，得到两者之间的匹配关系。因视频数据存在于音视频录制的整个过程，而音频数据仅存在于音视频录制过程中的某些阶段，故而音视频录制过程中音频数据的第二时间戳位于视频数据的第一时间戳的范围内。第一时间戳与第二时间戳的匹配关系，为第一时间戳的某些时间点与第二时间戳的时间点一致。故而可依据该一致的匹配关系，将视频数据和音频数据进行合成，将音频数据添加到视频数据中，生成为音视频文件，实现音视频的播放。或者依据匹配关系，在音频数据和视频数据之间设置调用关系；在播放视频数据的过程中，每当达到匹配的时间点，则对音频数据进行调用，将音频数据添加到当前播放的视频数据中，实现音视频的播放。

在一具体实施例中，若音视频录制过程中的视频数据包含数据D1、D2和D3，音频数据包含数据Y1；读取的视频数据的第一时间戳为m1、m2和m3，音频数据的第二时间戳为n1。将第一时间戳和第二时间戳的匹配，确定两者之间的匹配关系为第一时间戳m2与第二时间戳n1匹配，说明在录制到视频数据D2时录制到音频数据Y1，因而可将音频数据Y2添加到视频数据D2中，和视频数据D1、D3一并生成为音视频文件进行播放观看。

本实施例中通过视频数据的第一时间戳与音频数据的第二时间戳之间的匹配关系，对视频数据和音频数据进行合成，确保了音视频数据与视频数据之间的同步播放，有利于对所录制音视频的准确播放观看。

本发明还提供一种基于音视频录制的图像识别装置。

参照图3，图3为本发明基于音视频录制的图像识别装置第一实施例的功能模块示意图。所述基于音视频录制的图像识别装置包括：

获取模块10，用于获取模块，用于当接收到音视频录制请求时，实时获取视频数据以及音频数据；

复制模块20，用于对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中；

音视频合成模块30，用于将所述视频数据和所述音频数据生成为音视频文件；

识别模块40，用于从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别。

进一步地，所述预设类型为二维码类型，所述复制模块20还包括：

判断单元，用于对所述视频数据中的视频图像进行解码，并判断解码后的视频图像中是否包含二维码类型的视频图像；

检测单元，用于若包含所述二维码类型的视频图像，则检测所述二维码类型的视频图像的完整率是否大于预设阈值；

复制单元，用于若所述完整率大于预设阈值，则对所述二维码类型的视频图像进行复制，获得目标视频图像，并将所述目标视频图像创建为图像解码任务存储到内存队列中。

进一步地，所述识别模块40还包括：

识别单元，用于根据所述内存队列中各项所述图像解码任务的排列顺序，逐一获取与各项所述图像解码任务对应的目标视频图像进行识别，生成多项识别子结果；

过滤单元，用于根据所述音视频录制请求对应的图像识别类型，对多项所述识别子结果进行过滤，生成识别结果。

进一步地，所述基于音视频录制的图像识别装置还包括：

判断模块，用于判断所述内存队列的存储数据量是否大于预设数量，若大于预设数量，则判断所述内存队列中是否存在历史视频图像；

清除模块，用于若存在历史视频图像，则对所述历史视频图像进行清除；

检测模块，用于若不存在历史视频图像，则检测所述内存队列存储的各项目标视频图像中是否存在类型重复的目标视频图像；

剔除模块，用于若存在类型重复的目标视频图像，则将类型重复的目标视频图像剔除。

进一步地，所述识别模块30还包括：

读取单元，用于读取所述视频数据的第一时间戳，以及所述音频数据的第二时间戳；

匹配单元，用于将所述第一时间戳和所述第二时间戳匹配，生成所述第一时间戳和所述第二时间戳之间的匹配关系；

合成单元，用于根据所述匹配关系，对所述视频数据和所述音频数据进行合成，生成为音视频文件。

进一步地，所述基于音视频录制的图像识别装置还包括：

验证模块，用于根据所述识别结果，对所述视频数据中的文本信息进行验证，生成验证结果；

返回模块，用于将所述验证结果返回到发起所述音视频录制请求的录制终端。

进一步地，所述基于音视频录制的图像识别装置还包括：

控制模块，用于根据所述识别结果，对音视频录制的进程进行控制。

本发明基于音视频录制的图像识别装置具体实施方式与上述基于音视频录制的图像识别方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种存储介质。

存储介质上存储有基于音视频录制的图像识别程序，基于音视频录制的图像识别程序被处理器执行时实现如上所述的基于音视频录制的图像识别方法的步骤。

本发明存储介质可以是计算机存储介质，其具体实施方式与上述基于音视频录制的图像识别方法各实施例基本相同，在此不再赘述。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，这些均属于本发明的保护之内。

Claims

1.一种基于音视频录制的图像识别方法，其特征在于，所述基于音视频录制的图像识别方法包括以下步骤：

所述对所述视频数据中的视频图像进行解码和复制，获得目标视频图像解存储到内存队列中的步骤包括：

若所述完整率大于预设阈值，则对所述二维码类型的视频图像进行复制，获得目标视频图像，并将所述目标视频图像创建为图像解码任务存储到内存队列中；

将所述视频数据和所述音频数据生成为音视频文件，并从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别；

所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果的步骤包括：

2.如权利要求1所述的基于音视频录制的图像识别方法，其特征在于，所述对所述视频数据中的视频图像进行解码和复制，获得目标视频图像存储到内存队列中的步骤之后包括：

若存在历史视频图像，则对所述历史视频图像进行清除；

3.如权利要求1-2任一项所述的基于音视频录制的图像识别方法，其特征在于，所述将所述视频数据和所述音频数据生成为音视频文件的步骤包括：

4.如权利要求1-2任一项所述的基于音视频录制的图像识别方法，其特征在于，所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别的步骤之后包括：

5.如权利要求1-2任一项所述的基于音视频录制的图像识别方法，其特征在于，所述从所述内存队列中读取所述目标视频图像进行识别，生成识别结果，以对音视频录制时的视频图像进行识别的步骤之后包括：

根据所述识别结果，对音视频录制的进程进行控制。

6.一种基于音视频录制的图像识别装置，其特征在于，所述基于音视频录制的图像识别装置包括：

复制单元，用于若所述完整率大于预设阈值，则对所述二维码类型的视频图像进行复制，获得目标视频图像，并将所述目标视频图像创建为图像解码任务存储到内存队列中；

7.一种基于音视频录制的图像识别设备，其特征在于，所述基于音视频录制的图像识别设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的基于音视频录制的图像识别程序，所述基于音视频录制的图像识别程序被所述处理器执行时实现如权利要求1-5中任一项所述基于音视频录制的图像识别方法的步骤。

8.一种存储介质，其特征在于，所述存储介质上存储有基于音视频录制的图像识别程序，所述基于音视频录制的图像识别程序被处理器执行时实现如权利要求1-5中任一项所述基于音视频录制的图像识别方法的步骤。