CN115631448B

CN115631448B - 一种音视频质检处理方法及系统

Info

Publication number: CN115631448B
Application number: CN202211629368.5A
Authority: CN
Inventors: 请求不公布姓名
Original assignee: Guangzhou Bairui Network Technology Co ltd
Current assignee: Guangzhou Bairui Network Technology Co ltd
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-04-04
Anticipated expiration: 2042-12-19
Also published as: CN115631448A

Abstract

本发明提供的一种音视频质检处理方法及系统，涉及数据处理技术领域。在本发明中，对待质检音视频数据进行数据分离处理，输出待质检视频数据和待质检音频数据；对待质检视频数据进行分帧处理及对象识别处理，输出每一帧待质检视频帧对应的对象识别信息；对待质检音频数据进行语音识别处理，输出待质检文本数据，对待质检文本数据进行质检处理，输出音频质检信息；基于每一帧待质检视频帧对应的对象识别信息和待质检音频数据对应的音频质检信息分析出待质检音视频数据对应的融合质检信息。本发明先将音视频进行分离识别质检再融合判断，提高了音视频中的文本信息、行为动作以及语音识别等质检项目的精度，进一步提高了音视频的质检效率。

Description

一种音视频质检处理方法及系统

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种音视频质检处理方法及系统。

背景技术

随着计算机技术和互联网技术的不断成熟，使得音视频数据的数量极具增强。其中，对于海量的音视频数据，一般会存在着部分音视频并不符合配置的条件，因此，需要对音视频进行质检，且音视频的质检在较多领域中有应用。但是，现有技术中，存在着音视频质检的可靠度不高的问题，即容易出现较多无效的音视频质检，因此，基于一定的质检需求，可能需要进行多次的音视频质检，从而导致音视频质检效率不佳。

发明内容

有鉴于此，本发明的目的在于提供一种音视频质检处理方法及系统，以在一定程度上改善音视频质检的可靠度不高的问题，有效提高了音视频质检效率。

为实现上述目的，本发明实施例采用如下技术方案：

一种音视频质检处理方法，包括：

提取到待质检音视频数据，并对所述待质检音视频数据进行数据分离处理，以输出对应的待质检视频数据和对应的待质检音频数据；

对所述待质检视频数据进行分帧处理，以输出所述待质检视频数据包括的每一帧待质检视频帧，以及，分别对每一帧所述待质检视频帧进行对象识别处理，以输出每一帧待质检视频帧对应的对象识别信息；

对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，以及，对所述待质检文本数据进行质检处理，以输出所述待质检音频数据对应的音频质检信息；

基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息，所述融合质检信息用于反应所述待质检音视频数据在视频维度和音频维度两个维度整体上具有的质检信息。

在一些优选的实施例中，在上述音视频质检处理方法中，所述对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，以及，对所述待质检文本数据进行质检处理，以输出所述待质检音频数据对应的音频质检信息的步骤，包括：

对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据；

利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量，所述目标文本数据质检神经网络通过对所述示例性文本第一簇进行学习以形成，所述示例性文本第一簇包括各自属于多种音频质检信息类型中的每一种音频质检信息类型对应的示例性文本；

对所述目标文本数据质检神经网络加载待质检文本数据，利用所述目标文本数据质检神经网络，挖掘到所述待质检文本数据对应的待质检文本深层次描述向量；

确定出每一个所述示例文本深层次描述向量对应的初始描述向量组合，所述初始描述向量组合包括所述示例文本深层次描述向量和所述待质检文本深层次描述向量；

对于每一个所述初始描述向量组合，依据所述初始描述向量组合中的所述示例文本深层次描述向量和所述待质检文本深层次描述向量之间的聚焦特征分析结果，分别将所述示例文本深层次描述向量和所述待质检文本深层次描述向量进行优化处理，以输出包括优化示例文本深层次描述向量和优化待质检文本深层次描述向量的优化描述向量组合，所述聚焦特征分析结果用于反映所述初始描述向量组合中的一个描述向量对另一个描述向量的聚焦特征分析关联性；

分别分析输出每一个所述优化描述向量组合中所述优化示例文本深层次描述向量和所述优化待质检文本深层次描述向量之间的描述向量差异度，以及，基于每一个所述优化描述向量组合对应的描述向量差异度，分析出所述待质检文本数据对应的音频质检信息。

在一些优选的实施例中，在上述音视频质检处理方法中，所述对于每一个所述初始描述向量组合，依据所述初始描述向量组合中的所述示例文本深层次描述向量和所述待质检文本深层次描述向量之间的聚焦特征分析结果，分别将所述示例文本深层次描述向量和所述待质检文本深层次描述向量进行优化处理，以输出包括优化示例文本深层次描述向量和优化待质检文本深层次描述向量的优化描述向量组合的步骤，包括：

依据所述示例文本深层次描述向量对所述待质检文本深层次描述向量的聚焦特征分析结果，并结合所述待质检文本深层次描述向量对所述示例文本深层次描述向量的聚焦特征分析结果，将所述示例文本深层次描述向量进行优化处理，以输出优化描述向量组合包括的优化示例文本深层次描述向量；

依据所述待质检文本深层次描述向量对所述示例文本深层次描述向量的聚焦特征分析结果，并结合所述示例文本深层次描述向量对所述待质检文本深层次描述向量的聚焦特征分析结果，将所述待质检文本深层次描述向量进行优化处理，以输出优化描述向量组合包括的优化待质检文本深层次描述向量。

在一些优选的实施例中，在上述音视频质检处理方法中，所述利利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量的步骤，包括：

利用目标文本数据质检神经网络包括的深层次信息挖掘单元，对示例性文本第一簇中的每一种音频质检信息类型的示例性文本进行挖掘，以挖掘出对应的待处理示例文本深层次描述向量，以及，对所述待处理示例文本深层次描述向量加载到所述目标文本数据质检神经网络的第一文本质检类型评估单元，以利用所述第一文本质检类型评估单元评估形成对应的待处理评估可能性参数分布；以及，基于所述待处理评估可能性参数分布中第一评估可能性参数的分布坐标，从所述第一文本质检类型评估单元对应的重要度参数分布中抽选到对应的示例性重要度参数分布，以及，基于所述示例性重要度参数分布，将所述待处理示例文本深层次描述向量进行优化处理，以形成对应的示例文本深层次描述向量，所述第一评估可能性参数在所述待处理评估可能性参数分布中具有最大值；

所述对所述目标文本数据质检神经网络加载待质检文本数据，利用所述目标文本数据质检神经网络，挖掘到所述待质检文本数据对应的待质检文本深层次描述向量的步骤，包括：

利用所述目标文本数据质检神经网络包括的深层次信息挖掘单元，挖掘到所述待质检文本数据对应的待处理待质检文本深层次描述向量，以及，对所述待处理待质检文本深层次描述向量加载到所述目标文本数据质检神经网络包括的第一文本质检类型评估单元，以利用所述第一文本质检类型评估单元评估形成对应的待抽选评估可能性参数分布；以及，基于所述待抽选评估可能性参数分布中第一评估可能性参数的分布坐标，从所述第一文本质检类型评估单元对应的重要度参数分布中抽选到对应的抽选重要度参数分布，以及，基于所述抽选重要度参数分布，将所述待处理待质检文本深层次描述向量进行优化处理，形成对应的待质检文本深层次描述向量。

在一些优选的实施例中，在上述音视频质检处理方法中，在所述利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量的步骤之前，所述音视频质检处理方法还包括：

基于所述示例性文本第一簇，将候选文本数据质检神经网络进行网络优化处理，以形成对应的目标文本数据质检神经网络。

在一些优选的实施例中，在上述音视频质检处理方法中，所述基于所述示例性文本第一簇，将候选文本数据质检神经网络进行网络优化处理，以形成对应的目标文本数据质检神经网络的步骤，包括：

基于每一种音频质检信息类型的示例性文本对应的所述待处理示例文本深层次描述向量，将所述候选文本数据质检神经网络包括的候选第一文本质检类型评估单元的重要度参数分布进行默认配置确定处理；

依据所述示例性文本第一簇，将所述候选第一文本质检类型评估单元进行网络优化处理，以形成对应的第一文本质检类型评估单元。

在一些优选的实施例中，在上述音视频质检处理方法中，在所述基于所述示例性文本第一簇，将候选文本数据质检神经网络进行网络优化处理，以形成对应的目标文本数据质检神经网络的步骤之前，所述音视频质检处理方法还包括：

基于包括多个初始优化示例性文本的示例性文本第二簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络。

在一些优选的实施例中，在上述音视频质检处理方法中，所述示例性文本第二簇包括示例性文本优化簇和示例性文本检测簇，所述示例性文本检测簇用于筛选出候选文本数据质检神经网络，所述示例性文本优化簇和所述示例性文本检测簇中的初始优化示例性文本对应的音频质检信息类型不一样，所述基于包括多个初始优化示例性文本的示例性文本第二簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络的步骤，包括：

多次将所述示例性文本第二簇包括的示例性文本优化簇进行优化依据确定处理，使得在进行每一次优化依据确定处理时任意确定出第一子示例性文本优化簇和第二子示例性文本优化簇，所述第一子示例性文本优化簇和所述第二子示例性文本优化簇都包括目标数量种音频质检信息类各自对应的初始优化示例性文本，所述第一子示例性文本优化簇和所述第二子示例性文本优化簇对应的目标数量种音频质检信息类型一致；

依据多次进行优化依据确定处理确定的第一子示例性文本优化簇和第二子示例性文本优化簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络；以及，在确定出多个候选文本数据质检神经网络的情况下，基于所述示例性文本检测簇，对所述多个候选文本数据质检神经网络进行检测筛选。

在一些优选的实施例中，在上述音视频质检处理方法中，所述基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息，所述融合质检信息用于反应所述待质检音视频数据在视频维度和音频维度两个维度整体上具有的质检信息的步骤，包括：

对每一帧所述待质检视频帧对应的对象识别信息进行组合，以形成所述待质检视频数据对应的视频识别动作序列，每一帧所述待质检视频帧对应的对象识别信息用于反映所述待质检视频帧中的对象动作；

对所述视频识别动作序列进行动作质检处理，以输出所述待质检视频数据对应的视频质检信息，所述视频质检信息用于反映所述待质检视频帧中的对象动作是否满足预先配置的动作条件；

将所述视频质检信息和所述待质检音频数据对应的音频质检信息，融合分析出所述待质检音视频数据对应的融合质检信息，所述待质检音频数据对应的音频质检信息用于反映所述待质检音频数据中的音频内容是否满足预先配置的音频内容条件。

本发明实施例还提供一种音视频质检处理系统，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现上述的音视频质检处理方法。

本发明实施例提供的一种音视频质检处理方法及系统，对待质检音视频数据进行数据分离处理，输出待质检视频数据和待质检音频数据；对待质检视频数据进行分帧处理，输出每一帧待质检视频帧，以及，分别对每一帧待质检视频帧进行对象识别处理，输出每一帧待质检视频帧对应的对象识别信息；对待质检音频数据进行语音识别处理，输出待质检文本数据，对待质检文本数据进行质检处理，输出音频质检信息；基于每一帧待质检视频帧对应的对象识别信息和待质检音频数据对应的音频质检信息分析出待质检音视频数据对应的融合质检信息。基于前述的步骤，由于是先将音视频进行分离，以分别识别质检，然后，再进行融合，使得识别质检的精度更高，从而在一定程度上提高音视频质检的可靠度，在一定程度上改善了音视频质检的可靠度不高的问题，进而可以改善因需要进行多次质检而导致的音视频质检效率不高的问题，有效提高了音视频质检效率。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

图1为本发明实施例提供的音视频质检处理系统的结构框图。

图2为本发明实施例提供的音视频质检处理方法包括的各步骤的流程示意图。

图3为本发明实施例提供的音视频质检处理装置的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例只是本发明的一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种音视频质检处理系统。其中，所述音视频质检处理系统可以包括存储器和处理器。

详细地，所述存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述存储器中可以存储有至少一个可以以软件或固件（firmware）的形式，存在的软件功能模块（计算机程序）。所述处理器可以用于执行所述存储器中存储的可执行的计算机程序，从而实现本发明实施例提供的音视频质检处理方法。

举例来说，在一些实施方式中，所述存储器可以是，但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-Only Memory，PROM），可擦除只读存储器（Erasable ProgrammableRead-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable ProgrammableRead-Only Memory，EEPROM）等。所述处理器可以是一种通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）、片上系统(System on Chip，So步骤三等；还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

举例来说，在一些实施方式中，所述音视频质检处理系统可以是一种具备数据处理能力的服务器。

结合图2，本发明实施例还提供一种音视频质检处理方法，可应用于上述音视频质检处理系统。其中，所述音视频质检处理方法有关的流程所定义的方法步骤，可以由所述音视频质检处理系统实现。

下面将对图2所示的具体流程，进行详细阐述。

步骤S110，提取到待质检音视频数据，并对所述待质检音视频数据进行数据分离处理，以输出对应的待质检视频数据和对应的待质检音频数据。

在本发明实施例中，所述音视频质检处理系统可以提取到待质检音视频数据，并对所述待质检音视频数据进行数据分离处理（可以参照相关的现有技术），以输出对应的待质检视频数据和对应的待质检音频数据。

步骤S120，对所述待质检视频数据进行分帧处理，以输出所述待质检视频数据包括的每一帧待质检视频帧，以及，分别对每一帧所述待质检视频帧进行对象识别处理，以输出每一帧待质检视频帧对应的对象识别信息。

在本发明实施例中，所述音视频质检处理系统可以对所述待质检视频数据进行分帧处理，以输出所述待质检视频数据包括的每一帧待质检视频帧，以及，分别对每一帧所述待质检视频帧进行对象识别处理，以输出每一帧待质检视频帧对应的对象识别信息（可以参照相关的现有技术，其中，所述对象识别信息可以包括进行人脸检测、证件识别、人证比对、文档识别、签字动作识别、签名识别、印章识别、场景识别等处理的结果）。

步骤S130，对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，以及，对所述待质检文本数据进行质检处理，以输出所述待质检音频数据对应的音频质检信息。

在本发明实施例中，所述音视频质检处理系统可以对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，以及，对所述待质检文本数据进行质检处理，以输出所述待质检音频数据对应的音频质检信息（对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，再对所述待质检文本数据进行质检处理，示例性地，可以对所述待质检文本数据进行问题文本、答案文本匹配，以判断得到所述待质检文本数据与问题文本或答案文本的差异结果，得到所述待质检文本数据的质检结果，即输出所述待质检音频数据对应的音频质检信息）。

步骤S140，基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息。

在本发明实施例中，所述音视频质检处理系统可以基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息。所述融合质检信息用于反应所述待质检音视频数据在视频维度和音频维度两个维度整体上具有的质检信息。

基于前述的步骤（即前述的步骤S110-步骤S140），由于是先将音视频进行分离，以分别识别质检，然后，再进行融合，使得识别质检的精度更高，从而在一定程度上提高音视频质检的可靠度，在一定程度上改善了音视频质检的可靠度不高的问题，进而可以改善因需要进行多次质检而导致的音视频质检效率不高的问题，有效提高了音视频质检效率。

举例来说，在一些实施方式中，上述描述中的步骤S130，即所述对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，以及，对所述待质检文本数据进行质检处理，以输出所述待质检音频数据对应的音频质检信息的步骤，可以包括：

对所述待质检音频数据进行语音识别处理（可以参照相关的现有技术），以输出所述待质检音频数据对应的待质检文本数据；

利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量，所述目标文本数据质检神经网络通过对所述示例性文本第一簇进行学习以形成，所述示例性文本第一簇包括各自属于多种音频质检信息类型中的每一种音频质检信息类型对应的示例性文本（示例性地，所述示例性文本第一簇中可以配置第一数量种音频质检信息类型的示例性文本，每一种音频质检信息类型可以对应配置包括第二数量个携带有实际音频质检信息类型的示例性文本，如此，所述示例性文本第一簇包括第三数量个示例性文本，所述第三数量等于所述第一数量和所述第二数量之间的乘积；另外，在一种音频质检信息类型对应的示例性文本为多个时，可以将多个示例性文本对应的多个示例文本深层次描述向量进行融合处理，以得到该音频质检信息类型对应的示例性文本对应的深层次描述向量，即示例文本深层次描述向量，例如，示例性文本1对应有示例文本深层次描述向量A，示例性文本2对应有示例文本深层次描述向量B，示例性文本3对应有示例文本深层次描述向量C；另外，将多个示例性文本对应的多个示例文本深层次描述向量进行融合处理的具体方式可以是，将多个示例性文本对应的多个示例文本深层次描述向量进行均值计算，以得到该音频质检信息类型对应的示例性文本对应的深层次描述向量，即示例文本深层次描述向量，在其它实施方式中，也可以有其它融合方式）；

对所述目标文本数据质检神经网络加载待质检文本数据，利用所述目标文本数据质检神经网络，挖掘到所述待质检文本数据对应的待质检文本深层次描述向量（如通过包括的深层次信息挖掘单元实现）；

确定出每一个所述示例文本深层次描述向量对应的初始描述向量组合，所述初始描述向量组合包括所述示例文本深层次描述向量和所述待质检文本深层次描述向量（示例性地，可以将所述待质检文本深层次描述向量分别与各示例文本深层次描述向量进行组合，得到与每一个示例文本深层次描述向量对应的初始描述向量组合）；

分别分析输出每一个所述优化描述向量组合中所述优化示例文本深层次描述向量和所述优化待质检文本深层次描述向量之间的描述向量差异度，以及，基于每一个所述优化描述向量组合对应的描述向量差异度，分析出所述待质检文本数据对应的音频质检信息（示例性地，示例性地，可以对所述优化示例文本深层次描述向量和所述优化待质检文本深层次描述之间的向量差异度计算，如向量相似度的负相关值，然后，选择出具有最小值的向量差异度，然后，可以将对应的所述优化描述向量组合中的示例文本深层次描述向量对应的示例性文本对应的音频质检信息类型，确定为所述待质检文本数据对应的音频质检信息）。

举例来说，在一些实施方式中，上述描述中的所述对于每一个所述初始描述向量组合，依据所述初始描述向量组合中的所述示例文本深层次描述向量和所述待质检文本深层次描述向量之间的聚焦特征分析结果，分别将所述示例文本深层次描述向量和所述待质检文本深层次描述向量进行优化处理，以输出包括优化示例文本深层次描述向量和优化待质检文本深层次描述向量的优化描述向量组合的步骤，可以包括：

依据所述示例文本深层次描述向量对所述待质检文本深层次描述向量的聚焦特征分析结果（如该聚焦特征分析结果的确定方式可以为，在聚焦特征分析的处理过程中，可以先对非自主性提示向量进行行列参数对换处理，然后，对自主性提示向量与该行列参数对换处理的结果进行乘法运算，然后，可以对乘法运算的结果进行非线性激励映射输出），并结合所述待质检文本深层次描述向量对所述示例文本深层次描述向量的聚焦特征分析结果（如该聚焦特征分析结果的确定方式可以为，在聚焦特征分析的处理过程中，可以先对自主性提示向量进行行列参数对换处理，然后，对非自主性提示向量与该行列参数对换处理的结果进行乘法运算，然后，可以对乘法运算的结果进行非线性激励映射输出），将所述示例文本深层次描述向量进行优化处理，以输出优化描述向量组合包括的优化示例文本深层次描述向量（示例性地，可以将两个聚焦特征分析结果进行乘法运算，然后，对该乘法运算的结果进行非线性激励映射输出，然后，可以对非线性激励映射输出的结果与感官输入向量进行乘法运算，以得到所述优化示例文本深层次描述向量）；

依据所述待质检文本深层次描述向量对所述示例文本深层次描述向量的聚焦特征分析结果，并结合所述示例文本深层次描述向量对所述待质检文本深层次描述向量的聚焦特征分析结果，将所述待质检文本深层次描述向量进行优化处理，以输出优化描述向量组合包括的优化待质检文本深层次描述向量（如前相关描述）。

举例来说，在一些实施方式中，上述描述中的所述利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量的步骤，可以包括：

利用目标文本数据质检神经网络包括的深层次信息挖掘单元（可以是任意一种特征挖掘网络，在此不做具体的限定），对示例性文本第一簇中的每一种音频质检信息类型的示例性文本进行挖掘，以挖掘出对应的待处理示例文本深层次描述向量，以及，对所述待处理示例文本深层次描述向量加载到所述目标文本数据质检神经网络的第一文本质检类型评估单元，以利用所述第一文本质检类型评估单元评估形成对应的待处理评估可能性参数分布（示例性地，可以利用所述第一文本质检类型评估单元包括的全连接网络层，对所述待处理示例文本深层次描述向量进行处理，以输出所述待处理评估可能性参数分布）；以及，基于所述待处理评估可能性参数分布中第一评估可能性参数的分布坐标，从所述第一文本质检类型评估单元对应的重要度参数分布中抽选到对应的示例性重要度参数分布（示例性地，可以将所述待处理评估可能性参数分布和所述重要度参数分布进行乘法运算，以得到所述示例性重要度参数分布），以及，基于所述示例性重要度参数分布，将所述待处理示例文本深层次描述向量进行优化处理，以形成对应的示例文本深层次描述向量（示例性地，可以先对所述示例性重要度参数中的各元素的平方和，然后，计算平方根，然后，计算所述示例性重要度参数和该平方根之间的商值，然后，计算对该商值和所述待处理示例文本深层次描述向量进行乘法运算，以形成对应的示例文本深层次描述向量，其中，所述重要度参数分布可以是在默认值的情况下，通过进行相应的网络优化处理，以最终形成），所述第一评估可能性参数在所述待处理评估可能性参数分布中具有最大值。

举例来说，在一些实施方式中，上述描述中的所述对所述目标文本数据质检神经网络加载待质检文本数据，利用所述目标文本数据质检神经网络，挖掘到所述待质检文本数据对应的待质检文本深层次描述向量的步骤，可以包括：

利用所述目标文本数据质检神经网络包括的深层次信息挖掘单元，挖掘到所述待质检文本数据对应的待处理待质检文本深层次描述向量，以及，对所述待处理待质检文本深层次描述向量加载到所述目标文本数据质检神经网络包括的第一文本质检类型评估单元，以利用所述第一文本质检类型评估单元评估形成对应的待抽选评估可能性参数分布；以及，基于所述待抽选评估可能性参数分布中第一评估可能性参数的分布坐标，从所述第一文本质检类型评估单元对应的重要度参数分布中抽选到对应的抽选重要度参数分布，以及，基于所述抽选重要度参数分布，将所述待处理待质检文本深层次描述向量进行优化处理，以形成对应的待质检文本深层次描述向量（可以参照前文的相关描述，在此不再一一赘述）。

举例来说，在一些实施方式中，在所述利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量的步骤之前，所述音视频质检处理方法还可以包括以下的一些步骤：

举例来说，在一些实施方式中，上述描述中的所述基于所述示例性文本第一簇，将候选文本数据质检神经网络进行网络优化处理，以形成对应的目标文本数据质检神经网络的步骤，可以包括：

基于每一种音频质检信息类型的示例性文本对应的所述待处理示例文本深层次描述向量，将所述候选文本数据质检神经网络包括的候选第一文本质检类型评估单元的重要度参数分布进行默认配置确定处理（示例性地，对于每一种音频质检信息类型的示例性文本对应的所述待处理示例文本深层次描述向量，可以先计算该待处理示例文本深层次描述向量包括的各向量元素的平方和，然后，计算平方根，然后，可以计算该待处理示例文本深层次描述向量和该平方根的商值，以得到该待处理示例文本深层次描述向量对应的重要度参数，然后，可以将每一种音频质检信息类型的示例性文本对应的所述待处理示例文本深层次描述向量对应的重要度参数进行组合，以形成所述重要度参数分布）；

举例来说，在一些实施方式中，在所述基于所述示例性文本第一簇，将候选文本数据质检神经网络进行网络优化处理，以形成对应的目标文本数据质检神经网络的步骤之前，所述音视频质检处理方法还可以包括：

基于包括多个初始优化示例性文本的示例性文本第二簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络（也就是说，可以先通过包括多个初始优化示例性文本的示例性文本第二簇，对搭建的文本数据质检神经网络进行第一次优化处理，以形成对应的候选文本数据质检神经网络，然后，依据示例性文本第一簇，对所述候选文本数据质检神经网络进行第二次优化处理，以形成对应的目标文本数据质检神经网络）。

举例来说，在一些实施方式中，所述示例性文本第二簇包括示例性文本优化簇和示例性文本检测簇，所述示例性文本优化簇中的初始优化示例性文本对应的音频质检信息类型和所述示例性文本检测簇中的初始优化示例性文本对应的音频质检信息类型不一样，并且，所述示例性文本检测簇用于筛选出候选文本数据质检神经网络，基于此，上述描述中的所述基于包括多个初始优化示例性文本的示例性文本第二簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络的步骤，可以包括以下具体的子步骤：

依据多次进行优化依据确定处理确定的第一子示例性文本优化簇和第二子示例性文本优化簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络；以及，在确定出多个候选文本数据质检神经网络的情况下，基于所述示例性文本检测簇，对所述多个候选文本数据质检神经网络进行检测筛选（举例来说，对搭建的文本数据质检神经网络进行初始优化处理的过程包括：步骤一，优化依据确定处理：从示例性文本第二簇中任意确定出第一子示例性文本优化簇，可以包括多个初始优化示例性文本，再确定出与第一子示例性文本优化簇的初始优化示例性文本的音频质检信息类型相同的第二子示例性文本优化簇，该第二子示例性文本优化簇包括多个初始优化示例性文本；步骤二，对上述步骤一的优化依据确定处理进行多次，且每一次优化依据确定处理之后可以进行一次初始优化处理，以形成一个中间候选文本数据质检神经网络；步骤三，基于步骤一中优化依据确定处理的方式，从示例性文本检测簇任意确定出第一子示例性文本检测簇和第二子示例性文本检测簇对中间候选文本数据质检神经网络进行评估精度分析处理；步骤四，重复步骤一到步骤三共多次，以得到多个中间候选文本数据质检神经网络对应的评估精度分析值，将评估精度分析值最大的中间候选文本数据质检神经网络作为候选文本数据质检神经网络，实现候选文本数据质检神经网络的检测筛选）。

其中，举例来说，在一些实施方式中，所述搭建的文本数据质检神经网络还可以包括第二文本质检类型评估单元和第三文本质检类型评估单元，基于此，上述描述中的所述依据多次进行优化依据确定处理确定的第一子示例性文本优化簇和第二子示例性文本优化簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络的步骤，可以包括以下的具体的子步骤：

对确定的所述第一子示例性文本优化簇和所述第二子示例性文本优化簇加载到搭建的文本数据质检神经网络中，挖掘到所述第一子示例性文本优化簇中每一种音频质检信息类型的初始优化示例性文本对应的第一聚焦示例文本深层次描述向量（示例性地，所述第一聚焦示例文本深层次描述向量的挖掘方式，可以参照前文对所述待处理示例文本深层次描述向量进行优化处理以形成对应的示例文本深层次描述向量的方式，在此不再一一赘述，即进行聚焦特征分析；另外，在所述第一子示例性文本优化簇中每一种音频质检信息类型的初始优化示例性文本为多个的情况下，可以将多个初始优化示例性文本对应的多个第一聚焦示例文本深层次描述向量进行融合，以得到每一种音频质检信息类型的初始优化示例性文本对应的第一聚焦示例文本深层次描述向量；另外，将多个初始优化示例性文本对应的多个第一聚焦示例文本深层次描述向量进行融合的方式不受限制，可以将多个初始优化示例性文本对应的多个第一聚焦示例文本深层次描述向量进行均值计算）和所述第二子示例性文本优化簇中初始优化示例性文本对应的多个第二聚焦示例文本深层次描述向量（示例性地，所述第二聚焦示例文本深层次描述向量的挖掘方式，可以参照前文对所述待处理示例文本深层次描述向量进行优化处理以形成对应的示例文本深层次描述向量的方式，在此不再一一赘述）；

对所述第一聚焦示例文本深层次描述向量和所述第二聚焦示例文本深层次描述向量加载到所述第三文本质检类型评估单元，评估形成所述第二子示例性文本优化簇中的所述初始优化示例性文本对应的第一音频质检信息；以及，基于所述第二子示例性文本优化簇中所述初始优化示例性文本对应的所述第一音频质检信息和所述初始优化示例性文本对应的实际音频质检信息，计算出对应的第一网络优化学习代价值（即误差计算）；

对所述多个第二聚焦示例文本深层次描述向量中初始优化示例性文本的实际音频质检信息对应的第二聚焦示例文本深层次描述向量加载到所述第二文本质检类型评估单元中，评估形成所述初始优化示例性文本的第二音频质检信息；以及，基于所述初始优化示例性文本的第二音频质检信息和所述初始优化示例性文本的实际音频质检信息，计算出对应的第二网络优化学习代价值（即误差计算）；

基于所述第一网络优化学习代价值和所述第二网络优化学习代价值，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络。

其中，举例来说，在一些实施方式中，所述搭建的文本数据质检神经网络还包括可以第四文本质检类型评估单元，上述描述中的所述对确定的所述第一子示例性文本优化簇和所述第二子示例性文本优化簇加载到搭建的文本数据质检神经网络中的步骤，可以包括：

将第二子示例性文本优化簇中的初始优化示例性文本分别进行多次文本片段顺序调整（示例性地，可以先基于语义相关度，对初始优化示例性文本进行分段处理，以形成对应的多个初始优化示例性文本片段，然后，可以将初始优化示例性文本片段的顺序进行调整；举例来说，可以对第二子示例性文本优化簇中的初始优化示例性文本分别进行第一个初始优化示例性文本片段与最后一个初始优化示例性文本片段之间的对换、第二个初始优化示例性文本片段与倒数第二个初始优化示例性文本片段之间的对换、第三个初始优化示例性文本片段与倒数第四个初始优化示例性文本片段之间的对换、第四个初始优化示例性文本片段与倒数第四个初始优化示例性文本片段之间的对换、第五个初始优化示例性文本片段与倒数第五个初始优化示例性文本片段之间的对换，如此，可以形成第二子示例性文本优化簇对应的五个调整第二子示例性文本优化簇，然后，可以将第一子示例性文本优化簇分别与每一个调整第二子示例性文本优化簇进行组合，以对所述搭建的文本数据质检神经网络进行初始优化处理），以形成多个调整第二子示例性文本优化簇；以及，对确定的第一子示例性文本优化簇和调整第二子示例性文本优化簇加载到搭建的文本数据质检神经网络中，利用所述第四文本质检类型评估单元分析输出所述调整第二子示例性文本优化簇中的初始优化示例性文本对应的文本片段顺序调整分析信息；基于此，所述基于所述第一网络优化学习代价值和所述第二网络优化学习代价值，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络的步骤，还可以包括以下内容：

基于所述初始优化示例性文本对应的文本片段顺序调整分析信息和所述初始优化示例性文本对应的实际文本片段顺序，计算出对应的第三网络优化学习代价值（即误差计算）；以及，基于所述第一网络优化学习代价值、所述第二网络优化学习代价值和所述第三网络优化学习代价值，计算出目标网络优化学习代价值（示例性地，可以进行加权求和处理，其中，加权求和对应的加权系数可以在默认值的情况下进行学习优化），以及，基于所述目标网络优化学习代价值，对所述搭建的文本数据质检神经网络进行网络参数的优化处理，以形成对应的候选文本数据质检神经网络（基于此，通过对第二文本质检类型评估单元、第三文本质检类型评估单元和第四文本质检类型评估单元的优化学习，可以使得所述候选文本数据质检神经网络的候选文本数据质检神经网络的挖掘能力得到提升，从而使得所述目标文本数据质检神经网络能够从所述示例性文本和所述待质检文本数据中分别挖掘出更多可靠地信息，即使得所述示例文本深层次描述向量和所述待质检文本深层次描述向量能够更好地反映对应的文本，从而保障分析出的所述待质检文本数据对应的音频质检信息的可靠度）。

举例来说，在一些实施方式中，上述描述中的步骤S140，即所述基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息，所述融合质检信息用于反应所述待质检音视频数据在视频维度和音频维度两个维度整体上具有的质检信息的步骤，可以包括：

对每一帧所述待质检视频帧对应的对象识别信息进行组合，以形成所述待质检视频数据对应的视频识别动作序列，每一帧所述待质检视频帧对应的对象识别信息用于反映所述待质检视频帧中的对象动作（具体的动作识别，可以参照相关的现有技术）；

对所述视频识别动作序列进行动作质检处理（可以参照相关的现有技术），以输出所述待质检视频数据对应的视频质检信息，所述视频质检信息用于反映所述待质检视频帧中的对象动作是否满足预先配置的动作条件（即是否存在动作违规、违法，或者，动作违规、违法的具体类型）；

将所述视频质检信息和所述待质检音频数据对应的音频质检信息，融合分析出所述待质检音视频数据对应的融合质检信息，所述待质检音频数据对应的音频质检信息用于反映所述待质检音频数据中的音频内容是否满足预先配置的音频内容条件（即是否存在音频内容违规、违法，或者，音频内容违规、违法的具体类型）。

综上内容，可以将音频、视频数据分离，视频质检是读取视频中每帧数据运用AI处理引擎对其中的人物，出示的资料或人物动作进行人脸检测、证件识别、人证比对、文档识别、签字动作识别、签名识别、印章识别、场景识别等处理，获得标准化源数据；音频质检是将语音识别为文本，再通过质检规则对文本进行分析；质检分析引擎对AI处理后的标准化源数据进行智能分析，再融合对文本进行分析的结果，得出音视频的质检结果。

结合图3，本发明实施例还提供一种音视频质检处理装置，可应用于上述音视频质检处理系统。其中，所述音视频质检处理装置可以包括：

音视频数据处理模块，用于提取到待质检音视频数据，并对所述待质检音视频数据进行数据分离处理，以输出对应的待质检视频数据和对应的待质检音频数据；

视频数据处理模块，用于对所述待质检视频数据进行分帧处理，以输出所述待质检视频数据包括的每一帧待质检视频帧，以及，分别对每一帧所述待质检视频帧进行对象识别处理，以输出每一帧待质检视频帧对应的对象识别信息；

音频数据处理模块，用于对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，以及，对所述待质检文本数据进行质检处理，以输出所述待质检音频数据对应的音频质检信息；

质检信息融合模块，用于基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息，所述融合质检信息用于反应所述待质检音视频数据在视频维度和音频维度两个维度整体上具有的质检信息。

综上所述，本发明提供的一种音视频质检处理方法及系统，对待质检音视频数据进行数据分离处理，输出待质检视频数据和待质检音频数据；对待质检视频数据进行分帧处理，输出每一帧待质检视频帧，以及，分别对每一帧待质检视频帧进行对象识别处理，输出每一帧待质检视频帧对应的对象识别信息；对待质检音频数据进行语音识别处理，输出待质检文本数据，对待质检文本数据进行质检处理，输出音频质检信息；基于每一帧待质检视频帧对应的对象识别信息和待质检音频数据对应的音频质检信息分析出待质检音视频数据对应的融合质检信息。基于前述的步骤，由于是先将音视频进行分离，以分别识别质检，然后，再进行融合，使得识别质检的精度更高，从而在一定程度上提高音视频质检的可靠度，在一定程度上改善了音视频质检的可靠度不高的问题，进而可以改善因需要进行多次质检而导致的音视频质检效率不高的问题，有效提高了音视频质检效率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音视频质检处理方法，其特征在于，包括：

基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息，所述融合质检信息用于反应所述待质检音视频数据在视频维度和音频维度两个维度整体上具有的质检信息；

其中，所述对所述待质检音频数据进行语音识别处理，以输出所述待质检音频数据对应的待质检文本数据，以及，对所述待质检文本数据进行质检处理，以输出所述待质检音频数据对应的音频质检信息的步骤，包括：

2.如权利要求1所述的音视频质检处理方法，其特征在于，所述对于每一个所述初始描述向量组合，依据所述初始描述向量组合中的所述示例文本深层次描述向量和所述待质检文本深层次描述向量之间的聚焦特征分析结果，分别将所述示例文本深层次描述向量和所述待质检文本深层次描述向量进行优化处理，以输出包括优化示例文本深层次描述向量和优化待质检文本深层次描述向量的优化描述向量组合的步骤，包括：

3.如权利要求1所述的音视频质检处理方法，其特征在于，所述利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量的步骤，包括：

4.如权利要求3所述的音视频质检处理方法，其特征在于，在所述利用目标文本数据质检神经网络，对示例性文本第一簇中的每一种音频质检信息类型对应的示例性文本进行挖掘，以挖掘出对应的示例文本深层次描述向量的步骤之前，所述音视频质检处理方法还包括：

5.如权利要求4所述的音视频质检处理方法，其特征在于，所述基于所述示例性文本第一簇，将候选文本数据质检神经网络进行网络优化处理，以形成对应的目标文本数据质检神经网络的步骤，包括：

6.如权利要求5所述的音视频质检处理方法，其特征在于，在所述基于所述示例性文本第一簇，将候选文本数据质检神经网络进行网络优化处理，以形成对应的目标文本数据质检神经网络的步骤之前，所述音视频质检处理方法还包括：

7.如权利要求6所述的音视频质检处理方法，其特征在于，所述示例性文本第二簇包括示例性文本优化簇和示例性文本检测簇，所述示例性文本检测簇用于筛选出候选文本数据质检神经网络，所述示例性文本优化簇和所述示例性文本检测簇中的初始优化示例性文本对应的音频质检信息类型不一样，所述基于包括多个初始优化示例性文本的示例性文本第二簇，将搭建的文本数据质检神经网络进行初始优化处理，以形成对应的候选文本数据质检神经网络的步骤，包括：

8.如权利要求1-7任意一项所述的音视频质检处理方法，其特征在于，所述基于每一帧待质检视频帧对应的对象识别信息和所述待质检音频数据对应的音频质检信息分析出所述待质检音视频数据对应的融合质检信息，所述融合质检信息用于反应所述待质检音视频数据在视频维度和音频维度两个维度整体上具有的质检信息的步骤，包括：

9.一种音视频质检处理系统，其特征在于，包括处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于执行所述计算机程序，以实现权利要求1-8任意一项所述的音视频质检处理方法。