CN118377812A

CN118377812A - 一种双录音视频文件质检方法及计算机可读存储介质

Info

Publication number: CN118377812A
Application number: CN202410825531.8A
Authority: CN
Inventors: 钱晓炯; 俞谢益; 刘谦
Original assignee: Juphoon Corp
Current assignee: Juphoon Corp
Priority date: 2024-06-25
Filing date: 2024-06-25
Publication date: 2024-07-23
Anticipated expiration: 2044-06-25

Abstract

本发明涉及一种双录音视频文件质检方法，其特征在于包括以下步骤：对双录音视频文件创建质检任务要求；对双录音视频文件进行媒体质量检测及全局常规质检；通过人工智能方法，基于质检任务要求对双录音视频文件中与质检任务要求中相关的对话业务发生的时间点以及业务类型进行自动打点，并生成对话检测事务；在所述对话检测事务中，根据质检任务要求，通过多模态技术，进行对话的应答确认，从而实现业务质检。本发明的优点在于：很大程度上适配了双录业务流程，以自动打点结果生成对话检测事务并通过多模态技术进行检测，实现了对双录主要业务场景覆盖，减少了前置环节的输入，可较高程度代替人工质检，大大加快了质检速度，提升了质检效率和质量。

Description

一种双录音视频文件质检方法及计算机可读存储介质

技术领域

本发明涉及质检领域，尤其涉及一种双录音视频文件质检方法及计算机可读存储介质。

背景技术

随着社会法治化的发展，人们对各类活动的证据链的留存和保护越来越重视。尤其是在金融、保险等有大量经济活动的领域，监管部门出台了许多业务活动的办理规范，对其中过程的录音录像，简称双录，其规范性的要求涉及的内容比较多，尺度相对也比较严。为了确保双录系统输出的视频文件是符合规范的，通常需要对其进行合规性检查，这个过程称为视频质检。

现有的质检方法通常有人工和计算机两种。人工质检的优势是可以做到非常灵活、细致，只要确定一定的规则，即可对不同内容的视频进行全方位检查，但人工质检的实时性、成本和标准化相较于计算机质检有较大差距。计算机质检通过对文件中音视频解码，基于信号处理、机器视觉、ASR、自然语言处理等能力，根据预设的质检规则，进行合规性检测。计算机质检可以做到较快速的分析处理，可很大程度上弥补人工质检的缺点。

在媒体质量上，计算机质检可包括检查文件时长、文件大小、视频基础属性（解码播放、分辨率、帧率、音频采样率）、视频码率、视频色彩、卡顿率、空帧比例、人声音量、人声比例、音频和视频长度对齐、视频分区域检测、音频分声道检测、声音信噪比和爆音等。业务内容上，现有的计算机质检，较依赖事先输入的打点（即确定视频文件播放的时间点，说明发生了什么事）信息，以便于能够基于打点进行相应的检测。如果打点信息没有输入给质检系统，那么质检系统需要扫描整个文件，并基于特征搜索并进行自动打点，而后在此基础上进行相应检测。

现有计算机质检对于媒体质量相对比较完整，但对于业务内容上，比较依赖输入打点信息，这加重了双录前端系统的集成复杂度。许多情况下，双录系统和质检系统是不同厂家开发的，厂家之间的协作成本越高，项目成功率就越受影响。在未输入打点信息时，质检系统通过扫描整个文件实现自动打点，这对计算机系统的识别处理精度提出了较高要求，如何提升自动打点精度就是一个要解决的问题。此外，双录内容可能是千变万化的，如何确保其内容是合规的，也缺乏较为系统的解决方案。

发明内容

本发明所要解决的技术问题是针对上述现有技术现状而提供一种提高质检效率和质量的双录音视频文件质检方法。

本发明解决上述第一个技术问题所采用的技术方案为：一种双录音视频文件质检方法，其特征在于包括以下步骤：

步骤1、对双录音视频文件创建质检任务要求；

步骤2、对双录音视频文件进行媒体质量检测及全局常规质检；

步骤3、通过人工智能方法，基于质检任务要求对双录音视频文件中与质检任务要求中相关的对话业务发生的时间点以及业务类型进行自动打点，并生成对话检测事务；

步骤4、在所述对话检测事务中，根据质检任务要求，通过多模态技术，进行对话的应答确认，从而实现业务质检。

质检任务要求具体内容具有多种，优选地，所述步骤1中创建的质检任务要求包括质检任务的要求内容、检测指标、扣分规则及辅助的附加信息。

进一步，所述附加信息包括用于表征质检属性的质检信息及用于统计业务属性的统计信息，所述质检信息及统计信息以键值对形式存储。

为了便于对质检结果进行记录、查找及统计，所述质检信息及统计信息键值对存储于关键字索引数据库中，质检结果存储于标准SQL数据库中，关键字索引数据库中还保存有每条键值与其对应的质检结果在标准SQL数据库中的索引值。

优选地，所述步骤3中自动打点的步骤为：

步骤3-1、对双录音视频文件的音视频内容长度进行检查，判断音频内容和视频内容长度是否一致，若否，则说明双录音视频文件不符合质量要求；若是，则进入步骤3-2；

步骤3-2、提取双录音视频文件音频内容，并进行解码、断句、声纹识别及自动语音识别转换，获得不同讲话人的文本以及其文本出现的时间；

步骤3-3、根据质检任务要求，对自动语音识别转换生成的不同讲话人的文本采用语义搜索算法或文本模糊搜索算法进行对话事务的自动打点；

步骤3-4：根据自动打点结果生成对话检测事务。

根据质检任务要求中的内容选择不同的算法进行对话事务的自动打点：所述步骤3-3中，根据质检任务要求中的预定义质检事务清单在不同讲话人的文本中逐条搜索对话“问”的内容，如果“问”的内容由从文本转换成语音，则采用文本模糊搜索算法进行对话事务的自动打点；如果“问”的内容由业务员口述，则采用语义搜索算法进行对话事务的自动打点。

或者，所述步骤3-3中，根据质检任务要求中的预定义事务问题例句直接在不同讲话人的文本中进行自动打点。

优选地，所述步骤3中生成的对话检测事务包括打点时间、事务ID、图像序列及自动语音识别文本信息，所述步骤4中对对话检测事务进行对话应答确认的具体步骤为：

步骤4-1、接收打点时间、事务ID、图像序列及自动语音识别文本信息；

步骤4-2、在接收到图像序列后，根据打点时间和坐标（x，y，w，h）来框定特定的区域，其中坐标的x，y，w，h值为预设值；

步骤4-3、对框定的区域进行目标检测，识别出其中的物体或特征，若需要对图像中的文字进行识别，则使用光学字符识别技术来提取文本信息；

步骤4-4、在获取到图像信息后，将它们与预设的信息进行比较，以确定是否存在匹配项；同时，对自动语音识别文本进行自然语言处理，并与预设的信息进行比对，以确定文本内容是否符合预期；

步骤4-5、将图像信息比对和自然语言处理比对的结果进行综合，生成最终的检测结果。

为了便于在质检完成后对质检结果进行处理，在所述步骤4生成最终检测结果后，根据质检任务要求查询和分析质检结果。

本发明解决上述第二个技术问题所采用的技术方案为：一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的双录音视频文件质检方法，以对双录音视频文件进行质检。

与现有技术相比，本发明的优点在于：该双录音视频文件质检方法很大程度上适配了双录业务流程，以自动打点结果生成对话检测事务并通过多模态技术进行检测，实现了对双录主要业务场景覆盖，减少了前置环节的输入，可较高程度代替人工质检，大大加快了质检速度，提升了质检效率和质量，较大程度的减少了和第三方系统对接成本，降低了实施难度，使得项目更容易落地。

附图说明

图1为本发明实施例中双录音视频文件质检方法的流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1所示，本实施例的一种双录音视频文件质检方法通过质检系统实施，质检系统对双录音视频文件进行质检的方法包括以下步骤：

步骤1、对双录音视频文件创建质检任务要求；

其中，在步骤1中，质检系统提供API，可由外部系统调用，来创建质检任务。双录音视频文件为质检的目标主体，由双录等系统的输出生成；质检任务要求可由一个结构化描述文件或数据结构构成，包括质检任务的要求内容、检测指标、扣分规则及辅助的附加信息。其中要求内容、检测指标、扣分规则可由质检系统的“质检模版”事先配置好，此处不展开说明。

附加信息包括用于表征质检属性的质检信息及用于统计业务属性的统计信息，质检信息及统计信息以键值对key:value （KV）形式存储。若采用JSON格式，可参考如下数据形式 { InspectPara: [<key>:<value>, ... ], StatisticsPara: [<key>:<value>,...] }。下面以这两种附加信息的具体例子为参考，说明两个附加信息的用法和用途：

{ InspectPara: [username: "王某拉", userid: ""],

StatisticsPara: [agentid: "12355", bizclassid: "一号保险"] }

上述附加信息中，username及userid为质检信息的key值，能在身份证件质检过程中获取对应key的value值，将其和光学字符识别获取的证件信息做比对，以便确认证件信息的有效性。

另外，agentid和bizclassid为统计信息，在进行统计时，可按agentid（代理人员ID）筛选不同代理人员的双录业务数，进而统计其业务质检通过率，包括此代理业务出现的高频不符规范的质检点；也可按bizrclassid（业务类型）筛选不同业务的双录数量，统计其通过率和高频不符合规范的检查点。

质检信息及统计信息键值对存储于关键字索引数据库中，质检结果存储于标准SQL数据库中，关键字索引数据库中还保存有每条键值与其对应的质检结果在标准SQL数据库中的索引值。这样就很容易通过KV值进一步查找到SQL数据表的对应记录，即质检结果记录，从而对其进行查找、统计等。

步骤2中的检测，主要是确认双录音视频文件是否能正常打开，文件大小、时长是否正常，音视频质量是否能满足基本要求。这些检测的目的是为了确保下一步双录视频文件的业务检测能正常进行，即达到下一步检测的入门条件。

本实施例中，步骤3通过去噪音、自动语音识别、自然语言处理、光学字符识别技术等人工智能手段，自动检测某业务交互发生的时间点以及业务类型。自动打点是基于任务要求进行的，若任务要求检测10个“问答”事务，那么自动打点需要搜索这10个时间节点，多了或少了都会影响质检结果。

自动打点任务是通过人工智能手段，找到视频文件的特定时间点，标注其为特定的事务的过程。特定事务举例包括：进行金融产品介绍并确认、进行风险提示并确认、提示出示身份证并扫描检测、提示签字并扫描检测等。由于双录过程中，绝大多数情况下，每一个事务都会由一句特定的话术开始，那么通过检测这个话术，即可实现事务的自动打点。自动打点的步骤为：

步骤3-2、提取双录音视频文件音频内容，并进行解码、断句、声纹识别及自动语音识别转换（解码、断句、声纹识别及自动语音识别转换这些技术有一定复杂性，但都有较为成熟的解决方案，此处不再说明），获得不同讲话人的文本以及其文本出现的时间；

步骤3-4：根据自动打点结果生成对话检测事务。

其中，步骤3-3中，自动打点具有严格模式和探索模式两种模式。严格模式根据质检任务要求中的预定义质检事务清单在不同讲话人的文本中逐条搜索对话“问”的内容，如果“问”的内容由从文本转换成语音，则采用文本模糊搜索算法进行对话事务的自动打点；如果“问”的内容由业务员口述，则采用语义搜索算法进行对话事务的自动打点。严格模式作为正式的质检打点搜索的工作模式，能够确保质检事务的完整性和精确性，但严格模式依赖事先配置好预定义质检事务清单，即需要大量的前期工作。

而探索模式适用于一开始未定义质检事务清单，但根据质检任务要求中的预定义事务问题例句直接在不同讲话人的文本中进行自动打点。探索模式可在未配置任何与定义质检事务清单情况下，进行尝试性的“探索”，这虽然无法严格的确保质检完整性和精确性，但通过这个步骤，能够生成一部分质检模板信息，从而简化配置预定义质检事务清单的工作。在探索模式中，可初始化质检模板，而质检模板可作为预定义质检事务清单的基础。预定义事务问题例句内容可能包括：

请出示您的身份证正面；请出示您的身份证反面；xxx，请出示您的工作证件；请您在确认文件无误后签字；请您在屏幕输入框上用正楷手写签名；xxx，...，请问是否同意?xxx，...，请回答（确认）是否清楚?

自动打点后生成打点列表的元素，即对话检测事务，对话检测事务包括打点时间、事务ID、图像序列及自动语音识别文本信息。通过打点时间和事务ID，即可定位到这个时间节点发生了什么事务，即可进行相应的检查。在列表中，有些事务可能出现的次数不止一次，则应根据质检事务清单的次数要求处理多次，若某事务打点的次数大于质检事务清单的次数，作为备选项（alt）供后续“答”检测备用，只要质检事务质量合格数满足数量即可。

可选的，生成的打点列表元素可通过对应时间点附近的屏幕内容光学字符识别技术检测，确认其播报内容是否同时在屏幕上显示，以提高其质检精度。由于环境噪音、录音失真、口音、口误等情况存在，自动语音识别转换文本内容的模糊查找或语义查找将给予较大的宽容度，避免遗漏打点，此时通过屏幕内容光学字符识别技术检测的双重打点确认，可大大提升打点的精度。

对话“答”的形式不局限于口头回答，也可以用其它动作形式作为“问”的回应或指令执行。下表列出了绝大多数双录业务过程中的对话事务的“答”类型，可根据具体业务组合配置生成具体的检测事务ID；也可根据本文所述框架，再扩充其它形式的“答”。

下面以检查身份证正面为例进行说明，可选配置问题内容是否需要同时对屏幕内容进行光学字符识别技术复验。检测时响应配置检查范围，包括左上角(x1, y1)，右下角(x2, y2)，打点后时间(单位秒，允许2位小数) t1 ~ t2。可多选的检查要素包括：

姓名屏幕检查（默认勾选），比较屏幕内容（可配范围）中出现的姓名和证件中姓名是否一致?

姓名参数检查，比较证件中姓名是否和输入的“姓名参数”KV值是否一致?输入的参数名例如为input-cust-name；

身份证号屏幕检查（默认勾选），比较屏幕内容（可配范围）中出现的证号和证件中证号是否一致?

身份证号参数检查，比较证件中证号是否和输入的“证号参数”KV值是否一致? 输入的参数名例如为input-cust-id-number；

身份证人像视频比对（默认勾选），比较证件人像是否和视频中出现过的人脸为同一人?

身份证人像图片比对，比较证件人像是否和输入的“人脸图片地址参数”的KV值所指图片为同一人?

身份证检测中，可提取人像作为“内部参数”的输出，对这个输出命名（例如inner-cust-id-pic），以便在其它检测事务中使用。其中，外部输入参数和内部参数命名除了避免用特殊字符外，没有什么特别的限制，但为了方便区分，建议前者以input开头，后者以inner开头。完成设置后，可按配置要求，基于对话“答”检测框架流程进行检测处理，并输出检测结果。

若检查身份证反面，提问配置、响应配置检查范围与上述类似，检查要素包括证件有效期检查，即比较证件有效期是否满足给定的时间点，时间参数可选质检任务时间（默认）、当前时间或者任务输入时间，设置KV参数input-cust-id-validate-date。

若检查出示文件，提问配置、响应配置检查范围与上述类似，检查要素包括视频内容的通用光学字符识别技术识别，提取文字内容，如“xx保险合同”。

若检查肯定回复，提问配置、响应配置检查范围与上述类似，检查要素包括：自动语音识别提取音频内容文本（默认），通过自然语言处理检查是否为肯定回复，可设置肯定回复的词表；光学字符识别技术提取屏幕内容中的文字（可选），通过自然语言处理检查是否为肯定回复；机器视觉提取“确定”按钮是否被点击（可选），可配置确定按钮的文本特征，如“OK”、“确定”、“确认”等。

若检查口述，提问配置、响应配置检查范围与上述类似，检查要素包括自动语音识别提取音频内容文本，通过自然语言处理检查和预设内容是否一致，需配置预设内容，支持通配符，可配置一致性阈值（0～100，默认取值80）。

若检查签字动作，提问配置、响应配置检查范围与上述类似，检查要素包括：签字动作关键特征（默认），包括签字的笔、手、纸；签字人的人脸比对（可选），比对源可有KV输入（input-cust-id-pic）图片地址及身份证人脸参考（inner-cust-id-pic）。

若检查手写体光学字符识别，提问配置、响应配置检查范围与上述类似，检查要素包括有光学字符识别提取视频内容中的手写体文字，比对源可有固定配置的文本、屏幕内容印刷体文本（抄写）及KV输入（input-handwriting-content）。

步骤4中，在具体的一个对话检测事务中，根据任务要求，通过自动语音识别、自然语言处理、光学字符识别技术、人脸识别、图像语义理解等多模态技术，进行对话的应答确认，从而实现业务质检。质检系统对对话检测事务进行对话应答确认的具体步骤为：

步骤4-1、接收打点时间、事务ID、图像序列及自动语音识别文本信息，这些数据是进行后续分析的基础；

“答”的检测利用了人工智能认知功能进行信息提取，然后和预设信息进行逻辑判断。预设信息可有几种形式：

明确的字符串，要求精确匹配，如文件名、证件名称等；

短语或一句话，要求模糊匹配，或语义上匹配即可，如肯定回复、否定回复，或表达一个特定意思；

任务KV参数，在质检模板中配置参数（入参），在具体的质检任务中以KV形式输入这个参数值，以便后续使用，如姓名、ID等可按此方式实现信息提取及比对；又如输入业务发生的时间，要求光学字符识别技术提取的证件（或文件）有效日期在此范围内；

内部参数，在质检模板中的某个对话事务中配置参数（出参），随后在其他地方使用这个参数（作为入参），比如在身份证识别环节，配置提取的人像参数为id-head-pic，那么在后续的肯定回复、口述、签字动作的问答环节可使用这个id-head-pic作为人像入参，进行人脸比对；

预设的组合要素，如签字动作由握笔的手、签字状态的笔和文件构成；又如检查身份证光学字符识别技术识别内容和附近屏幕内容的光学字符识别技术识别内容的一致性。

对于各个对话检测事务，本实施例可进行可选性配置，选项包括暂不处理、必选及条件满足后处理。其中，暂不处理即为暂时忽略这个事务规则，可用于暂存这个配置而不生效，交互设计上，可将暂不处理的检测事务的标题置灰；必选为期望检测到对话“问”和“答”，若未检测到或未检测成功，则应进行相应质检扣分；条件满足后处理，可根设定条件来决定是否进行后续处理，满足条件后进行处理，不满足不处理也不扣分，有以下几种条件，可配置多个条件进行“或”和“与”的组合：检测到某自动语音识别问题内容，检测到时即处理；或者判断KV参数值，比较运算为大于、小于、等于、不等于、包含及不包含。

在步骤4生成最终检测结果后，检测系统可提供质检结果的查询、分析服务。根据创建质检任务时输入的任务要求，检测系统不但可以根据质检任务要求查询质检结果，而且可以根据任务要求中附带的key:value信息，进行分组检索和统计等分析服务。

本实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上所述的双录音视频文件质检方法，以对双录音视频文件进行质检。

Claims

1.一种双录音视频文件质检方法，其特征在于包括以下步骤：

步骤1、对双录音视频文件创建质检任务要求；

2.根据权利要求1所述的双录音视频文件质检方法，其特征在于：所述步骤1中创建的质检任务要求包括质检任务的要求内容、检测指标、扣分规则及辅助的附加信息。

3.根据权利要求2所述的双录音视频文件质检方法，其特征在于：所述附加信息包括用于表征质检属性的质检信息及用于统计业务属性的统计信息，所述质检信息及统计信息以键值对形式存储。

4.根据权利要求3所述的双录音视频文件质检方法，其特征在于：所述质检信息及统计信息键值对存储于关键字索引数据库中，质检结果存储于标准SQL数据库中，关键字索引数据库中还保存有每条键值与其对应的质检结果在标准SQL数据库中的索引值。

5.根据权利要求1所述的双录音视频文件质检方法，其特征在于：所述步骤3中自动打点的步骤为：

步骤3-4：根据自动打点结果生成对话检测事务。

6.根据权利要求5所述的双录音视频文件质检方法，其特征在于：所述步骤3-3中，根据质检任务要求中的预定义质检事务清单在不同讲话人的文本中逐条搜索对话“问”的内容，如果“问”的内容由从文本转换成语音，则采用文本模糊搜索算法进行对话事务的自动打点；如果“问”的内容由业务员口述，则采用语义搜索算法进行对话事务的自动打点。

7.根据权利要求5所述的双录音视频文件质检方法，其特征在于：所述步骤3-3中，根据质检任务要求中的预定义事务问题例句直接在不同讲话人的文本中进行自动打点。

8.根据权利要求1所述的双录音视频文件质检方法，其特征在于：所述步骤3中生成的对话检测事务包括打点时间、事务ID、图像序列及自动语音识别文本信息，所述步骤4中对对话检测事务进行对话应答确认的具体步骤为：

9.根据权利要求1所述的双录音视频文件质检方法，其特征在于：在所述步骤4生成最终检测结果后，根据质检任务要求查询和分析质检结果。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至9任一项所述的双录音视频文件质检方法，以对双录音视频文件进行质检。