CN115250375A

CN115250375A - 一种基于固定话术的音视频内容合规性检测方法及装置

Info

Publication number: CN115250375A
Application number: CN202110455083.3A
Authority: CN
Inventors: 张磊; 蒋宁; 周勇; 夏溧; 王洪斌; 吴海英; 吴磊
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2021-04-26
Filing date: 2021-04-26
Publication date: 2022-10-28
Anticipated expiration: 2041-04-26
Also published as: CN115250375B

Abstract

本申请公开了一种基于固定话术的音视频内容合规性检测方法及装置。其中，该方法包括：获取待进行合规性检测的音视频文件，其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；对音视频文件进行分离，得到待进行质检的音频文件和视频文件；计算音频文件的音频质检分值和视频文件的视频质检分值；以及根据音频质检分值和视频质检分值，计算音视频文件的音视频质检分值。

Description

一种基于固定话术的音视频内容合规性检测方法及装置

技术领域

本申请涉及数据处理技术领域，特别是涉及一种基于固定话术的音视频内容合规性检测方法及装置。

背景技术

目前基于固定文本的音视频内容合格性检测的应用场景非常广泛，其中在证券单向视频开户的应用场景中，要求用户朗读固定文本，自助完成证券开户音视频录制，证券开户音视频是由用户在手机端启动录制并上传到业务媒体服务器，由质检员人工审核。当前单向音视频录制，完全由用户自助操作，由于用户对音视频录制合规要求的理解、录制操作熟练程度，业务交互的差异等各种问题。因此，对于用户提交的录制音视频文件，人工审核通过率低，无法实时向用户反馈录制是否合格，均要求用户事后重新补录，业务办理效果低，用户体验差。并且，由于音视频合格检测完全由人工质检，导致质检人员的工作量非常大，漏检或错检的概率都非常高，给业务合规性带来比较大的隐患。

针对上述的现有技术中存在的由于音视频合格检测完全由质检人员进行人工审核，审查效率低，无法实时向用户反馈录制是否合格，用户体验差以及质检人力投入大的技术问题，目前尚未提出有效的解决方案。

发明内容

本公开的实施例提供了一种基于固定话术的音视频内容合规性检测方法及装置，以至少解决现有技术中存在的由于音视频合格检测完全由质检人员进行人工审核，审查效率低，无法实时向用户反馈录制是否合格，用户体验差以及质检人力投入大的技术问题。

根据本公开实施例的一个方面，提供了一种基于固定话术的音视频内容合规性检测方法，包括：获取待进行合规性检测的音视频文件，其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；对音视频文件进行分离，得到待进行质检的音频文件和视频文件；计算音频文件的音频质检分值和视频文件的视频质检分值；以及根据音频质检分值和视频质检分值，计算音视频文件的音视频质检分值。

根据本公开实施例的另一个方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

根据本公开实施例的另一个方面，还提供了一种基于固定话术的音视频内容合规性检测装置，包括：音视频文件获取模块，用于获取待进行合规性检测的音视频文件，其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；分离模块，用于对音视频文件进行分离，得到待进行质检的音频文件和视频文件；第一计算模块，用于计算音频文件的音频质检分值和视频文件的视频质检分值；以及第二计算模块，用于根据音频质检分值和视频质检分值，计算音视频文件的音视频质检分值。

根据本公开实施例的另一个方面，还提供了一种基于固定话术的音视频内容合规性检测装置，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待进行合规性检测的音视频文件，其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；对音视频文件进行分离，得到待进行质检的音频文件和视频文件；计算音频文件的音频质检分值和视频文件的视频质检分值；以及根据音频质检分值和视频质检分值，计算音视频文件的音视频质检分值。

在本公开实施例中，通过对音视频文件进行合规性的实时检测，可实时反馈用户录制的音视频文件是否合格，并在不合格的情况下用户可以立即重新录制，大幅提高了用户录制提交一次性通过率，有效提升了业务办理效率和用户体验。并且，在音视频文件的合规性检测过程中，通过对音视频文件中的音频和视频分别进行质检，然后根据音频质检分值和视频质检分值综合计算出音视频文件的质检总分值，保障提交的音视频合格率大幅度提升，减少重复质检的工作量，同时对于质检分数达到预定阈值的音视频文件可以免人工复检，从而大幅度降低质检人员工作量，降低人工质检成本。进而解决了现有技术中存在的由于音视频合格检测完全由质检人员进行人工审核，审查效率低，无法实时向用户反馈录制是否合格，用户体验差以及质检人力投入大的技术问题。

附图说明

此处所说明的附图用来提供对本公开的进一步理解，构成本申请的一部分，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。在附图中：

图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图；

图2是根据本公开实施例1的第一个方面所述的基于固定话术的音视频内容合规性检测方法的流程示意图；

图3是根据本公开实施例1所述的综合计算音视频文件的音视频质检分值的整体流程示意图；

图4是根据本公开实施例1所述的综合计算汉字的读音相似度的整体流程示意图；

图5是根据本公开实施例1所述的基于固定话术的音视频内容合规性检测方法的整体流程示意图；

图6是根据本公开实施例2所述的基于固定话术的音视频内容合规性检测装置的示意图；以及

图7是根据本公开实施例3所述的基于固定话术的音视频内容合规性检测装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本公开一部分的实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本公开实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

术语：ASR，为自动语音识别技术(Automatic Speech Recognition)，是一种将人的语音转换为文本的技术。

实施例1

根据本实施例，提供了一种基于固定话术的音视频内容合规性检测方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现基于固定话术的音视频内容合规性检测方法的计算设备的硬件结构框图。如图1所示，计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算设备还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块，如本公开实施例中的基于固定话术的音视频内容合规性检测方法对应的程序指令/数据存储装置，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的基于固定话术的音视频内容合规性检测方法。存储器可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中，传输装置包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下，根据本实施例的第一个方面，提供了一种基于固定话术的音视频内容合规性检测方法。图2示出了该方法的流程示意图，参考图2所示，该方法包括：

S201：获取待进行合规性检测的音视频文件，其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；

S202：对音视频文件进行分离，得到待进行质检的音频文件和视频文件；

S203：计算音频文件的音频质检分值和视频文件的视频质检分值；以及

S204：根据音频质检分值和视频质检分值，计算音视频文件的音视频质检分值。

正如上述背景技术所述的，当前单向音视频录制，完全由用户自助操作，由于用户对音视频录制合规要求的理解、录制操作熟练程度，业务交互的差异等各种问题。因此，对于用户提交的录制音视频文件，人工审核通过率低，无法实时向用户反馈录制是否合格，均要求用户事后重新补录，业务办理效果低，用户体验差。并且，由于音视频合格检测完全由人工质检，导致质检人员的工作量非常大，漏检或错检的概率都非常高，给业务合规性带来比较大的隐患。

有鉴于此，本实施例所提出的基于固定话术的音视频内容合规性检测方法首先获取待进行合规性检测的音视频文件。其中，获取到的音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件。例如但不限于在证券单向视频开户项目中，用户在手机端进行音视频文件录制时，要求用户朗读固定话术文本。用户完成音视频文件的录制后，向系统申请质检。此时，系统接收到待进行合规性检测的音视频文件。

进一步地，系统需要对接收到的音视频文件进行合规性检测。在合规性检测过程中，参照图3所示，本实施例首先对音视频文件进行预处理(包括分离处理)，把音频从视频中按照指定的音频格式分离出来，从而得到音频文件和视频文件。然后对音频文件和视频文件分别进行质检，即计算音频文件的音频质检分值和视频文件的视频质检分值。最后，再根据音频文件的音频质检分值和视频文件的视频质检分值，综合计算出音视频文件的质检总分值(即，音视频质检分值)。从而，可以根据质检总分值判定音视频文件是否合规，并在判定不合规的情况下，可以立即要求用户重新录制新的音视频文件。此外，对于质检总分值大于预设阈值(例如但不限于为95％)的音视频文件，可以免除人工复检，有效降低质检人工成本。

从而，在本实施例中，通过对音视频文件进行合规性的实时检测，可实时反馈用户录制的音视频文件是否合格，并在不合格的情况下用户可以立即重新录制，大幅提高了用户录制提交一次性通过率，有效提升了业务办理效率和用户体验。并且，在音视频文件的合规性检测过程中，通过对音视频文件中的音频和视频分别进行质检，然后根据音频质检分值和视频质检分值综合计算出音视频文件的质检总分值，保障提交的音视频合格率大幅度提升，减少重复质检的工作量，同时对于质检分数达到预定阈值的音视频文件可以免人工复检，从而大幅度降低质检人员工作量，降低人工质检成本。进而解决了现有技术中存在的由于音视频合格检测完全由质检人员进行人工审核，审查效率低，无法实时向用户反馈录制是否合格，用户体验差以及质检人力投入大的技术问题。

可选地，计算音频文件的音频质检分值的操作，包括：采用自动语音识别技术对音频文件进行处理，得到与音频文件对应的文本信息；通过命名实体识别，提取文本信息中的实体名称；计算文本信息与固定话术文本之间的本文语义相似度；计算实体名称与固定话术文本中的标准名称之间的读音相似度；以及根据本文语义相似度和读音相似度，计算音频文件的音频质检分值。

参照图3所示，计算音频文件的音频质检分值的操作过程中，首先通过ASR语音识别技术，将语音转换为ASR识别文本，得到与音频文件对应的文本信息。然后，通过命名实体识别，将文本信息中的实体名称(例如用户名称和机构名称)提取出来，并将提取出的实体名称确定为待进行读音相似度比对的汉字。其次，计算实体名称与固定话术文本中的标准名称之间的读音相似度，以及计算文本信息与固定话术文本之间的本文语义相似度。最后，根据根据本文语义相似度和读音相似度，综合计算音频文件的音频质检分值。通过这种方式，在计算音频文件的音频质检分值过程中，不仅考虑实体名称与固定话术文本中的标准名称之间的读音相似度，还有效结合了文本信息与固定话术文本之间的本文语义相似度，从而保障了计算得到的音频质检分值的准确性。

可选地，计算视频文件的视频质检分值的操作，包括：对视频文件进行抽帧处理，得到与视频文件对应的多个帧图像；分别对多个帧图像进行人脸在框检测，得到对应的人脸在框检测结果；分别对多个帧图像进行人脸比对，得到对应的人脸比对结果；分别对多个帧图像进行活体检测，得到对应的活体检测结果；以及根据人脸在框检测结果、人脸比对结果以及活体检测结果，计算视频文件的视频质检分值。

具体地，参照图3所示，在计算视频文件的视频质检分值的操作过程中，首先对对视频文件进行抽帧处理，得到与视频文件对应的多个帧图像，然后分别对各个帧图像进行人脸在框检测、人脸比对和活体检测，最后根据人脸在框检测结果、人脸比对结果以及活体检测结果，综合计算视频文件的视频质检分值。通过这种方式，可以高效、准确的对音视频文件中的视频进行质检，并且计算得到的视频质检分值为人脸在框检测结果、人脸比对结果以及活体检测结果的综合值，保障了计算得到的视频质检分值的准确性。

可选地，实体名称包括目标用户名称和目标机构名称，标准名称包括标准用户名称和标准机构名称，并且计算实体名称与固定话术文本中的标准名称之间的读音相似度的操作，还包括：计算目标用户名称和标准用户名称之间的第一读音相似度；以及计算目标机构名称和标准机构名称之间的第二读音相似度。

具体地，实体名称包括目标用户名称和目标机构名称。在该应用场景下，需要对目标用户名称和目标机构名称分别进行读音相似度比对计算，即计算目标用户名称和标准用户名称之间的第一读音相似度，并且计算目标机构名称和标准机构名称之间的第二读音相似度。从而，实现了对音频内容中的目标用户名称和目标机构名称分别做读音相似度检测，如果检测未通过，会立即要求用户重新录制，可以免除人工重复复检，降低质检人工成本。达到了可实时反馈用户录制是否合格，大幅提高了用户录制提交一次性通过率，有效提升了业务办理效果和用户体验。从而有效解决了目前提交的录制音视频文件，人工审核通过率低，要求用户事后重新补录，业务办理效果低，用户体验差的技术问题。

可选地，计算实体名称与固定话术文本中的标准名称之间的读音相似度的操作，包括：将实体名称和标准名称转换为拼音、声母和韵母；计算实体名称的声母和韵母与标准名称的声母和韵母之间的声韵母读音相似度；计算实体名称的拼音与标准名称的拼音之间的拼音读音相似度；以及根据拼音读音相似度和声韵母读音相似度，计算实体名称和标准名称之间的读音相似度。

具体地，目前的汉字读音比对方法大多通过将汉字转换为拼音，然后通过拼音来判定两个汉字是否为同一个读音。但是，由于口音的差异，导致很多近音字很难区分，比如“山(shan)”和“三(san)”等等，因此现有的方案对近音字无法处理，通过将汉字转化为拼音的方式无法准确判定两个近音字是否为同一个读音。

有鉴于此，参照图4所示，本实施例在计算实体名称与固定话术文本中的标准名称之间的读音相似度的操作过程中，将实体名称和标准名称都转换为对应的拼音、声母和韵母。考虑到比如汉字“真(zhen)”和“曾(zeng)”的声母“zh”和“z”读音很相近，并且它们的韵母“en”和“eng”也很相近，同样的“ch”和“c”，“sh”和“s”，“b”和“p”，“d”和“t”,，“n”和“l”，“g”和“k”等等都非常接近，基于口音的差异，用户在朗读汉字“真(zhen)”时，其发音可能为“zhen”，也有可能为“zen”，还有可能为“zheng”等等。因此需要计算实体名称的声母和韵母与标准名称的声母和韵母之间的声韵母读音相似度。

进一步地，又考虑到基于口音的差异，只通过声韵母发音也无法处理很多的相似读音的汉字，例如“黄(huang)”和“房(fang)”，因此需要进一步计算实体名称的拼音与标准名称的拼音之间的拼音读音相似度。最后，根据计算得到的拼音读音相似度和声韵母读音相似度，计算实体名称和标准名称之间的读音相似度。从而，本申请不仅需要计算实体名称的声母和韵母与标准名称的声母和韵母之间的声韵母读音相似度，还需要计算实体名称的拼音与标准名称的拼音之间的拼音读音相似度，最后基于声韵母发音和拼音发音互补结合，综合实现基于汉字的读音相似度计算。从而达到了即使是在口音差异较大的情况下，基于声韵母发音和拼音发音的互补结合，也能够准确的判定判定两个近音字是否为同一个读音的技术效果。进而解决现有技术中存在的由于口音的差异，导致很多近音字很难区分，从而通过将汉字转化为拼音，然后比对拼音是否一致的方式无法准确判定两个近音字是否为同一个读音的技术问题。

可选地，计算实体名称的拼音与标准名称的拼音之间的拼音读音相似度的操作，包括：对实体名称的拼音和标准名称的拼音进行拆解，得到实体名称的基本发音单元和标准名称的基本发音单元；计算实体名称的基本发音单元和标准名称的基本发音单元之间的发音相似度：计算实体名称的拼音与标准名称的拼音之间的拼音相似度；以及根据发音相似度和拼音相似度，计算拼音读音相似度。

具体地，比如“黄(huang)”和“房(fang)”，其声母“h”和“f”差异较大，韵母“uang”和“ang”差异也较大。通过研究发现，对于类似这样的读音，其基本发音单元“hu”和“f”发音比较接近，因此可采用拼音的基本发音单元来匹配相似度。从而，参照图3所示，本实施例首先通过对实体名称的拼音和标准名称的拼音进行拆解，得到实体名称的基本发音单元和标准名称的基本发音单元。然后，计算实体名称的基本发音单元和标准名称的基本发音单元之间的发音相似度，并且计算实体名称的拼音与标准名称的拼音之间的拼音相似度，最后根据发音相似度和拼音相似度，计算拼音读音相似度。通过这种方式，使用基本发音单元发音以及完整拼音发音互补结合，综合计算两个汉字之间的拼音读音相似度，使得计算得到的拼音读音相似度的准确性更高。

可选地，计算实体名称的声母和韵母与标准名称的声母和韵母之间的声韵母读音相似度的操作，包括：计算实体名称的声母与标准名称的声母之间的声母读音相似度；计算实体名称的韵母与标准名称的韵母之间的韵母读音相似度；以及根据声母读音相似度和韵母读音相似度，计算声韵母读音相似度。

具体地，参照图4所示，在计算实体名称的声母和韵母与标准名称的声母和韵母之间的声韵母读音相似度的操作过程中，首先计算实体名称的声母与标准名称的声母之间的声母读音相似度，并且计算实体名称的韵母与标准名称的韵母之间的韵母读音相似度，然后根据声母读音相似度和韵母读音相似度，计算声韵母读音相似度。从而，通过声母发音和韵母发音互补结合，综合计算得到一个准确率较高的声韵母读音相似度。

可选地，将实体名称和标准名称转换为拼音、声母和韵母的操作之前，还包括：对实体名称和标准名称进行预处理。参照图3所示，为了保证输入的实体名称和标准名称的合法性，确保输入的是汉字，并且比对的汉字是等长的，在将实体名称和标准名称转换为拼音、声母和韵母的操作之前，还需要对实体名称和标准名称进行预处理。

此外，本发明技术方案可以应用于证券单向视频见证开户项目中，用户通过手机自助完成音视频录制。在录制完成时，通过本发明技术，对音视频的合格性要求做检测。如果检测未通过，会立即要求用户重新录制。如果音视频质检分数达到0.95分以上，可以免除人工复检，降低质检人工成本。更具体地，参照图5所示，用户手机端音视频录制时，要求用户朗读，固定话术文本。录制完成时，申请质检，提交音视频，从而进行音视频合规性检测。最后，依据质检结果，或要求用户重新录制，或提交质检人员审核，或直接将音视频提交入库。

从而，本发明技术方案可以达到以下有益效果：

1)提升用户体验。通过实时音视频合规性检测，可实时反馈用户录制是否合格，大幅提高了用户录制提交一次性通过率，有效提升了业务办理效果和用户体验。

2)降低质检成本。基于音视频合规性检测，保障提交的音视频合格率大幅度提升，减少重复质检的工作量，同时对于质检分数达到0.95的音视频可以免人工复检，从而大幅度降低质检人员工作量，降低质检成本。

此外，参考图1所示，根据本实施例的第二个方面，提供了一种存储介质。存储介质包括存储的程序，其中，在程序运行时由处理器执行以上任意一项所述的方法。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图6示出了根据本实施例所述的基于固定话术的音视频内容合规性检测装置600，该装置600与根据实施例1的第一个方面所述的方法相对应。参考图6所示，该装置600包括：音视频文件获取模块610，用于获取待进行合规性检测的音视频文件，其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；分离模块620，用于对音视频文件进行分离，得到待进行质检的音频文件和视频文件；第一计算模块630，用于计算音频文件的音频质检分值和视频文件的视频质检分值；以及第二计算模块640，用于根据音频质检分值和视频质检分值，计算音视频文件的音视频质检分值。

可选地，第一计算模块630，包括：语音识别子模块，用于采用自动语音识别技术对音频文件进行处理，得到与音频文件对应的文本信息；命名实体识别子模块，用于通过命名实体识别，提取文本信息中的实体名称；本文语义相似度计算子模块，用于计算文本信息与固定话术文本之间的本文语义相似度；读音相似度子模块，用于计算实体名称与固定话术文本中的标准名称之间的读音相似度；以及音频质检分值计算子模块，用于根据本文语义相似度和读音相似度，计算音频文件的音频质检分值。

可选地，第一计算模块630，包括：抽帧处理子模块，用于对视频文件进行抽帧处理，得到与视频文件对应的多个帧图像；人脸在框检测子模块，用于分别对多个帧图像进行人脸在框检测，得到对应的人脸在框检测结果；人脸比对子模块，用于分别对多个帧图像进行人脸比对，得到对应的人脸比对结果；活体检测子模块，用于分别对多个帧图像进行活体检测，得到对应的活体检测结果；以及视频质检分值计算子模块，用于根据人脸在框检测结果、人脸比对结果以及活体检测结果，计算视频文件的视频质检分值。

可选地，实体名称包括目标用户名称和目标机构名称，标准名称包括标准用户名称和标准机构名称，并且读音相似度子模块，还包括：第一计算单元，用于计算目标用户名称和标准用户名称之间的第一读音相似度；以及第二计算单元，用于计算目标机构名称和标准机构名称之间的第二读音相似度。

可选地，读音相似度子模块，包括：转换单元，用于将实体名称和标准名称转换为拼音、声母和韵母；声韵母读音相似度计算单元，用于计算实体名称的声母和韵母与标准名称的声母和韵母之间的声韵母读音相似度；拼音读音相似度计算单元，用于计算实体名称的拼音与标准名称的拼音之间的拼音读音相似度；以及读音相似度计算单元，用于根据拼音读音相似度和声韵母读音相似度，计算实体名称和标准名称之间的读音相似度。

可选地，拼音读音相似度计算单元，包括：拆解子单元，用于对实体名称的拼音和标准名称的拼音进行拆解，得到实体名称的基本发音单元和标准名称的基本发音单元；发音相似度计算子单元，用于计算实体名称的基本发音单元和标准名称的基本发音单元之间的发音相似度；拼音相似度计算子单元，用于计算实体名称的拼音与标准名称的拼音之间的拼音相似度；以及拼音读音相似度计算子单元，用于根据发音相似度和拼音相似度，计算拼音读音相似度。

可选地，声韵母读音相似度计算单元，包括：声母读音相似度计算子单元，用于计算实体名称的声母与标准名称的声母之间的声母读音相似度；韵母读音相似度计算子单元，用于计算实体名称的韵母与标准名称的韵母之间的韵母读音相似度；以及声韵母读音相似度计算子单元，用于根据声母读音相似度和韵母读音相似度，计算声韵母读音相似度。

从而根据本实施例，通过对音视频文件进行合规性的实时检测，可实时反馈用户录制的音视频文件是否合格，并在不合格的情况下用户可以立即重新录制，大幅提高了用户录制提交一次性通过率，有效提升了业务办理效率和用户体验。并且，在音视频文件的合规性检测过程中，通过对音视频文件中的音频和视频分别进行质检，然后根据音频质检分值和视频质检分值综合计算出音视频文件的质检总分值，保障提交的音视频合格率大幅度提升，减少重复质检的工作量，同时对于质检分数达到预定阈值的音视频文件可以免人工复检，从而大幅度降低质检人员工作量，降低人工质检成本。进而解决了现有技术中存在的由于音视频合格检测完全由质检人员进行人工审核，审查效率低，无法实时向用户反馈录制是否合格，用户体验差以及质检人力投入大的技术问题。

实施例3

图7示出了根据本实施例所述的基于固定话术的音视频内容合规性检测装置700，该装置700与根据实施例1的第一个方面所述的方法相对应。参考图7所示，该装置700包括：处理器710；以及存储器720，与处理器710连接，用于为处理器710提供处理以下处理步骤的指令：获取待进行合规性检测的音视频文件，其中音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；对音视频文件进行分离，得到待进行质检的音频文件和视频文件；计算音频文件的音频质检分值和视频文件的视频质检分值；以及根据音频质检分值和视频质检分值，计算音视频文件的音视频质检分值。

可选地，计算实体名称的拼音与标准名称的拼音之间的拼音读音相似度的操作，包括：对实体名称的拼音和标准名称的拼音进行拆解，得到实体名称的基本发音单元和标准名称的基本发音单元；计算实体名称的基本发音单元和标准名称的基本发音单元之间的发音相似度；计算实体名称的拼音与标准名称的拼音之间的拼音相似度；以及根据发音相似度和拼音相似度，计算拼音读音相似度。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于固定话术的音视频内容合规性检测方法，其特征在于，包括：

获取待进行合规性检测的音视频文件，其中所述音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；

对所述音视频文件进行分离，得到待进行质检的音频文件和视频文件；

计算所述音频文件的音频质检分值和所述视频文件的视频质检分值；以及

根据所述音频质检分值和所述视频质检分值，计算所述音视频文件的音视频质检分值。

2.根据权利要求1所述的方法，其特征在于，计算所述音频文件的音频质检分值的操作，包括：

采用自动语音识别技术对所述音频文件进行处理，得到与所述音频文件对应的文本信息；

通过命名实体识别，提取所述文本信息中的实体名称；

计算所述文本信息与所述固定话术文本之间的本文语义相似度；

计算所述实体名称与所述固定话术文本中的标准名称之间的读音相似度；以及

根据所述本文语义相似度和所述读音相似度，计算所述音频文件的音频质检分值。

3.根据权利要求1所述的方法，其特征在于，计算所述视频文件的视频质检分值的操作，包括：

对所述视频文件进行抽帧处理，得到与所述视频文件对应的多个帧图像；

分别对所述多个帧图像进行人脸在框检测，得到对应的人脸在框检测结果；

分别对所述多个帧图像进行人脸比对，得到对应的人脸比对结果；

分别对所述多个帧图像进行活体检测，得到对应的活体检测结果；以及

根据所述人脸在框检测结果、所述人脸比对结果以及所述活体检测结果，计算所述视频文件的视频质检分值。

4.根据权利要求2所述的方法，其特征在于，所述实体名称包括目标用户名称和目标机构名称，所述标准名称包括标准用户名称和标准机构名称，并且计算所述实体名称与所述固定话术文本中的标准名称之间的读音相似度的操作，还包括：

计算所述目标用户名称和所述标准用户名称之间的第一读音相似度；以及

计算所述目标机构名称和所述标准机构名称之间的第二读音相似度。

5.根据权利要求2所述的方法，其特征在于，计算所述实体名称与所述固定话术文本中的标准名称之间的读音相似度的操作，包括：

将所述实体名称和所述标准名称转换为拼音、声母和韵母；

计算所述实体名称的声母和韵母与所述标准名称的声母和韵母之间的声韵母读音相似度；

计算所述实体名称的拼音与所述标准名称的拼音之间的拼音读音相似度；以及

根据所述拼音读音相似度和所述声韵母读音相似度，计算所述实体名称和所述标准名称之间的读音相似度。

6.根据权利要求5所述的方法，其特征在于，计算所述实体名称的拼音与所述标准名称的拼音之间的拼音读音相似度的操作，包括：

对所述实体名称的拼音和所述标准名称的拼音进行拆解，得到所述实体名称的基本发音单元和所述标准名称的基本发音单元；

计算所述实体名称的基本发音单元和所述标准名称的基本发音单元之间的发音相似度；

计算所述实体名称的拼音与所述标准名称的拼音之间的拼音相似度；以及

根据所述发音相似度和所述拼音相似度，计算所述拼音读音相似度。

7.根据权利要求5所述的方法，其特征在于，计算所述实体名称的声母和韵母与所述标准名称的声母和韵母之间的声韵母读音相似度的操作，包括：

计算所述实体名称的声母与所述标准名称的声母之间的声母读音相似度；

计算所述实体名称的韵母与所述标准名称的韵母之间的韵母读音相似度；以及

根据所述声母读音相似度和所述韵母读音相似度，计算所述声韵母读音相似度。

8.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。

9.一种基于固定话术的音视频内容合规性检测装置，其特征在于，包括：

音视频文件获取模块，用于获取待进行合规性检测的音视频文件，其中所述音视频文件为通过对用户朗读固定话术文本的场景进行录制得到的音视频文件；

分离模块，用于对所述音视频文件进行分离，得到待进行质检的音频文件和视频文件；

第一计算模块，用于计算所述音频文件的音频质检分值和所述视频文件的视频质检分值；以及

第二计算模块，用于根据所述音频质检分值和所述视频质检分值，计算所述音视频文件的音视频质检分值。

10.一种基于固定话术的音视频内容合规性检测装置，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：