CN111901549B

CN111901549B - 一种基于人声识别技术辅助现场录制编目方法

Info

Publication number: CN111901549B
Application number: CN202010787326.9A
Authority: CN
Inventors: 纪亭; 杨煜红; 高铁铸; 吴奕刚; 王伟明
Original assignee: Hangzhou Arcvideo Technology Co ltd
Current assignee: Hangzhou Arcvideo Technology Co ltd
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2023-03-24
Anticipated expiration: 2040-08-07
Also published as: CN111901549A

Abstract

本发明公开了一种基于人声识别技术辅助现场录制编目方法。它采用声纹识别的方式，对参演人员进行标记，实时对录制现场采集的音频内容进行比对匹配和分析，对音视频文件进行实时的编目操作，录制结束的同时，就可以将音视频内容进行简单的人物鉴别操作，从而达到音视频实时和参演人员进行关联，实现实时编目的效果。本发明的有益效果是：达到音视频实时和参演人员进行关联，实现实时编目的效果，不仅减少了现场场记相关人员的操作，也避免了人员登记操作失误的可能，也大大提高了后期制作团队对素材的使用效率，更进一步提升实时编目的重要性，提高后期制作团队的视频成片快速生产的效率。

Description

一种基于人声识别技术辅助现场录制编目方法

技术领域

本发明涉及音频处理相关技术领域，尤其是指一种基于人声识别技术辅助现场录制编目方法。

背景技术

随着时代的进步，视频产业蓬勃发展，作为视频的制作方式之一的现场录制方式，其制作规模日趋庞大。目前常规的录制节目过程，就可能会有二十多个机位，涉及三四十位参演人员，一场节目录制结束，自然就会产生大量的节目音视频素材，而这些音视频素材又会尽快的提交给后期制作团队，并由后期团队在短期内，完成所有素材的处理工作，产生最终的节目成片。接着就是节目成片的分发和上线之类的流程，使录制的节目在第一时间可以提供给用户观看。

节目录制的同时，如果可以更有效的对音视频素材内容进行编目处理，不仅便于录制结束后，素材的归档，也将会大大提高后期制作团队对素材的选用、处理的效率。特别是音视频素材中，对于视频内容，往往可以和机位进行绑定，通过对机位的选择，就可以大致知道视频内容的关联性。相对于视频而言，对于音频内容，处理就不那么简单，录制现场实际操作中，为了获取参演人员实时的对话内容，往往都会让参演人员随身携带的随身麦克风，并同步将对应的音频内容一起整合到录制的视频信号源中。但由于场景变动，机位调整等原因，参演人员对应的音频内容，虽然会整合在视频信号中，但是往往无法在整场录制节目过程中保持一致而不去做调整。也就是说，实际的视频信号中的音频，不仅可能对应多个参演人员对白的音频内容，而且不同录制时间段，可能也不固定在这几个参演人员之间。实际录制现场操作中，往往需要多位场记人员，对参演人员以及对白内容进行记录并和对应的视频进行关联标记。而作为后期制作团队，往往也需要对视频和音频内容进行一一比对，才能将对应的音视频素材整合同步，才能加入到节目的成片中。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种提高后期制作团队工作效率的基于人声识别技术辅助现场录制编目方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于人声识别技术辅助现场录制编目方法，具体包括如下步骤：

(1)在彩排阶段，通过彩排的预演获取大量的参演人员的声音素材文件，以这些声音素材文件为样本作为音频采集模块获取的原始声音素材，并提交到特征抽取模块；

(2)特征抽取模块依据样本数据，基于声纹识别的算法生成对应原音的声音素材的特征信息，并根据现场的操作人员将参演人员的信息和提取的特征信息进行关联，并保存到参演人员特征库中；

(3)实际现场录制时，实际录制过程中产生大量的声音素材文件，将这些声音素材文件调用特征抽取模块，生成对应这些声音素材的特征信息，并将这些特征信息与之前彩排时生成的参演人员特征库的数据信息进行比对；

(4)将匹配的特征信息的对应参演人员信息提取后，通过标记声音素材文件操作将对应声音素材文件信息加入参演人员信息；

(5)将所有录制过程中的媒体信息中的声音素材，在录制过程中都导入依次通过音频采集模块和特征抽取模块生成声音素材的特征信息进行比对关联，当录制完成时在录制完成的素材中的声音素材信息将会附带参演人员的信息。

本方法中利用日渐成熟的生物识别技术，采用声纹识别的方式，对参演人员进行标记，实时对录制现场采集的音频内容进行比对匹配和分析，对音视频文件进行实时的编目操作，录制结束的同时，就可以将音视频内容进行简单的人物鉴别操作，从而达到音视频实时和参演人员进行关联，实现实时编目的效果，不仅减少了现场场记相关人员的操作，也避免了人员登记操作失误的可能。对于完成编目的素材，也大大提高了后期制作团队对素材的使用效率。并且在此基础上，后续如果接入语音识别的机制，甚至可以将参演人员的对白内容进行解析，并将对白内容文字化保存起来，更进一步提升实时编目的重要性，提高后期制作团队的视频成片快速生产的效率。

作为优选，在步骤(2)中，声纹识别是根据语音中所蕴含的说话的个性特征去识别该段语音说话对象的身份的过程，声纹识别便是将声信号转换成电信号，再用计算机进行识别的技术。

作为优选，在步骤(3)中，当出现声音素材的特征信息与参演人员特征库的数据信息不匹配时，意味着采集设备对应收录人员变更，则进行二分法排查：前向二分查询，通过对前一个通过比对样本区段到当前出现异常的样本区段的两者间间隔中，再进一步抽取样本，进一步特征比对，并递归处理，确认到出现特征异常的首个声音片段；同时进行后向二分查询，对当前出现异常的样本区段，以及之后的样本，参照前向二分查询比对定位的方式，对后向的片段也进行查询比对定位，后台系统将所有查询的结果，也就是识别后的不同特征对应的参演人员和对应时间片段信息，通过图示的方式，反馈给操作人员，最后由人工介入，最终确认素材内容。

作为优选，在步骤(4)中，标记声音素材文件操作具体为：先对声音素材进行预处理，将整个素材进行音量标记处理，也就是把素材中检查到有采集到声音音量，通过预设的阈值，对素材中音量超过标定的阈值的区段进行标记，然后通过固定间隔时长的方式，对最接近标记的素材区段进行样本识别，通过固定间隔时长抽取样本的方式，对素材进行特征比对。

作为优选，声音素材的特征信息包括共鸣方式特征、嗓音纯度特征、平均音高特征和音域特征；共鸣方式特征指的是咽腔共鸣、鼻腔共鸣和口腔共鸣；嗓音纯度特征分为高纯度、低纯度和中等纯度三个等级；平均音高特征指的是嗓音的高亢与低沉；音域特征指的是声音饱满与干瘪。

作为优选，由于不同参演人员的声音在波形语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个参演人员。

本发明的有益效果是：达到音视频实时和参演人员进行关联，实现实时编目的效果，不仅减少了现场场记相关人员的操作，也避免了人员登记操作失误的可能，也大大提高了后期制作团队对素材的使用效率，更进一步提升实时编目的重要性，提高后期制作团队的视频成片快速生产的效率。

附图说明

图1是本发明的方法框架图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步的描述。

如图1所述的实施例中，一种基于人声识别技术辅助现场录制编目方法，具体包括如下步骤：

声纹识别是根据语音中所蕴含的说话的个性特征去识别该段语音说话对象的身份的过程，与其他生物特征识别相比，声纹识别具有不会遗忘与忘记、不需要记忆、使用方便等特点。声纹识别便是将声信号转换成电信号，再用计算机进行识别的技术。实际运用中，解决的问题涉及2个类别，一个是说话人辨认，一个是说话人确认，在本方法中，主要针对的是说话人辨认的过程。说话人辨认指的是：用以判断某段语音是若干人中的哪一个所说的，是“多选一”问题；说话人确认指的是：用以确认某段语音是否是指定的某个人所说的，是“一对一判别”问题。

由于不同参演人员的声音在波形语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个参演人员，从而实现“闻声识人”的功能。

当出现声音素材的特征信息与参演人员特征库的数据信息不匹配时，意味着采集设备对应收录人员变更，则进行二分法排查(包括不限于)：前向二分查询，通过对前一个通过比对样本区段到当前出现异常的样本区段的两者间间隔中，再进一步抽取样本，进一步特征比对，并递归处理，确认到出现特征异常的首个声音片段；同时进行后向二分查询，对当前出现异常的样本区段，以及之后的样本，参照前向二分查询比对定位的方式，对后向的片段也进行查询比对定位，后台系统将所有查询的结果，也就是识别后的不同特征对应的参演人员和对应时间片段信息，通过图示的方式，反馈给操作人员，最后由人工介入，最终确认素材内容。

由于实际录制过程中，常用的场景都是参演人员人均携带一个随身的声音采集设备，在录制结束前，除非声音采集设备出现断电，故障等异常情况下，基本上可以保证声音采集设备采集的素材都只对应唯一参演人员。所以在声音识别的过程中，为了提高特征比对的效率，标记声音素材文件操作具体为：先对声音素材进行预处理，将整个素材进行音量标记处理，也就是把素材中检查到有采集到声音音量，通过预设的阈值，对素材中音量超过标定的阈值的区段进行标记，然后通过固定间隔时长的方式，对最接近标记的素材区段进行样本识别，通过固定间隔时长抽取样本的方式(包括不限于)，对素材进行特征比对，提高比对效率。

(5)将所有录制过程中的媒体信息中的声音素材，在录制过程中都导入依次通过音频采集模块和特征抽取模块生成声音素材的特征信息进行比对关联，当录制完成时在录制完成的素材中的声音素材信息将会附带参演人员的信息。这样设计大大提升了录制后的归档便捷性，录制完成的声音素材提交给后期制作团队，后期制作团队也可以根据声音素材标记的参演人员信息，主动的对制作素材进行调整，大大的提升后期制作团队对制作素材的使用效率，加快了节目成本的生产过程。

声音素材的特征信息包括共鸣方式特征、嗓音纯度特征、平均音高特征和音域特征；共鸣方式特征指的是咽腔共鸣、鼻腔共鸣和口腔共鸣；嗓音纯度特征分为高纯度(明亮)、低纯度(沙哑)和中等纯度三个等级，不同人的嗓音纯度是不一样的；平均音高特征指的是嗓音的高亢与低沉；音域特征指的是声音饱满与干瘪。

基于人声识别技术辅助现场录制编目方法，是针对由人主导参与的现场录制节目产生的音视频素材，基于人声识别技术，进行科学的处理，自动生成相关的编目信息，以便现场场记人员，编目人员对这类音视频素材进行后续的业务处理。

目前，生物识别技术已经日渐成熟，所谓生物识别技术就是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合，利用人体固有的生理特性，(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。由于人体特征具有人体所固有的不可复制的独一性，这一生物密钥无法复制，失窃或被遗忘，利用生物识别技术进行身份认定，安全、可靠、准确。而常见的口令、IC卡、条纹码、磁卡或钥匙则存在着丢失、遗忘、复制及被盗用诸多不利因素。

针对由人主导参与的现场录制节目产生的音视频素材，由于音视频本身的特性，导致大部分可以作为生物识别所使用的生理特性和行为特征都受到了局限。从技术成熟，以及生理特性和行为特征作为生物识别技术选用的基准，可以作为音视频素材中的生物识别技术可行的方案中，主要集中在人脸识别技术和声纹识别技术。

在音视频素材中，采用声纹识别的方式，相较人脸识别的方式，易用性更高，成本更低，从采集、比对、匹配的性能的对比来说，音频的处理能力也大大高于视频处理能力，更利于本方法实现辅助现场录制编目的目标实现。

本方法是针对声音素材进行智能处理识别进行科学编目的解决方案。通常，生物识别过程大多经历三个步骤：原始数据获取、抽取特征和匹配。本方法根据生物识别过程的逻辑方式，也对应划分为样本获取模块，特征抽取模块和特征匹配模块。

声纹识别相对于其他生物识别最大的优势主要体现在以下几点：

1.是降低侵犯隐私风险，相对于人脸识别而言，社会大众对于声纹识别的抵触大大降低，随便采集到的一段话便可以进行声纹识别；

2.是获取语音的识别成本低，相对于人脸识别、指纹识别等，声纹识别只要求麦克风便可以进行采集。

并且声纹识别相对人脸识别而言，声纹识别处理的是音频素材，人脸识别处理的视频素材，单位时间内，声纹识别处理能力的效率会更优于视频处理能力，不论是针对现场录制实时处理，还是针对历史媒资的媒资编目处理，声纹识别更能胜任对应的识别处理操作。

声纹是用电声学仪器显示的携带言语信息的声波频谱，是由波长、频率以及强度等百余种特征维度组成的生物特征，具有稳定性、可测量性、唯一性等特点。人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，发声器官如舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性，又有变异性，不是一成不变的。这种变异可来自生理、病理、心理、模拟、伪装，也与环境干扰有关。尽管如此，由于每个人的发音器官都不尽相同，因此在一般情况下，人们仍能区别不同的人的声音或判断是否是同一人的声音。人在讲话时使用的发声器官在尺寸和形态方面每个人的差异很大，所以任何两个人的声纹图谱都有差异。

Claims

1.一种基于人声识别技术辅助现场录制编目方法，其特征是，具体包括如下步骤：

（1）在彩排阶段，通过彩排的预演获取大量的参演人员的声音素材文件，以这些声音素材文件为样本作为音频采集模块获取的原始声音素材，并提交到特征抽取模块；

（2）特征抽取模块依据样本数据，基于声纹识别的算法生成对应原音的声音素材的特征信息，并根据现场的操作人员将参演人员的信息和提取的特征信息进行关联，并保存到参演人员特征库中；

（3）实际现场录制时，实际录制过程中产生大量的声音素材文件，将这些声音素材文件调用特征抽取模块，生成对应这些声音素材的特征信息，并将这些特征信息与之前彩排时生成的参演人员特征库的数据信息进行比对；当出现声音素材的特征信息与参演人员特征库的数据信息不匹配时，意味着采集设备对应收录人员变更，则进行二分法排查：前向二分查询，通过对前一个通过比对样本区段到当前出现异常的样本区段的两者间间隔中，再进一步抽取样本，进一步特征比对，并递归处理，确认到出现特征异常的首个声音片段；同时进行后向二分查询，对当前出现异常的样本区段，以及之后的样本，参照前向二分查询比对定位的方式，对后向的片段也进行查询比对定位，后台系统将所有查询的结果，也就是识别后的不同特征对应的参演人员和对应时间片段信息，通过图示的方式，反馈给操作人员，最后由人工介入，最终确认素材内容；

（4）将匹配的特征信息的对应参演人员信息提取后，通过标记声音素材文件操作将对应声音素材文件信息加入参演人员信息；

（5）将所有录制过程中的媒体信息中的声音素材，在录制过程中都导入依次通过音频采集模块和特征抽取模块生成声音素材的特征信息进行比对关联，当录制完成时在录制完成的素材中的声音素材信息将会附带参演人员的信息。

2.根据权利要求1所述的一种基于人声识别技术辅助现场录制编目方法，其特征是，在步骤（2）中，声纹识别是根据语音中所蕴含的说话的个性特征去识别该段语音说话对象的身份的过程，声纹识别便是将声信号转换成电信号，再用计算机进行识别的技术。

3.根据权利要求1所述的一种基于人声识别技术辅助现场录制编目方法，其特征是，在步骤（4）中，标记声音素材文件操作具体为：先对声音素材进行预处理，将整个素材进行音量标记处理，也就是把素材中检查到有采集到声音音量，通过预设的阈值，对素材中音量超过标定的阈值的区段进行标记，然后通过固定间隔时长的方式，对最接近标记的素材区段进行样本识别，通过固定间隔时长抽取样本的方式，对素材进行特征比对。

4.根据权利要求1或2或3所述的一种基于人声识别技术辅助现场录制编目方法，其特征是，声音素材的特征信息包括共鸣方式特征、嗓音纯度特征、平均音高特征和音域特征；共鸣方式特征指的是咽腔共鸣、鼻腔共鸣和口腔共鸣；嗓音纯度特征分为高纯度、低纯度和中等纯度三个等级；平均音高特征指的是嗓音的高亢与低沉；音域特征指的是声音饱满与干瘪。

5.根据权利要求1或2或3所述的一种基于人声识别技术辅助现场录制编目方法，其特征是，由于不同参演人员的声音在波形语谱图中共振峰的分布情况不同，声纹识别正是通过比对两段语音的说话人在相同音素上的发声来判断是否为同一个参演人员。