CN109951651A

CN109951651A - 一种音频播放和视频抓取的协作方法

Info

Publication number: CN109951651A
Application number: CN201910125137.2A
Authority: CN
Inventors: 陆成刚; 陈刚; 吴兵
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Ningbo Zhihua Digital Information Technology Co.,Ltd.
Priority date: 2019-02-20
Filing date: 2019-02-20
Publication date: 2019-06-28
Anticipated expiration: 2039-02-20
Also published as: CN109951651B

Abstract

一种音频播放和视频抓取的协作方法，包括以下步骤：(1)打开摄像头进入取景模式；(2)播放设定时间提示音后播放配音语音，同时摄像头开始抓取图像，并把播放的音频和图像同步保存；(3)逐句播放语音，根据语音指导拍摄；句子间插入默音间隔，之后放设定时间提示音；(4)当要暂停时，提供了(5)和(6)两种模式；(5)触控暂停模式，用户在任意时刻，用指在屏幕任意一个位置长按，即弹出快捷菜单；(6)语音控制模式，用户在扬声器播放的默音间隔內，发出语音指令来控制暂停或双暂停；(7)当不暂停或暂停恢复，会返回到步骤(3)；(8)当语音播放完毕，自动停止视频录制，流程结束。本发明简化用户在实际使用过程中的操作方式。

Description

一种音频播放和视频抓取的协作方法

技术领域

本发明涉及一种音频播放和视频抓取的协作方法。

背景技术

目前，在视频拍摄和创作过程中，都是使用传统的方式，即先进行视频录制，再进行后期的配音及声音处理。所以针对传统视频创作模式，已经发明了新的模式，即通过配音语音来引导录制视频的方式。

在音频播放和视频抓取的协作过程中，是通过播放配音语音来引导视频的录制方式实现的。其中，放音、录像(不录音)两个轨道的多媒体处理的调度控制机制分为三种，第一种：放音自动暂停模式。该模式为一句语句播放结束后，自动暂停，等待用户手动控制播放下一句。显然，这种模式用户体验不好。第二种：放音自动连续模式。该模式为一句语句播放结束后，间隔等待几秒(系统内置好)，然后自动播放下一句。显然，可用性不好。第三种：放音可控模式。该模式的语句播放过程中可由用户自由控制。

发明内容

为了克服已有音频播放和视频抓取协作方式的操作繁琐的不足，本发明提供了一种简化用户在实际使用过程中的操作方式的音频播放和视频抓取的协作方法。

本发明解决其技术问题所采用的技术方案是：

一种音频播放和视频抓取的协作方法，包括以下步骤：

(1)开始，打开APP，先输入待配音文字，文字经过文字转语音转接口(TTS)之后，生成配音语音文件；

(2)接着打开摄像头进入取景模式，开始进行语音引导摄录，默认开始是进行触控模式(多人)，语音控制模式(单人)需要用户手动选择；

(3)播放设定时间(例如三秒，或大于三秒)“嘀”的提示音(谐波音)，用户准备开始正式录制；

(4)提示音后，开始播放正式配音语音，同时用户正式开启录像模式，摄像头开始抓取视频图像；

(5)先播放第一句配音语音，用户根据语音内容进行摄录；

(6)在上一句语音播放完成后，在该句末尾下句之前(两句之间)插入默音间隔，之后放3秒提示音(谐波音)；同时录制时顶部显示剩余计时和提示字幕，底部显示当前字幕，摄像头仍在抓取视频图像；

(7)当需要暂停时，提供了两种模式，在默认的触控模式下，用户是手动控制暂停模式，若选择了语音控制模式，则用户是语音控制暂停模式；

(8)在默认触控暂停模式下，用户在当前语句播放的中间某时刻、或者在当前播放结束等待下一语句播放的滴滴声播放期间的某一个时刻，用指在屏幕任意一个位置长按(使用长按是为了使得点击触摸屏的误操作不会产生控制响应)，即弹出快捷菜单；

(9)在语音控制暂停模式下，用户想采用语音控制模式来暂停或双暂停，若在扬声器播放的默音间隔內，用户需要发出指定语音指令。

(10)当暂时不需要暂停时(用户没有执行暂停操作时)，会返回到步骤(6)继续重复往下执行；

(11)当顶端语音播放倒计时到0时，自动停止录音和视频录制，音视频文件自动合成并保存，全流程结束。

进一步，所述步骤(8)中，过程如下：

8.1)菜单上有两个菜单条，其中一条“停止放音、录像继续”、另外一条“停止放音、停止录像”；菜单是“一次点中菜单条即消失”的模式，即免退、免关；

8.2)恢复机制，仍长按屏幕任意一处，弹出快捷菜单，对应的菜单条只有一条是“继续”(注意，“继续放音”和“继续放音、继续录像”，都是继续放音及录像的意思，即有2个开启菜单条，关闭只有一个)，点击中后菜单即自动消失，同时启动控制放音录像的动作。

再进一步，所述步骤9)中，过程如下：

9.1)若不在默音间隔內，即在扬声器播放谐波声时，用户发出指定语音指令，这时候滤掉谐波声的背景录音即可；

9.2)语音指令识别就是短词识别，主要是“放音暂停”、“放音录像暂停”、“恢复”三条短词指令。“放音暂停”、“放音录像暂停”这两条语音指令主要为了语音控制暂停时使用。最后用户发出“恢复”指令后，会启动控制放音录像的动作。

更进一步，所述步骤(2)中，触控模式的处理过程如下：

一句语句播放结束后，在播放下一句之前等待3秒，而等待的三秒可以播放三秒的谐波音，就像广播电台整点报时之前的三秒频率高低不同的“滴滴声”一样。该“嘀嘀声”的谐波音作为提示音使用。

在播放当前语句时，屏幕顶部显示剩余计时，底部显示当前字幕。顶部除了显示当前语句剩余计时外，还应该显示下一句语句的首部若干个字的字幕作为提示字幕，以防止用户不知道下面的操作动作或文本解说(从易用性角度看应该显示7、8个字加省略号)。

用户在当前语句播放的中间某时刻、或者在当前播放结束等待下一语句播放的滴滴声播放期间的某一个时刻，用指在屏幕任意一个位置长按(使用长按是为了使得点击触摸屏的误操作不会产生控制响应)，即弹出快捷菜单；菜单上有两个菜单条，其中一条“停止放音、录像继续”、另外一条“停止放音、停止录像”；菜单是“一次点中菜单条即消失”的模式，即免退、免关。(注意，即便在当前语音播放中间暂停中断，也不会对生成的视频文件里的音频造成间断感，这是和实时录音不一样的地方，但画面会有中断感，这个体验要求稍低，人们对音频中断更敏感)。

恢复机制，仍长按屏幕任意一处，弹出快捷菜单，对应的菜单条只有一条是“继续”(注意，“继续放音”和“继续放音、继续录像”，都是继续放音及录像的意思，即有2个开启菜单条，关闭只有一个)，点击中后菜单即自动消失，同时启动控制放音录像的动作。

其次，以上暂停状态如何在屏幕画面作显著区分设计，如果没有这种机制，用户是不知道当前的具体情况的，因为既使停止录像，画面还是在取景状态的；既使停止放音，但语句之间还是有默音期间隔的(特别是如果系统语句播放间隔设置大于3秒时，此时不太好在间隔期间播放谐波声，最好的办法是插入默音，只在下一语句开始之前的3秒响起谐波声)。考虑到与用户的交互，此处设计，整个取景画面外框框上闪烁的绿线表示放音暂停、闪烁的红线加绿线表示摄像和放音双暂停；

最后，APP开启开始工作时默认处于双暂停状态，等待用户触摸控制(长按，弹出快捷菜单取消暂停等)，这样可能在启动使用时有三步动作，即点击APP启动，在画面上长按，选择击中快捷菜单的继续菜单条，然后正式开始工作。当然这三步之前还有把文本合成的音频文件选定的动作。这样一来可能会稍显麻烦。所以此处改为设计开启APP后，一、供用户选定某个事先合成好的音频文件；二、或者在APP上现场编辑好全部文本内容，选择推送云端合成好后；三、自动选定默认的合成音文本文件(如果上一次打开APP，只推送了文本，合成好后，没有继续摄录而直接退出的情况)，以上三个情况一律在用户触控确定后自动开始正式摄录工作，没有初始化时的双暂停机制了。

所述步骤(2)中，语音控制模式的处理过程如下：

由于麦克风始终处于空闲态，在APP工作期间开启麦克，但录音分析供语音用户接口使用，不用作录像录音。

但麦克风录音时的音频场景可能是扬声器在免提播放语句放音(包括语句间间隔的谐波声)、也可能扬声器处于默音态(可能是语句间隔长于三秒的系统设置需要的沉默音阶段，或者是语句播放的内容合成音本身有默音间隔，或者系统被用户控制在暂停或双暂停模式期间，而这又涉及到语音控制模式和用户触控模式是否支持混用，也就是单人模式和双人模式是否混用，在混用下，显然用户触控模式的暂停或双暂停都没有涉及到麦克风录音是否暂停的情况，一般而言为支持混用，在用户触控模式的暂停或双暂停下，麦克风录音态一律不停的；还有一种方法是单人语音控制模式和双人用户触控模式在开启APP后就由人为选定，不混用。)

此时麦克风录音的语音识别涉及到double talk(双向通话)检测问题，具体细节是这样的，例如扬声器在播放时，用户想采用语音控制模式来暂停或双暂停，那么麦克风录取的声音含有从扬声器播放的声音再被麦克风录取的成份，这对语音识别的正确性是挑战，如果有double talk检测，则一律disable(禁用)这时的录音，即不作响应，也就是说在单人模式语音控制下，一定要有扬声器默音间隔才能可行，否则无法避开double talk而导致识别精度会受到影响，这也预示单人用户控制模式最好语句间隔大于3秒(如果碰到扬声器播放谐波声时用户发出语音指令，这时候滤掉谐波声的背景录音相对容易些。)这个概念事实上涉及到声学回声消除的问题，而且是在回声消除器收敛的情况下，滤除double talk后进行语音指令识别的问题。

仅仅就语音指令识别而言还是比较简单的，就是短词识别，主要是“放音暂停”、“放音录像暂停”、“恢复”等三条短词指令。

本发明的有益效果主要表现在：简化用户在实际使用过程中的操作方式。

附图说明

图1是音频播放和视频抓取的协作方法的流程图。

图2是不放音也不录制的双暂停状态示意图，其边框状态为交替闪烁的点虚线和虚线。

图3是用户开始正式录制示意图，周围以黑线框表示。

图4是停止放音，录像继续的示意图(边框显示虚线)。

图5是停止放音，停止录像的示意图(边框交替显示点虚线和虚线)。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1～图5，一种音频播放和视频抓取的协作方法，包括以下步骤：

(5)先播放第一句配音语音，用户根据语音内容进行摄录；

进一步，所述步骤(8)中，过程如下：

再进一步，所述步骤9)中，过程如下：

更进一步，所述步骤(2)中，触控模式的处理过程如下：

所述步骤(2)中，语音控制模式的处理过程如下：

其余机制(如屏幕显示语音播放倒计时、底部字幕显示、顶部提示字幕显示、摄像头的取景和摄录)和用户触控模式相似，不再赘述。

本实施例的协作方法中暂停机制的用户交互与界面(UI)设计：触控暂停模式与语音控制暂停模式界面设计相同，只是语音模式下通过语音指令识别代替了触控模式下长按弹出快捷菜单的暂停方式，在界面中只是没了快捷菜单展示，其余界面UI两者均相同，只是交互变化了，所以语音模式下的界面不再重复展示。详细操作交互和界面内容已经在1和2中详细叙述，此处不再重复。

初始语音引导摄录初始界面，顶部倒计时是配音语音的时长倒计时，此处以6分钟为例。语音控制点击顶部右端字样即可(与默认模式UI相同，只是少了快捷菜单栏，所以语音模式下的界面不再重复展示)初始取景模式即为既不放音也不录制的双暂停状态，其边框状态为交替闪烁的虚线和点虚线，参照图2。

用户开始正式录制，周围以黑线框表示，参照图3。

默认模式下，长按界面任意一处暂停，弹出快捷菜单，此时边界框消失不显示。用户选择一个暂停方式之后，快捷菜单自动消失。

停止放音，录像继续(边框显示虚线)，参照图4。

停止放音，停止录像(边框交替显示虚线和点虚线)，参照图5。恢复机制(取消暂停)，在原来暂停方式下，继续长按，弹出“继续”字样的一次性快捷菜单，此时边界框消失不显示。用户点击继续后，快捷菜单消失。

Claims

1.一种音频播放和视频抓取的协作方法，其特征在于，所述协作方法包括以下步骤：

(1)开始，先输入待配音文字，文字经过文字转语音转接口之后，生成配音语音文件；

(2)接着打开摄像头进入取景模式，开始进行语音引导摄录，默认开始是进行触控模式，语音控制模式需要用户手动选择；

(3)播放设定时间“嘀”的提示音，用户准备开始正式录制；

(5)先播放第一句配音语音，用户根据语音内容进行摄录；

(6)在上一句语音播放完成后，在该句末尾下句之前插入默音间隔，之后放设定时间提示音；同时录制时顶部显示剩余计时和提示字幕，底部显示当前字幕，摄像头仍在抓取视频图像；

(8)在默认触控暂停模式下，用户在当前语句播放的中间某时刻、或者在当前播放结束等待下一语句播放的滴滴声播放期间的某一个时刻，用指在屏幕任意一个位置长按，即弹出快捷菜单；

(9)在语音控制暂停模式下，用户想采用语音控制模式来暂停或双暂停，若在扬声器播放的默音间隔內，用户需要发出指定语音指令；

(10)当暂时不需要暂停时，会返回到步骤(6)继续重复往下执行；

2.如权利要求1所述的音频播放和视频抓取的协作方法，其特征在于，所述步骤(8)中，过程如下：

8.2)恢复机制，仍长按屏幕任意一处，弹出快捷菜单，对应的菜单条只有一条是“继续”，点击中后菜单即自动消失，同时启动控制放音录像的动作。

3.如权利要求1或2所述的音频播放和视频抓取的协作方法，其特征在于，所述步骤9)中，过程如下：

9.2)语音指令识别就是短词识别，所述语音指令包括“放音暂停”、“放音录像暂停”、“恢复”三条短词指令；“放音暂停”、“放音录像暂停”这两条语音指令为了语音控制暂停时使用，最后用户发出“恢复”指令后，会启动控制放音录像的动作。

4.如权利要求1或2所述的音频播放和视频抓取的协作方法，其特征在于，所述步骤(2)中，触控模式的处理过程如下：

一句语句播放结束后，在播放下一句之前等待设定时间，而等待的设定时间播放三秒的谐波音，就像广播电台整点报时之前的三秒频率高低不同的“滴滴声”一样；该“嘀嘀声”的谐波音作为提示音使用；

在播放当前语句时，屏幕顶部显示剩余计时，底部显示当前字幕；顶部除了显示当前语句剩余计时外，还应该显示下一句语句的首部若干个字的字幕作为提示字幕；

用户在当前语句播放的中间某时刻、或者在当前播放结束等待下一语句播放的滴滴声播放期间的某一个时刻，用指在屏幕任意一个位置长按，即弹出快捷菜单；菜单上有两个菜单条，其中一条“停止放音、录像继续”、另外一条“停止放音、停止录像”；菜单是“一次点中菜单条即消失”的模式，即免退、免关；

恢复机制，仍长按屏幕任意一处，弹出快捷菜单，对应的菜单条只有一条是“继续”，点击中后菜单即自动消失，同时启动控制放音录像的动作；

其次，以上暂停状态如何在屏幕画面作显著区分设计，整个取景画面外框框上闪烁的虚线示放音暂停、交替闪烁的点虚线和虚线表示摄像和放音双暂停；

最后，APP开启开始工作时默认处于双暂停状态，等待用户触摸控制，这样可能在启动使用时有三步动作，即点击APP启动，在画面上长按，选择击中快捷菜单的继续菜单条，然后正式开始工作；当然这三步之前还有把文本合成的音频文件选定的动作；这样一来可能会稍显麻烦，所以此处改为设计开启APP后，一、供用户选定某个事先合成好的音频文件；二、或者在APP上现场编辑好全部文本内容，选择推送云端合成好后；三、自动选定默认的合成音文本文件，以上三个情况一律在用户触控确定后自动开始正式摄录工作，没有初始化时的双暂停机制了。

5.如权利要求1或2所述的音频播放和视频抓取的协作方法，其特征在于，所述步骤(2)中，语音控制模式的处理过程如下：

由于麦克风始终处于空闲态，在APP工作期间开启麦克，但录音分析供语音用户接口使用，不用作录像录音；

但麦克风录音时的音频场景可能是扬声器在免提播放语句放音、也可能扬声器处于默音态；

此时麦克风录音的语音识别涉及到双向通话double talk检测问题，如扬声器在播放时，用户想采用语音控制模式来暂停或双暂停，那么麦克风录取的声音含有从扬声器播放的声音再被麦克风录取的成份，这对语音识别的正确性是挑战，如果有double talk检测，则一律disable禁用这时的录音，即不作响应，也就是说在单人模式语音控制下，一定要有扬声器默音间隔才能可行，否则无法避开double talk而导致识别精度会受到影响，这也预示单人用户控制模式最好语句间隔大于3秒；

语音指令识别就是短词识别，包括“放音暂停”、“放音录像暂停”、“恢复”三条短词指令。