CN113179442A

CN113179442A - 一种基于语音识别的视频中音频流替换方法

Info

Publication number: CN113179442A
Application number: CN202110425839.XA
Authority: CN
Inventors: 徐浩然; 沈童; 潘晨高; 张鑫晟; 王英钒; 高飞
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-07-27
Anticipated expiration: 2041-04-20
Also published as: CN113179442B

Abstract

本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为：首先通过对音频进行端点检测得到音频中人说的前后端点，然后对音频进行降噪提取特征值，再通过声音模型和语言模型进行语音识别，然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成，实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间，得到识别结果中每个字在音频中的起始时间与结束时间，通过计算使得视频中音频流替换更加科学准确，可以在语音识别效果检测和视频制作领域起到巨大作用。

Description

一种基于语音识别的视频中音频流替换方法

技术领域

本发明属于语音识别技术领域，涉及一种基于语音识别的视频中音频流替换方法，具体是通过音频分析计算每字起止时间，以实现当视频中音频流部分改变时可以使得新生成音频无缝替换原视频中对应音频的方法。

背景技术

近年来，随着自然语言处理技术的发展，智能语音识别和语音合成技术逐渐投入到生产生活中。但是语音识别技术的发展多见于不同语种的识别，不同的识别方式，通过各种方法来达到更好的识别效果与更快的识别速度以及更广的识别范围。对于一个含有对话、演讲等内容的视频而言，要想在不改变视频流的基础上，用几乎无痕的方式修改其中的音频，是非常困难的，其中的最大的一个难点就在于如何将合成的音频流恰好地重新嵌入回视频中。

为解决音频流替换的问题，学术界、工业界提出了很多方案，其中与本发明较为接近的技术方案有：专利公开号为CN 110019961A的发明专利中，通过语音识别、获取音频流的语音特征和语音合成的方法来修改视频流中的音频流，但是该专利中，没有对合成的音频再进行修改，可能会导致视频的剪辑痕迹重，在单个字上音画不同步等问题。

本方法就能够通过精准识别单个字音频的起止时间，再修改合成的音频流，达成音频流的无痕修改。

发明内容

针对现有技术中存在的上述问题，本发明的目的在于提供一种基于语音识别的视频中音频流替换方法，该方法为在语音识别时得到单个字在音频中的起始时间与结束时间，依托此技术通过判断修改前后音频流中不同，选择执行不同操作以实现当视频中音频流部分改变时将新生成音频无缝替换原视频中对应音频的操作。

本发明公开的一种基于语音识别的视频中音频流替换方法，包括如下步骤：

步骤1：提取待处理的视频中的音频，并对所提取的音频进行端点检测、降噪，具体为：

步骤1.1：首先将音频按照时长与采样率进行分帧，根据式(1)计算每一帧的时长，最后将每一帧乘上汉明窗；

其中，T表示音频帧时长，n表示一个AAC帧对应的采样点个数，v表示采样频率；

步骤1.2：根据式(2)计算每一帧的能量值，

其中，E_n表示第n帧的能量，x_ni表示第n帧第i个采样点的频率，N表示每帧采样点的总数；

步骤1.3：根据步骤1.2得到的能量值计算出前10帧的平均能量值E_a，若存在某一帧满足它之前连续100帧每帧的能量值小于E_a且之后连续100帧每帧能量值大于E_a，则将该帧的起始时刻作为前端点，反之将该帧的结束时刻作为后端点，一对前后端点间的时间就代表人停顿间说话的时间；

步骤1.4：取音频起始处50帧的语音作为背景音，将所取的50帧的语音以每组10帧分为5组，对每组的语音帧进行傅里叶变换，求得每组的频谱，并求5组的频谱平均值，得到10帧长度的频谱作为噪声频谱；对整个音频的全部语音进行傅里叶变换求出频谱，使用噪声频谱进行补偿，即两者相减，再使用傅里叶逆变换得到正常的降噪后的音频；

步骤2：对音频进行特征值提取，具体为：对步骤1)降噪后的音频进行MFCC语音特征提取，通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取，得到每一帧音频的特征值C；

步骤3：通过声音模型和语言模型识别音频中的语音，具体为：根据式(3)求出语音对应概率最高的文本段，记录对应于每个字发音的特征值C_i；

S^*＝arg max P(S|C) (3)

其中，C表示输入的音频的特征值，S表示输入的语音特征C对应的概率，S^*表示计算得到的最高的文本段概率；

步骤4：根据特征值得出每个字的起止时间，具体为：根据每个字发音的特征值C_i，与步骤2中得到的每一帧音频的特征值C按序进行对比，按序找到每个C_i所在位置，得到每个字所占的帧的位置，再根据式(4)和(5)计算第i个字的起始时间和结束时间；

T_ib＝T_b+(N_ib-1)*t (4)

T_ie＝T_b+N_ie*t (5)

其中，T_ib表示第i个字的起始时间，T_b表示前端点对应时间，N_ib表示第i个字的起始帧为该段语音的第几帧，t表示每一帧对应原音频的长度，T_ie表示第i个字的结束时间，N_ie表示第i个字的结束帧为该段语音的第几帧；

步骤5：根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速：

步骤5.1：根据式(6)和(7)和步骤4结果推算演讲者发音持续时长T_c和字与字之间的停顿的平均时间T_e，将计算得到的两个指标值作为演讲者语速特征的关键指标并记录：

其中，T_ib表示第i个字的起始时间，T_ie表示第i个字的结束时间；

步骤5.2：将根据演讲者语速进行更改：

对于待替换的音频，根据每个字的起止时间截取成N_new个音频，再根据每个音频时长T_i、步骤5.1计算得出的T_c和式(8)设置该段音频播放速率，具体为：

并按照音频原有排列顺序在每两段音频之间插入时间长度为T_e的空白音频，得到中间音频，再在中间音频的两端分别插入时长为T_1b和(T_old-T_Ne)的两段空白音频，得到修改后的新音频；其中，T_old为原音频总长度，T_Ne表示最后一个字的结束时间；

步骤6：根据修改后的新音频状态确定插入视频方式：

步骤6.1：对于修改后的新音频，若其长度T_nnew>T_old，则在视频中插入根据式(9)计算得出时长T_add的T_old时刻的影像冻结视频，生成新视频；否则，根据式(10)设置该段修改后的新音频播放速率R，生成新音频；

T_add＝(T_nnew-T_old) (9)

其中，T_nnew为修改后的新音频的长度，T_nnew通过解析视频内部的自带信息获取视频时长得到，T_old为原音频总长度，T_add为需要生成的T_old时刻的影像冻结视频长度，R为修改后的新音频播放速率；

步骤6.2：将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成，或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中，得到全新的视频，该视频即为替换后的新视频。

通过采用上述技术，与现有技术相比，本发明的有益效果为：

本发明通过记录语音识别时对应字的特征值，与之前特征值提取时按序对比，得到识别结果中每个字在音频中的起始时间与结束时间，并实现更改后的视频音画同步，可以在语音识别效果检测和视频制作领域起到巨大作用。

附图说明

图1为本发明的噪声频谱图的灰度图。

具体实施方式

下面结合实施例来详细阐述本发明的具体实施方式，但要发明的保护范围并不仅限于此。

本发明的基于语音识别的视频中音频流替换方法，具体包括如下步骤：

步骤1.2：根据式(2)计算每一帧的能量值，

步骤1.4：取音频起始处50帧的语音作为背景音，将所取的50帧的语音以每组10帧分为5组，对每组的语音帧进行傅里叶变换，求得每组的频谱，并求5组的频谱平均值，得到10帧长度的频谱作为噪声频谱；对整个音频的全部语音进行傅里叶变换求出频谱，使用噪声频谱进行补偿，即两者相减，再使用傅里叶逆变换得到正常的降噪后的音频，其中噪声频谱图如图1所示，为使图明显，此处噪声频谱图时长为3s；

S^*＝arg max P(S|C) (3)

T_ib＝T_b+(N_ib-1)*t (4)

T_ie＝T_b+N_ie*t (5)

步骤5.2：将根据演讲者语速进行更改：

步骤6：根据修改后的新音频状态确定插入视频方式：

步骤6.1：对于修改后的新音频，若其长度T_nnew>T_old，则在视频中插入根据式(9)计算得出时长_Tadd的T_old时刻的影像冻结视频，生成新视频；否则，根据式(10)设置该段修改后的新音频播放速率R，生成新音频；

T_add＝(T_nnew-T_old) (9)

步骤6.2：将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成，或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中，得到全新的视频，该视频即为替换后的新视频

本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。