CN113179442A - 一种基于语音识别的视频中音频流替换方法 - Google Patents

一种基于语音识别的视频中音频流替换方法 Download PDF

Info

Publication number
CN113179442A
CN113179442A CN202110425839.XA CN202110425839A CN113179442A CN 113179442 A CN113179442 A CN 113179442A CN 202110425839 A CN202110425839 A CN 202110425839A CN 113179442 A CN113179442 A CN 113179442A
Authority
CN
China
Prior art keywords
audio
frame
video
time
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110425839.XA
Other languages
English (en)
Other versions
CN113179442B (zh
Inventor
徐浩然
沈童
潘晨高
张鑫晟
王英钒
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110425839.XA priority Critical patent/CN113179442B/zh
Publication of CN113179442A publication Critical patent/CN113179442A/zh
Application granted granted Critical
Publication of CN113179442B publication Critical patent/CN113179442B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/043Time compression or expansion by changing speed
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为:首先通过对音频进行端点检测得到音频中人说的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成,实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间,得到识别结果中每个字在音频中的起始时间与结束时间,通过计算使得视频中音频流替换更加科学准确,可以在语音识别效果检测和视频制作领域起到巨大作用。

Description

一种基于语音识别的视频中音频流替换方法
技术领域
本发明属于语音识别技术领域,涉及一种基于语音识别的视频中音频流替换方法,具体是通过音频分析计算每字起止时间,以实现当视频中音频流部分改变时可以使得新生成音频无缝替换原视频中对应音频的方法。
背景技术
近年来,随着自然语言处理技术的发展,智能语音识别和语音合成技术逐渐投入到生产生活中。但是语音识别技术的发展多见于不同语种的识别,不同的识别方式,通过各种方法来达到更好的识别效果与更快的识别速度以及更广的识别范围。对于一个含有对话、演讲等内容的视频而言,要想在不改变视频流的基础上,用几乎无痕的方式修改其中的音频,是非常困难的,其中的最大的一个难点就在于如何将合成的音频流恰好地重新嵌入回视频中。
为解决音频流替换的问题,学术界、工业界提出了很多方案,其中与本发明较为接近的技术方案有:专利公开号为CN 110019961A的发明专利中,通过语音识别、获取音频流的语音特征和语音合成的方法来修改视频流中的音频流,但是该专利中,没有对合成的音频再进行修改,可能会导致视频的剪辑痕迹重,在单个字上音画不同步等问题。
本方法就能够通过精准识别单个字音频的起止时间,再修改合成的音频流,达成音频流的无痕修改。
发明内容
针对现有技术中存在的上述问题,本发明的目的在于提供一种基于语音识别的视频中音频流替换方法,该方法为在语音识别时得到单个字在音频中的起始时间与结束时间,依托此技术通过判断修改前后音频流中不同,选择执行不同操作以实现当视频中音频流部分改变时将新生成音频无缝替换原视频中对应音频的操作。
本发明公开的一种基于语音识别的视频中音频流替换方法,包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
Figure BDA0003029529870000021
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
Figure BDA0003029529870000022
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间就代表人停顿间说话的时间;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te,将计算得到的两个指标值作为演讲者语速特征的关键指标并记录:
Figure BDA0003029529870000041
Figure BDA0003029529870000042
其中,Tib表示第i个字的起始时间,Tie表示第i个字的结束时间;
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成Nnew个音频,再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率,具体为:
Figure BDA0003029529870000043
并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频,得到中间音频,再在中间音频的两端分别插入时长为T1b和(Told-TNe)的两段空白音频,得到修改后的新音频;其中,Told为原音频总长度,TNe表示最后一个字的结束时间;
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度Tnnew>Told,则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频,生成新视频;否则,根据式(10)设置该段修改后的新音频播放速率R,生成新音频;
Tadd=(Tnnew-Told) (9)
Figure BDA0003029529870000051
其中,Tnnew为修改后的新音频的长度,Tnnew通过解析视频内部的自带信息获取视频时长得到,Told为原音频总长度,Tadd为需要生成的Told时刻的影像冻结视频长度,R为修改后的新音频播放速率;
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频。
通过采用上述技术,与现有技术相比,本发明的有益效果为:
本发明通过记录语音识别时对应字的特征值,与之前特征值提取时按序对比,得到识别结果中每个字在音频中的起始时间与结束时间,并实现更改后的视频音画同步,可以在语音识别效果检测和视频制作领域起到巨大作用。
附图说明
图1为本发明的噪声频谱图的灰度图。
具体实施方式
下面结合实施例来详细阐述本发明的具体实施方式,但要发明的保护范围并不仅限于此。
本发明的基于语音识别的视频中音频流替换方法,具体包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
Figure BDA0003029529870000052
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
Figure BDA0003029529870000061
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间就代表人停顿间说话的时间;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频,其中噪声频谱图如图1所示,为使图明显,此处噪声频谱图时长为3s;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te,将计算得到的两个指标值作为演讲者语速特征的关键指标并记录:
Figure BDA0003029529870000071
Figure BDA0003029529870000072
其中,Tib表示第i个字的起始时间,Tie表示第i个字的结束时间;
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成Nnew个音频,再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率,具体为:
Figure BDA0003029529870000081
并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频,得到中间音频,再在中间音频的两端分别插入时长为T1b和(Told-TNe)的两段空白音频,得到修改后的新音频;其中,Told为原音频总长度,TNe表示最后一个字的结束时间;
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度Tnnew>Told,则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频,生成新视频;否则,根据式(10)设置该段修改后的新音频播放速率R,生成新音频;
Tadd=(Tnnew-Told) (9)
Figure BDA0003029529870000082
其中,Tnnew为修改后的新音频的长度,Tnnew通过解析视频内部的自带信息获取视频时长得到,Told为原音频总长度,Tadd为需要生成的Told时刻的影像冻结视频长度,R为修改后的新音频播放速率;
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (1)

1.一种基于语音识别的视频中音频流替换方法,包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
Figure FDA0003029529860000011
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
Figure FDA0003029529860000012
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间就代表人停顿间说话的时间;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te,将计算得到的两个指标值作为演讲者语速特征的关键指标并记录:
Figure FDA0003029529860000031
Figure FDA0003029529860000032
其中,Tib表示第i个字的起始时间,Tie表示第i个字的结束时间;
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成Nnew个音频,再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率,具体为:
Figure FDA0003029529860000033
并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频,得到中间音频,再在中间音频的两端分别插入时长为T1b和(Told-TNe)的两段空白音频,得到修改后的新音频;其中,Told为原音频总长度,TNe表示最后一个字的结束时间;
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度Tnnew>Told,则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频,生成新视频;否则,根据式(10)设置该段修改后的新音频播放速率R,生成新音频;
Tadd=(Tnnew-Told) (9)
Figure FDA0003029529860000041
其中,Tnnew为修改后的新音频的长度,Tnnew通过解析视频内部的自带信息获取视频时长得到,Told为原音频总长度,Tadd为需要生成的Told时刻的影像冻结视频长度,R为修改后的新音频播放速率;
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频。
CN202110425839.XA 2021-04-20 2021-04-20 一种基于语音识别的视频中音频流替换方法 Active CN113179442B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110425839.XA CN113179442B (zh) 2021-04-20 2021-04-20 一种基于语音识别的视频中音频流替换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110425839.XA CN113179442B (zh) 2021-04-20 2021-04-20 一种基于语音识别的视频中音频流替换方法

Publications (2)

Publication Number Publication Date
CN113179442A true CN113179442A (zh) 2021-07-27
CN113179442B CN113179442B (zh) 2022-04-29

Family

ID=76924396

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110425839.XA Active CN113179442B (zh) 2021-04-20 2021-04-20 一种基于语音识别的视频中音频流替换方法

Country Status (1)

Country Link
CN (1) CN113179442B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101534386A (zh) * 2008-12-29 2009-09-16 北大方正集团有限公司 一种视频替换方法、视频播放系统及装置
CN101625858A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN103903612A (zh) * 2014-03-26 2014-07-02 浙江工业大学 一种实时语音识别数字的方法
CN106782517A (zh) * 2016-12-15 2017-05-31 咪咕数字传媒有限公司 一种语音音频关键词过滤方法及装置
CN110019961A (zh) * 2017-08-24 2019-07-16 北京搜狗科技发展有限公司 视频处理方法和装置、用于视频处理的装置
US20200294509A1 (en) * 2018-05-08 2020-09-17 Ping An Technology (Shenzhen) Co., Ltd. Method and apparatus for establishing voiceprint model, computer device, and storage medium
CN112542174A (zh) * 2020-12-25 2021-03-23 南京邮电大学 基于vad的多维特征参数声纹识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101625858A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN101534386A (zh) * 2008-12-29 2009-09-16 北大方正集团有限公司 一种视频替换方法、视频播放系统及装置
CN103903612A (zh) * 2014-03-26 2014-07-02 浙江工业大学 一种实时语音识别数字的方法
CN106782517A (zh) * 2016-12-15 2017-05-31 咪咕数字传媒有限公司 一种语音音频关键词过滤方法及装置
CN110019961A (zh) * 2017-08-24 2019-07-16 北京搜狗科技发展有限公司 视频处理方法和装置、用于视频处理的装置
US20200294509A1 (en) * 2018-05-08 2020-09-17 Ping An Technology (Shenzhen) Co., Ltd. Method and apparatus for establishing voiceprint model, computer device, and storage medium
CN112542174A (zh) * 2020-12-25 2021-03-23 南京邮电大学 基于vad的多维特征参数声纹识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张竞丹: "基于深度学习的说话人识别系统", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
CN113179442B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
CN101625857B (zh) 一种自适应的语音端点检测方法
CN107610715B (zh) 一种基于多种声音特征的相似度计算方法
Molau et al. Computing mel-frequency cepstral coefficients on the power spectrum
US8170878B2 (en) Method and apparatus for automatically converting voice
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN108831463B (zh) 唇语合成方法、装置、电子设备及存储介质
CN111508498A (zh) 对话式语音识别方法、系统、电子设备和存储介质
WO2013133768A1 (en) Method and system for template-based personalized singing synthesis
CN112133277B (zh) 样本生成方法及装置
Deshmukh et al. Speech based emotion recognition using machine learning
CN110265063B (zh) 一种基于固定时长语音情感识别序列分析的测谎方法
CN101625858B (zh) 语音端点检测中短时能频值的提取方法
CN101625862B (zh) 自动字幕生成系统中语音区间的检测方法
CN101625860A (zh) 语音端点检测中的背景噪声自适应调整方法
CN111951796A (zh) 语音识别方法及装置、电子设备、存储介质
CN114613389A (zh) 一种基于改进mfcc的非语音类音频特征提取方法
CN108986844B (zh) 一种基于说话人语音特征的语音端点检测方法
CN114283822A (zh) 一种基于伽马通频率倒谱系数的多对一语音转换方法
CN113179442B (zh) 一种基于语音识别的视频中音频流替换方法
CN113179444B (zh) 一种基于语音识别的音字同步方法
JP3081108B2 (ja) 話者分類処理装置及び方法
CN112885318A (zh) 多媒体数据生成方法、装置、电子设备及计算机存储介质
CN112700520B (zh) 基于共振峰的口型表情动画生成方法、装置及存储介质
Fu et al. Classification of voiceless fricatives through spectral moments
CN110634473A (zh) 一种基于mfcc的语音数字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant