CN113179442B - 一种基于语音识别的视频中音频流替换方法 - Google Patents
一种基于语音识别的视频中音频流替换方法 Download PDFInfo
- Publication number
- CN113179442B CN113179442B CN202110425839.XA CN202110425839A CN113179442B CN 113179442 B CN113179442 B CN 113179442B CN 202110425839 A CN202110425839 A CN 202110425839A CN 113179442 B CN113179442 B CN 113179442B
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- video
- time
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000001514 detection method Methods 0.000 claims abstract description 6
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000012986 modification Methods 0.000 claims description 6
- 230000004048 modification Effects 0.000 claims description 6
- 238000007710 freezing Methods 0.000 claims description 3
- 238000003780 insertion Methods 0.000 claims description 3
- 230000037431 insertion Effects 0.000 claims description 3
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 3
- 238000004519 manufacturing process Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/043—Time compression or expansion by changing speed
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Quality & Reliability (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本发明公开了一种基于语音识别的视频中音频流替换方法。所述方法为:首先通过对音频进行端点检测得到音频中人说的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值得出该字的起止时间,通过计算该演讲者的语音特征和机器合成的音频进行合成,实现视频中的音频流替换过程。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间,得到识别结果中每个字在音频中的起始时间与结束时间,通过计算使得视频中音频流替换更加科学准确,可以在语音识别效果检测和视频制作领域起到巨大作用。
Description
技术领域
本发明属于语音识别技术领域,涉及一种基于语音识别的视频中音频流替换方法,具体是通过音频分析计算每字起止时间,以实现当视频中音频流部分改变时可以使得新生成音频无缝替换原视频中对应音频的方法。
背景技术
近年来,随着自然语言处理技术的发展,智能语音识别和语音合成技术逐渐投入到生产生活中。但是语音识别技术的发展多见于不同语种的识别,不同的识别方式,通过各种方法来达到更好的识别效果与更快的识别速度以及更广的识别范围。对于一个含有对话、演讲等内容的视频而言,要想在不改变视频流的基础上,用几乎无痕的方式修改其中的音频,是非常困难的,其中的最大的一个难点就在于如何将合成的音频流恰好地重新嵌入回视频中。
为解决音频流替换的问题,学术界、工业界提出了很多方案,其中与本发明较为接近的技术方案有:专利公开号为CN 110019961A的发明专利中,通过语音识别、获取音频流的语音特征和语音合成的方法来修改视频流中的音频流,但是该专利中,没有对合成的音频再进行修改,可能会导致视频的剪辑痕迹重,在单个字上音画不同步等问题。
本方法就能够通过精准识别单个字音频的起止时间,再修改合成的音频流,达成音频流的无痕修改。
发明内容
针对现有技术中存在的上述问题,本发明的目的在于提供一种基于语音识别的视频中音频流替换方法,该方法为在语音识别时得到单个字在音频中的起始时间与结束时间,依托此技术通过判断修改前后音频流中不同,选择执行不同操作以实现当视频中音频流部分改变时将新生成音频无缝替换原视频中对应音频的操作。
本发明公开的一种基于语音识别的视频中音频流替换方法,包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间就代表人停顿间说话的时间;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci;
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te,将计算得到的两个指标值作为演讲者语速特征的关键指标并记录:
其中,Tib表示第i个字的起始时间,Tie表示第i个字的结束时间;
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成Nnew个音频,再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率,具体为:
并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频,得到中间音频,再在中间音频的两端分别插入时长为T1b和(Told-TNe)的两段空白音频,得到修改后的新音频;其中,Told为原音频总长度,TNe表示最后一个字的结束时间;
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度Tnnew>Told,则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频,生成新视频;否则,根据式(10)设置该段修改后的新音频播放速率R,生成新音频;
Tadd=(Tnnew-Told) (9)
其中,Tnnew为修改后的新音频的长度,Tnnew通过解析视频内部的自带信息获取视频时长得到,Told为原音频总长度,Tadd为需要生成的Told时刻的影像冻结视频长度,R为修改后的新音频播放速率;
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频。
通过采用上述技术,与现有技术相比,本发明的有益效果为:
本发明通过记录语音识别时对应字的特征值,与之前特征值提取时按序对比,得到识别结果中每个字在音频中的起始时间与结束时间,并实现更改后的视频音画同步,可以在语音识别效果检测和视频制作领域起到巨大作用。
附图说明
图1为本发明的噪声频谱图的灰度图。
具体实施方式
下面结合实施例来详细阐述本发明的具体实施方式,但要发明的保护范围并不仅限于此。
本发明的基于语音识别的视频中音频流替换方法,具体包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间就代表人停顿间说话的时间;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频,其中噪声频谱图如图1所示,为使图明显,此处噪声频谱图时长为3s;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci;
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te,将计算得到的两个指标值作为演讲者语速特征的关键指标并记录:
其中,Tib表示第i个字的起始时间,Tie表示第i个字的结束时间;
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成Nnew个音频,再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率,具体为:
并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频,得到中间音频,再在中间音频的两端分别插入时长为T1b和(Told-TNe)的两段空白音频,得到修改后的新音频;其中,Told为原音频总长度,TNe表示最后一个字的结束时间;
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度Tnnew>Told,则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频,生成新视频;否则,根据式(10)设置该段修改后的新音频播放速率R,生成新音频;
Tadd=(Tnnew-Told) (9)
其中,Tnnew为修改后的新音频的长度,Tnnew通过解析视频内部的自带信息获取视频时长得到,Told为原音频总长度,Tadd为需要生成的Told时刻的影像冻结视频长度,R为修改后的新音频播放速率;
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (1)
1.一种基于语音识别的视频中音频流替换方法,包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,Ei表示第i帧的能量,xij表示第i帧第j个采样点的频率,n表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间就代表人停顿间说话的时间;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci;
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:根据原音频中每个字的起止时间确定演讲者语速并修改新音频语速:
步骤5.1:根据式(6)和(7)和步骤4结果推算演讲者发音持续时长Tc和字与字之间的停顿的平均时间Te,将计算得到的两个指标值作为演讲者语速特征的关键指标并记录:
其中,Tib表示第i个字的起始时间,Tie表示第i个字的结束时间;
步骤5.2:将根据演讲者语速进行更改:
对于待替换的音频,根据每个字的起止时间截取成Nnew个音频,再根据每个音频时长Ti、步骤5.1计算得出的Tc和式(8)设置该段音频播放速率,具体为:
并按照音频原有排列顺序在每两段音频之间插入时间长度为Te的空白音频,得到中间音频,再在中间音频的两端分别插入时长为T1b和(Told-TNe)的两段空白音频,得到修改后的新音频;其中,Told为原音频总长度,TNe表示最后一个字的结束时间;
步骤6:根据修改后的新音频状态确定插入视频方式:
步骤6.1:对于修改后的新音频,若其长度Tnnew>Told,则在视频中插入根据式(9)计算得出时长Tadd的Told时刻的影像冻结视频,生成新视频;否则,根据式(10)设置该段修改后的新音频播放速率R,生成新音频;
Tadd=(Tnnew-Told) (9)
其中,Tnnew为修改后的新音频的长度,Tnnew通过解析视频内部的自带信息获取视频时长得到,Told为原音频总长度,Tadd为需要生成的Told时刻的影像冻结视频长度,R为修改后的新音频播放速率;
步骤6.2:将步骤6.1生成的新视频与步骤5.2得到的修改后的新音频合成,或将步骤6.1生成的新音频嵌入步骤1中待处理的视频中,得到全新的视频,该视频即为替换后的新视频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110425839.XA CN113179442B (zh) | 2021-04-20 | 2021-04-20 | 一种基于语音识别的视频中音频流替换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110425839.XA CN113179442B (zh) | 2021-04-20 | 2021-04-20 | 一种基于语音识别的视频中音频流替换方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113179442A CN113179442A (zh) | 2021-07-27 |
CN113179442B true CN113179442B (zh) | 2022-04-29 |
Family
ID=76924396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110425839.XA Active CN113179442B (zh) | 2021-04-20 | 2021-04-20 | 一种基于语音识别的视频中音频流替换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113179442B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101534386A (zh) * | 2008-12-29 | 2009-09-16 | 北大方正集团有限公司 | 一种视频替换方法、视频播放系统及装置 |
CN101625858A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 语音端点检测中短时能频值的提取方法 |
CN103903612A (zh) * | 2014-03-26 | 2014-07-02 | 浙江工业大学 | 一种实时语音识别数字的方法 |
CN106782517A (zh) * | 2016-12-15 | 2017-05-31 | 咪咕数字传媒有限公司 | 一种语音音频关键词过滤方法及装置 |
CN110019961A (zh) * | 2017-08-24 | 2019-07-16 | 北京搜狗科技发展有限公司 | 视频处理方法和装置、用于视频处理的装置 |
CN112542174A (zh) * | 2020-12-25 | 2021-03-23 | 南京邮电大学 | 基于vad的多维特征参数声纹识别方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108806696B (zh) * | 2018-05-08 | 2020-06-05 | 平安科技(深圳)有限公司 | 建立声纹模型的方法、装置、计算机设备和存储介质 |
-
2021
- 2021-04-20 CN CN202110425839.XA patent/CN113179442B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101625858A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 语音端点检测中短时能频值的提取方法 |
CN101534386A (zh) * | 2008-12-29 | 2009-09-16 | 北大方正集团有限公司 | 一种视频替换方法、视频播放系统及装置 |
CN103903612A (zh) * | 2014-03-26 | 2014-07-02 | 浙江工业大学 | 一种实时语音识别数字的方法 |
CN106782517A (zh) * | 2016-12-15 | 2017-05-31 | 咪咕数字传媒有限公司 | 一种语音音频关键词过滤方法及装置 |
CN110019961A (zh) * | 2017-08-24 | 2019-07-16 | 北京搜狗科技发展有限公司 | 视频处理方法和装置、用于视频处理的装置 |
CN112542174A (zh) * | 2020-12-25 | 2021-03-23 | 南京邮电大学 | 基于vad的多维特征参数声纹识别方法 |
Non-Patent Citations (1)
Title |
---|
基于深度学习的说话人识别系统;张竞丹;《中国优秀硕士学位论文全文数据库信息科技辑》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113179442A (zh) | 2021-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105161093B (zh) | 一种判断说话人数目的方法及系统 | |
CN107610715B (zh) | 一种基于多种声音特征的相似度计算方法 | |
CN101625857B (zh) | 一种自适应的语音端点检测方法 | |
CN104272382B (zh) | 基于模板的个性化歌唱合成的方法和系统 | |
CN109767756B (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
CN108831463B (zh) | 唇语合成方法、装置、电子设备及存储介质 | |
CN101625858B (zh) | 语音端点检测中短时能频值的提取方法 | |
CN111508498A (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
Deshmukh et al. | Speech based emotion recognition using machine learning | |
CN110265063B (zh) | 一种基于固定时长语音情感识别序列分析的测谎方法 | |
CN112133277A (zh) | 样本生成方法及装置 | |
CN101625860A (zh) | 语音端点检测中的背景噪声自适应调整方法 | |
CN111951796A (zh) | 语音识别方法及装置、电子设备、存储介质 | |
CN108091340B (zh) | 声纹识别方法、声纹识别系统和计算机可读存储介质 | |
CN114613389A (zh) | 一种基于改进mfcc的非语音类音频特征提取方法 | |
CN101290775B (zh) | 一种快速实现语音信号变速的方法 | |
CN108986844B (zh) | 一种基于说话人语音特征的语音端点检测方法 | |
CN112700520B (zh) | 基于共振峰的口型表情动画生成方法、装置及存储介质 | |
CN113179442B (zh) | 一种基于语音识别的视频中音频流替换方法 | |
CN113179444B (zh) | 一种基于语音识别的音字同步方法 | |
JP3081108B2 (ja) | 話者分類処理装置及び方法 | |
CN112885318A (zh) | 多媒体数据生成方法、装置、电子设备及计算机存储介质 | |
CN112786071A (zh) | 面向语音交互场景语音片段的数据标注方法 | |
Fu et al. | Classification of voiceless fricatives through spectral moments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |