CN113179444A - 一种基于语音识别的音字同步方法 - Google Patents

一种基于语音识别的音字同步方法 Download PDF

Info

Publication number
CN113179444A
CN113179444A CN202110427067.3A CN202110427067A CN113179444A CN 113179444 A CN113179444 A CN 113179444A CN 202110427067 A CN202110427067 A CN 202110427067A CN 113179444 A CN113179444 A CN 113179444A
Authority
CN
China
Prior art keywords
audio
frame
voice
time
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110427067.3A
Other languages
English (en)
Other versions
CN113179444B (zh
Inventor
张鑫晟
潘晨高
沈童
徐浩然
王英钒
高飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110427067.3A priority Critical patent/CN113179444B/zh
Publication of CN113179444A publication Critical patent/CN113179444A/zh
Application granted granted Critical
Publication of CN113179444B publication Critical patent/CN113179444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Abstract

本发明公开了一种基于语音识别的音字同步方法。该方法首先通过对音频进行端点检测得到音频中人说话的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值判断该字的起止时间,当音频当前播放时间与起始时间相同时,利用Vue的双向绑定机制在屏幕中显示该字。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间,并实现音字完全同步显示,可以在语音识别效果检测和视频制作领域起到巨大作用。

Description

一种基于语音识别的音字同步方法
技术领域
本发明属于语音识别技术领域,涉及一种基于语音识别的音字同步方法,具体是一种通过音频分析计算每字起止时间以实现文字显示与声音完全同步的方法。
背景技术
随着我国智能技术的飞速发展,语音识别技术的提高对于许多技术来说显得尤为重要,语音识别技术也得到了飞速的发展。但是语音识别技术的发展多见于不同语种的识别,不同的识别方式,通过各种方法来达到更好的识别效果与更快的识别速度以及更广的识别范围,但是缺乏一种技术的研究方向是识别的同时给出每一个字在音频中的时间,现有技术中只能给出一段话在音频中的时间。本发明的目的正是为了解决这个问题,以实现识别出的文字显示与说话人吐字同步,同时本技术也可应用到更广泛的领域中。
发明内容
本发明为解决现有技术中存在的问题,在语音识别时得到单个字在音频中的起始时间与结束时间,并实现文字显示与声音同步,借此解决观看视频效果时无法使识别出的文字显示与说话人吐字同步问题。
本发明公开的一种基于语音识别的音字同步方法,包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1) 计算每一帧的时长,最后将每一帧乘上汉明窗;
Figure RE-GDA0003115422200000021
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数, v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
Figure RE-GDA0003115422200000022
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率, N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间代表人说这句话的时间,一对前后端点间表示这句话;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50 帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频,其中噪声频谱图如图1所示,为使图明显,此处噪声频谱图时长为3s;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:将文字显示与语音完全同步,具体为:
步骤5.1:在VUE框架中通过操作DOM的duration函数获得音频的总时长T1,单位为ms,在视频开始播放时,操作DOM的oncanplay 函数传递T1触发事件A,其中,事件A表示将显示的文本清空;
步骤5.2:将每个字按起始时间进行升序排序,令持续时间T2=结束时间-起始时间,通过currentTime函数获得音频当前播放时间T3
步骤5.3:设置标识位Tn=0,令Tn自增,若满足Tn=T3且与当前对象的begintime属性相同时,表示当前字的视频与音频同步,开始显示文字,触发vue中通过watch监听的order数值,order表示当前话语的顺序号(即当前视频中的第几句话),order数值发生变化时,将当前这句话赋值给在页面中显示的字符串,通过JavaScript的 setTimeout函数将该字显示时间为持续时间T2,单位为毫秒;
步骤5.4:根据步骤1.3得到的该句话的结束时间T4,若Tn≠T4则认定这句话未说完,将与下一个字出现的起始时间之间的时间作无效处理,即不采取任何操作;若Tn=T4,则将显示文本清空,重复步骤5.4,进行下一句话的显示,从而利用VUE的双向绑定完成文字显示与语音的完全同步。
通过采用上述技术,与现有技术相比,本发明的有益效果为:
本发明通过记录语音识别时对应字的特征值,与之前特征值提取时按序对比,得到识别结果中每个字在音频中的起始时间与结束时间,并实现音字同步,可以在语音识别效果检测和视频制作领域起到巨大作用。
附图说明
图1为本发明的噪声频谱图的灰度图;
图2为音字同步后,说话人刚说到“那集合”三字时效果示意图;
图3为图1经过1s左右说话人继续说话后的效果示意图。
具体实施方式
下面结合实施例来详细阐述本发明的音字同步方法的具体实施方式。
如图1-3所示,本发明公开的基于语音识别的音字显示同步方法,首先通过对待处理视频中的音频进行提取,并进行端点检测得到音频中人说话的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值判断该字的起止时间,当音频当前播放时间与起始时间相同时,利用Vue的双向绑定机制在屏幕中显示该字,具体包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1) 计算每一帧的时长;最后将每一帧乘上汉明窗;
Figure RE-GDA0003115422200000051
其中,T为音频帧时长,n为一个AAC帧对应的采样点个数,v为采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
Figure RE-GDA0003115422200000052
其中,En为第n帧的能量,xni为第n帧第i个采样点的频率;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间代表人说这句话的时间,一对前后端点间表示这句话;
步骤1.4:取音频起始处50帧的语音作为背景音,将这50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换求频谱,并对这些组的频谱求平均,对全部语音进行傅里叶变换求出频谱后使用噪声频谱进行补偿,即两者相减,然后使用傅里叶逆变换即得到正常的降噪后的音频,其中噪声频谱图如图1所示,为使图明显,此处噪声频谱图时长为3s;
步骤2:对音频进行特征值提取,具体为:对于处理过的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci
S*=arg max P(S|C) (3)
其中,C表示输入的语音特征,S表示输入的语单特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的特征值C按序进行对比,按序找到每个Ci所在位置得到每个字所占的帧的位置,然后根据式(4)和 (5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:将文字显示与语音完全同步,具体为:
步骤5.1:在VUE框架中通过操作DOM的duration函数获得音频的总时长T1,单位为ms,在视频开始播放时,操作DOM的oncanplay 函数传递T1触发事件A,其中,事件A表示将显示的文本清空;
步骤5.2:将每个字按起始时间进行升序排序,令持续时间T2=结束时间-起始时间,通过currentTime函数获得音频当前播放时间T3
步骤5.3:设置标识位Tn=0,令Tn自增,若满足Tn=T3且与当前对象的begintime属性相同时,表示当前字的视频与音频同步,开始显示文字,触发vue中通过watch监听的order数值,order表示当前话语的顺序号(即当前视频中的第几句话),order数值发生变化时,将当前这句话赋值给在页面中显示的字符串,通过JavaScript的 setTimeout函数将该字显示时间为持续时间T2,单位为毫秒;
步骤5.4:根据步骤1.3得到的该句话的结束时间T4,若Tn≠T4则认定这句话未说完,将与下一个字出现的起始时间之间的时间作无效处理,即不采取任何操作;若Tn=T4,则将显示文本清空,重复步骤 5.4,进行下一句话的显示,从而利用VUE的双向绑定完成文字显示与语音的完全同步;得到的效果示意图如图2、图3所示,两张图对应的视频时间点不同,图2为说话人刚说完文字段“那集合”的显示效果,图3为说话人继续说话1s过程中依次显示的“有什么,集合干什么”。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

Claims (2)

1.基于语音识别的音字显示同步方法,其特征在于首先通过对待处理视频中的音频进行提取,并进行端点检测得到音频中人说话的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值判断该字的起止时间,当音频当前播放时间与起始时间相同时,利用Vue的双向绑定机制在屏幕中显示该字。
2.根据权利要求1所述的基于语音识别的音字显示同步方法,其特征在于具体包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
Figure FDA0003029950620000011
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
Figure FDA0003029950620000012
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间代表人说这句话的时间,一对前后端点间表示这句话;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci
S*=arg maxP(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:将文字显示与语音完全同步,具体为:
步骤5.1:在VUE框架中通过操作DOM的duration函数获得音频的总时长T1,单位为ms,在视频开始播放时,操作DOM的oncanplay函数传递T1触发事件A,其中,事件A表示将显示的文本清空;
步骤5.2:将每个字按起始时间进行升序排序,令持续时间T2=结束时间-起始时间,通过currentTime函数获得音频当前播放时间T3
步骤5.3:设置标识位Tn=0,令Tn自增,若满足Tn=T3且与当前对象的begintime属性相同时,表示当前字的视频与音频同步,开始显示文字,触发vue中通过watch监听的order数值,order表示当前话语的顺序号(即当前视频中的第几句话),order数值发生变化时,将当前这句话赋值给在页面中显示的字符串,通过JavaScript的setTimeout函数将该字显示时间为持续时间T2,单位为毫秒;
步骤5.4:根据步骤1.3得到的该句话的结束时间T4,若Tn≠T4则认定这句话未说完,将与下一个字出现的起始时间之间的时间作无效处理,即不采取任何操作;若Tn=T4,则将显示文本清空,重复步骤5.4,进行下一句话的显示,从而利用VUE的双向绑定完成文字显示与语音的完全同步。
CN202110427067.3A 2021-04-20 2021-04-20 一种基于语音识别的音字同步方法 Active CN113179444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110427067.3A CN113179444B (zh) 2021-04-20 2021-04-20 一种基于语音识别的音字同步方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110427067.3A CN113179444B (zh) 2021-04-20 2021-04-20 一种基于语音识别的音字同步方法

Publications (2)

Publication Number Publication Date
CN113179444A true CN113179444A (zh) 2021-07-27
CN113179444B CN113179444B (zh) 2022-05-17

Family

ID=76923915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110427067.3A Active CN113179444B (zh) 2021-04-20 2021-04-20 一种基于语音识别的音字同步方法

Country Status (1)

Country Link
CN (1) CN113179444B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689862A (zh) * 2021-08-23 2021-11-23 南京优飞保科信息技术有限公司 一种客服坐席语音数据的质检方法和系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1932976A (zh) * 2006-09-18 2007-03-21 北京北大方正电子有限公司 一种实现视音频处理中字幕与语音同步的方法和系统
JP2007256482A (ja) * 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
CN101615417A (zh) * 2009-07-24 2009-12-30 北京海尔集成电路设计有限公司 一种精确到字的中文同步显示歌词方法
JP2012068354A (ja) * 2010-09-22 2012-04-05 National Institute Of Information & Communication Technology 音声認識装置、音声認識方法、及びプログラム
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108259965A (zh) * 2018-03-31 2018-07-06 湖南广播电视台广播传媒中心 一种视频剪辑方法和剪辑系统
CN108449629A (zh) * 2018-03-31 2018-08-24 湖南广播电视台广播传媒中心 一种音频的语音与文字同步方法及剪辑方法和剪辑系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007256482A (ja) * 2006-03-22 2007-10-04 Fujitsu Ltd 音声認識装置、音声認識方法、及びコンピュータプログラム
CN1932976A (zh) * 2006-09-18 2007-03-21 北京北大方正电子有限公司 一种实现视音频处理中字幕与语音同步的方法和系统
CN101615417A (zh) * 2009-07-24 2009-12-30 北京海尔集成电路设计有限公司 一种精确到字的中文同步显示歌词方法
JP2012068354A (ja) * 2010-09-22 2012-04-05 National Institute Of Information & Communication Technology 音声認識装置、音声認識方法、及びプログラム
CN104835498A (zh) * 2015-05-25 2015-08-12 重庆大学 基于多类型组合特征参数的声纹识别方法
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN108259965A (zh) * 2018-03-31 2018-07-06 湖南广播电视台广播传媒中心 一种视频剪辑方法和剪辑系统
CN108449629A (zh) * 2018-03-31 2018-08-24 湖南广播电视台广播传媒中心 一种音频的语音与文字同步方法及剪辑方法和剪辑系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689862A (zh) * 2021-08-23 2021-11-23 南京优飞保科信息技术有限公司 一种客服坐席语音数据的质检方法和系统
CN113689862B (zh) * 2021-08-23 2024-03-22 南京优飞保科信息技术有限公司 一种客服坐席语音数据的质检方法和系统

Also Published As

Publication number Publication date
CN113179444B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
CN101625857B (zh) 一种自适应的语音端点检测方法
WO2017084360A1 (zh) 一种用于语音识别方法及系统
CN111508498A (zh) 对话式语音识别方法、系统、电子设备和存储介质
CN108831463B (zh) 唇语合成方法、装置、电子设备及存储介质
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN101625860B (zh) 语音端点检测中的背景噪声自适应调整方法
CN106548775B (zh) 一种语音识别方法和系统
CN101625858B (zh) 语音端点检测中短时能频值的提取方法
CN106782508A (zh) 语音音频的切分方法和语音音频的切分装置
JP3908965B2 (ja) 音声認識装置及び音声認識方法
CN101625862A (zh) 自动字幕生成系统中语音区间的检测方法
CN113179444B (zh) 一种基于语音识别的音字同步方法
CN108682432B (zh) 语音情感识别装置
CN114613389A (zh) 一种基于改进mfcc的非语音类音频特征提取方法
Mousa Voice conversion using pitch shifting algorithm by time stretching with PSOLA and re-sampling
CN111081249A (zh) 一种模式选择方法、装置及计算机可读存储介质
Gabrea et al. Detection of filled pauses in spontaneous conversational speech
JP3081108B2 (ja) 話者分類処理装置及び方法
CN104064197B (zh) 一种基于语音帧间动态信息提高语音识别鲁棒性的方法
CN113179442B (zh) 一种基于语音识别的视频中音频流替换方法
CN112700520B (zh) 基于共振峰的口型表情动画生成方法、装置及存储介质
Fu et al. Classification of voiceless fricatives through spectral moments
Li et al. Characteristics-based effective applause detection for meeting speech
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法
CN109346105B (zh) 直接显示基音周期轨迹的基音周期谱图方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant