CN113179444A - 一种基于语音识别的音字同步方法 - Google Patents
一种基于语音识别的音字同步方法 Download PDFInfo
- Publication number
- CN113179444A CN113179444A CN202110427067.3A CN202110427067A CN113179444A CN 113179444 A CN113179444 A CN 113179444A CN 202110427067 A CN202110427067 A CN 202110427067A CN 113179444 A CN113179444 A CN 113179444A
- Authority
- CN
- China
- Prior art keywords
- audio
- frame
- voice
- time
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/4302—Content synchronisation processes, e.g. decoder synchronisation
- H04N21/4307—Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440236—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/47—End-user applications
- H04N21/488—Data services, e.g. news ticker
- H04N21/4884—Data services, e.g. news ticker for displaying subtitles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/04—Synchronising
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/222—Studio circuitry; Studio devices; Studio equipment
- H04N5/262—Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
- H04N5/278—Subtitling
Abstract
本发明公开了一种基于语音识别的音字同步方法。该方法首先通过对音频进行端点检测得到音频中人说话的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值判断该字的起止时间,当音频当前播放时间与起始时间相同时,利用Vue的双向绑定机制在屏幕中显示该字。本发明能够得到语音识别结果中每个字在音频中的起始时间与结束时间,并实现音字完全同步显示,可以在语音识别效果检测和视频制作领域起到巨大作用。
Description
技术领域
本发明属于语音识别技术领域,涉及一种基于语音识别的音字同步方法,具体是一种通过音频分析计算每字起止时间以实现文字显示与声音完全同步的方法。
背景技术
随着我国智能技术的飞速发展,语音识别技术的提高对于许多技术来说显得尤为重要,语音识别技术也得到了飞速的发展。但是语音识别技术的发展多见于不同语种的识别,不同的识别方式,通过各种方法来达到更好的识别效果与更快的识别速度以及更广的识别范围,但是缺乏一种技术的研究方向是识别的同时给出每一个字在音频中的时间,现有技术中只能给出一段话在音频中的时间。本发明的目的正是为了解决这个问题,以实现识别出的文字显示与说话人吐字同步,同时本技术也可应用到更广泛的领域中。
发明内容
本发明为解决现有技术中存在的问题,在语音识别时得到单个字在音频中的起始时间与结束时间,并实现文字显示与声音同步,借此解决观看视频效果时无法使识别出的文字显示与说话人吐字同步问题。
本发明公开的一种基于语音识别的音字同步方法,包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1) 计算每一帧的时长,最后将每一帧乘上汉明窗;
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数, v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率, N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间代表人说这句话的时间,一对前后端点间表示这句话;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50 帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频,其中噪声频谱图如图1所示,为使图明显,此处噪声频谱图时长为3s;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci;
S*=arg max P(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:将文字显示与语音完全同步,具体为:
步骤5.1:在VUE框架中通过操作DOM的duration函数获得音频的总时长T1,单位为ms,在视频开始播放时,操作DOM的oncanplay 函数传递T1触发事件A,其中,事件A表示将显示的文本清空;
步骤5.2:将每个字按起始时间进行升序排序,令持续时间T2=结束时间-起始时间,通过currentTime函数获得音频当前播放时间T3;
步骤5.3:设置标识位Tn=0,令Tn自增,若满足Tn=T3且与当前对象的begintime属性相同时,表示当前字的视频与音频同步,开始显示文字,触发vue中通过watch监听的order数值,order表示当前话语的顺序号(即当前视频中的第几句话),order数值发生变化时,将当前这句话赋值给在页面中显示的字符串,通过JavaScript的 setTimeout函数将该字显示时间为持续时间T2,单位为毫秒;
步骤5.4:根据步骤1.3得到的该句话的结束时间T4,若Tn≠T4则认定这句话未说完,将与下一个字出现的起始时间之间的时间作无效处理,即不采取任何操作;若Tn=T4,则将显示文本清空,重复步骤5.4,进行下一句话的显示,从而利用VUE的双向绑定完成文字显示与语音的完全同步。
通过采用上述技术,与现有技术相比,本发明的有益效果为:
本发明通过记录语音识别时对应字的特征值,与之前特征值提取时按序对比,得到识别结果中每个字在音频中的起始时间与结束时间,并实现音字同步,可以在语音识别效果检测和视频制作领域起到巨大作用。
附图说明
图1为本发明的噪声频谱图的灰度图;
图2为音字同步后,说话人刚说到“那集合”三字时效果示意图;
图3为图1经过1s左右说话人继续说话后的效果示意图。
具体实施方式
下面结合实施例来详细阐述本发明的音字同步方法的具体实施方式。
如图1-3所示,本发明公开的基于语音识别的音字显示同步方法,首先通过对待处理视频中的音频进行提取,并进行端点检测得到音频中人说话的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值判断该字的起止时间,当音频当前播放时间与起始时间相同时,利用Vue的双向绑定机制在屏幕中显示该字,具体包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1) 计算每一帧的时长;最后将每一帧乘上汉明窗;
其中,T为音频帧时长,n为一个AAC帧对应的采样点个数,v为采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,En为第n帧的能量,xni为第n帧第i个采样点的频率;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间代表人说这句话的时间,一对前后端点间表示这句话;
步骤1.4:取音频起始处50帧的语音作为背景音,将这50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换求频谱,并对这些组的频谱求平均,对全部语音进行傅里叶变换求出频谱后使用噪声频谱进行补偿,即两者相减,然后使用傅里叶逆变换即得到正常的降噪后的音频,其中噪声频谱图如图1所示,为使图明显,此处噪声频谱图时长为3s;
步骤2:对音频进行特征值提取,具体为:对于处理过的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci;
S*=arg max P(S|C) (3)
其中,C表示输入的语音特征,S表示输入的语单特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的特征值C按序进行对比,按序找到每个Ci所在位置得到每个字所占的帧的位置,然后根据式(4)和 (5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:将文字显示与语音完全同步,具体为:
步骤5.1:在VUE框架中通过操作DOM的duration函数获得音频的总时长T1,单位为ms,在视频开始播放时,操作DOM的oncanplay 函数传递T1触发事件A,其中,事件A表示将显示的文本清空;
步骤5.2:将每个字按起始时间进行升序排序,令持续时间T2=结束时间-起始时间,通过currentTime函数获得音频当前播放时间T3;
步骤5.3:设置标识位Tn=0,令Tn自增,若满足Tn=T3且与当前对象的begintime属性相同时,表示当前字的视频与音频同步,开始显示文字,触发vue中通过watch监听的order数值,order表示当前话语的顺序号(即当前视频中的第几句话),order数值发生变化时,将当前这句话赋值给在页面中显示的字符串,通过JavaScript的 setTimeout函数将该字显示时间为持续时间T2,单位为毫秒;
步骤5.4:根据步骤1.3得到的该句话的结束时间T4,若Tn≠T4则认定这句话未说完,将与下一个字出现的起始时间之间的时间作无效处理,即不采取任何操作;若Tn=T4,则将显示文本清空,重复步骤 5.4,进行下一句话的显示,从而利用VUE的双向绑定完成文字显示与语音的完全同步;得到的效果示意图如图2、图3所示,两张图对应的视频时间点不同,图2为说话人刚说完文字段“那集合”的显示效果,图3为说话人继续说话1s过程中依次显示的“有什么,集合干什么”。
本说明书实施例所述的内容仅仅是对发明构思的实现形式的列举,本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式,本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。
Claims (2)
1.基于语音识别的音字显示同步方法,其特征在于首先通过对待处理视频中的音频进行提取,并进行端点检测得到音频中人说话的前后端点,然后对音频进行降噪提取特征值,再通过声音模型和语言模型进行语音识别,然后根据识别出的字的特征值判断该字的起止时间,当音频当前播放时间与起始时间相同时,利用Vue的双向绑定机制在屏幕中显示该字。
2.根据权利要求1所述的基于语音识别的音字显示同步方法,其特征在于具体包括如下步骤:
步骤1:提取待处理的视频中的音频,并对所提取的音频进行端点检测、降噪,具体为:
步骤1.1:首先将音频按照时长与采样率进行分帧,根据式(1)计算每一帧的时长,最后将每一帧乘上汉明窗;
其中,T表示音频帧时长,n表示一个AAC帧对应的采样点个数,v表示采样频率;
步骤1.2:根据式(2)计算每一帧的能量值,
其中,En表示第n帧的能量,xni表示第n帧第i个采样点的频率,N表示每帧采样点的总数;
步骤1.3:根据步骤1.2得到的能量值计算出前10帧的平均能量值Ea,若存在某一帧满足它之前连续100帧每帧的能量值小于Ea且之后连续100帧每帧能量值大于Ea,则将该帧的起始时刻作为前端点,反之将该帧的结束时刻作为后端点,一对前后端点间的时间代表人说这句话的时间,一对前后端点间表示这句话;
步骤1.4:取音频起始处50帧的语音作为背景音,将所取的50帧的语音以每组10帧分为5组,对每组的语音帧进行傅里叶变换,求得每组的频谱,并求5组的频谱平均值,得到10帧长度的频谱作为噪声频谱;对整个音频的全部语音进行傅里叶变换求出频谱,使用噪声频谱进行补偿,即两者相减,再使用傅里叶逆变换得到正常的降噪后的音频;
步骤2:对音频进行特征值提取,具体为:对步骤1)降噪后的音频进行MFCC语音特征提取,通过预加重、分帧、加窗、离散傅里叶变换、应用Mel滤波器、对频谱离散余弦变换和动态差分参数提取,得到每一帧音频的特征值C;
步骤3:通过声音模型和语言模型识别音频中的语音,具体为:根据式(3)求出语音对应概率最高的文本段,记录对应于每个字发音的特征值Ci;
S*=arg maxP(S|C) (3)
其中,C表示输入的音频的特征值,S表示输入的语音特征C对应的概率,S*表示计算得到的最高的文本段概率;
步骤4:根据特征值得出每个字的起止时间,具体为:根据每个字发音的特征值Ci,与步骤2中得到的每一帧音频的特征值C按序进行对比,按序找到每个Ci所在位置,得到每个字所占的帧的位置,再根据式(4)和(5)计算第i个字的起始时间和结束时间;
Tib=Tb+(Nib-1)*t (4)
Tie=Tb+Nie*t (5)
其中,Tib表示第i个字的起始时间,Tb表示前端点对应时间,Nib表示第i个字的起始帧为该段语音的第几帧,t表示每一帧对应原音频的长度,Tie表示第i个字的结束时间,Nie表示第i个字的结束帧为该段语音的第几帧;
步骤5:将文字显示与语音完全同步,具体为:
步骤5.1:在VUE框架中通过操作DOM的duration函数获得音频的总时长T1,单位为ms,在视频开始播放时,操作DOM的oncanplay函数传递T1触发事件A,其中,事件A表示将显示的文本清空;
步骤5.2:将每个字按起始时间进行升序排序,令持续时间T2=结束时间-起始时间,通过currentTime函数获得音频当前播放时间T3;
步骤5.3:设置标识位Tn=0,令Tn自增,若满足Tn=T3且与当前对象的begintime属性相同时,表示当前字的视频与音频同步,开始显示文字,触发vue中通过watch监听的order数值,order表示当前话语的顺序号(即当前视频中的第几句话),order数值发生变化时,将当前这句话赋值给在页面中显示的字符串,通过JavaScript的setTimeout函数将该字显示时间为持续时间T2,单位为毫秒;
步骤5.4:根据步骤1.3得到的该句话的结束时间T4,若Tn≠T4则认定这句话未说完,将与下一个字出现的起始时间之间的时间作无效处理,即不采取任何操作;若Tn=T4,则将显示文本清空,重复步骤5.4,进行下一句话的显示,从而利用VUE的双向绑定完成文字显示与语音的完全同步。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427067.3A CN113179444B (zh) | 2021-04-20 | 2021-04-20 | 一种基于语音识别的音字同步方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110427067.3A CN113179444B (zh) | 2021-04-20 | 2021-04-20 | 一种基于语音识别的音字同步方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113179444A true CN113179444A (zh) | 2021-07-27 |
CN113179444B CN113179444B (zh) | 2022-05-17 |
Family
ID=76923915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110427067.3A Active CN113179444B (zh) | 2021-04-20 | 2021-04-20 | 一种基于语音识别的音字同步方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113179444B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689862A (zh) * | 2021-08-23 | 2021-11-23 | 南京优飞保科信息技术有限公司 | 一种客服坐席语音数据的质检方法和系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1932976A (zh) * | 2006-09-18 | 2007-03-21 | 北京北大方正电子有限公司 | 一种实现视音频处理中字幕与语音同步的方法和系统 |
JP2007256482A (ja) * | 2006-03-22 | 2007-10-04 | Fujitsu Ltd | 音声認識装置、音声認識方法、及びコンピュータプログラム |
CN101615417A (zh) * | 2009-07-24 | 2009-12-30 | 北京海尔集成电路设计有限公司 | 一种精确到字的中文同步显示歌词方法 |
JP2012068354A (ja) * | 2010-09-22 | 2012-04-05 | National Institute Of Information & Communication Technology | 音声認識装置、音声認識方法、及びプログラム |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN107799126A (zh) * | 2017-10-16 | 2018-03-13 | 深圳狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN108259965A (zh) * | 2018-03-31 | 2018-07-06 | 湖南广播电视台广播传媒中心 | 一种视频剪辑方法和剪辑系统 |
CN108449629A (zh) * | 2018-03-31 | 2018-08-24 | 湖南广播电视台广播传媒中心 | 一种音频的语音与文字同步方法及剪辑方法和剪辑系统 |
-
2021
- 2021-04-20 CN CN202110427067.3A patent/CN113179444B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007256482A (ja) * | 2006-03-22 | 2007-10-04 | Fujitsu Ltd | 音声認識装置、音声認識方法、及びコンピュータプログラム |
CN1932976A (zh) * | 2006-09-18 | 2007-03-21 | 北京北大方正电子有限公司 | 一种实现视音频处理中字幕与语音同步的方法和系统 |
CN101615417A (zh) * | 2009-07-24 | 2009-12-30 | 北京海尔集成电路设计有限公司 | 一种精确到字的中文同步显示歌词方法 |
JP2012068354A (ja) * | 2010-09-22 | 2012-04-05 | National Institute Of Information & Communication Technology | 音声認識装置、音声認識方法、及びプログラム |
CN104835498A (zh) * | 2015-05-25 | 2015-08-12 | 重庆大学 | 基于多类型组合特征参数的声纹识别方法 |
CN107799126A (zh) * | 2017-10-16 | 2018-03-13 | 深圳狗尾草智能科技有限公司 | 基于有监督机器学习的语音端点检测方法及装置 |
CN108259965A (zh) * | 2018-03-31 | 2018-07-06 | 湖南广播电视台广播传媒中心 | 一种视频剪辑方法和剪辑系统 |
CN108449629A (zh) * | 2018-03-31 | 2018-08-24 | 湖南广播电视台广播传媒中心 | 一种音频的语音与文字同步方法及剪辑方法和剪辑系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113689862A (zh) * | 2021-08-23 | 2021-11-23 | 南京优飞保科信息技术有限公司 | 一种客服坐席语音数据的质检方法和系统 |
CN113689862B (zh) * | 2021-08-23 | 2024-03-22 | 南京优飞保科信息技术有限公司 | 一种客服坐席语音数据的质检方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113179444B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101625857B (zh) | 一种自适应的语音端点检测方法 | |
WO2017084360A1 (zh) | 一种用于语音识别方法及系统 | |
CN111508498A (zh) | 对话式语音识别方法、系统、电子设备和存储介质 | |
CN108831463B (zh) | 唇语合成方法、装置、电子设备及存储介质 | |
US8489404B2 (en) | Method for detecting audio signal transient and time-scale modification based on same | |
CN101625860B (zh) | 语音端点检测中的背景噪声自适应调整方法 | |
CN106548775B (zh) | 一种语音识别方法和系统 | |
CN101625858B (zh) | 语音端点检测中短时能频值的提取方法 | |
CN106782508A (zh) | 语音音频的切分方法和语音音频的切分装置 | |
JP3908965B2 (ja) | 音声認識装置及び音声認識方法 | |
CN101625862A (zh) | 自动字幕生成系统中语音区间的检测方法 | |
CN113179444B (zh) | 一种基于语音识别的音字同步方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN114613389A (zh) | 一种基于改进mfcc的非语音类音频特征提取方法 | |
Mousa | Voice conversion using pitch shifting algorithm by time stretching with PSOLA and re-sampling | |
CN111081249A (zh) | 一种模式选择方法、装置及计算机可读存储介质 | |
Gabrea et al. | Detection of filled pauses in spontaneous conversational speech | |
JP3081108B2 (ja) | 話者分類処理装置及び方法 | |
CN104064197B (zh) | 一种基于语音帧间动态信息提高语音识别鲁棒性的方法 | |
CN113179442B (zh) | 一种基于语音识别的视频中音频流替换方法 | |
CN112700520B (zh) | 基于共振峰的口型表情动画生成方法、装置及存储介质 | |
Fu et al. | Classification of voiceless fricatives through spectral moments | |
Li et al. | Characteristics-based effective applause detection for meeting speech | |
CN112786071A (zh) | 面向语音交互场景语音片段的数据标注方法 | |
CN109346105B (zh) | 直接显示基音周期轨迹的基音周期谱图方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |