CN107154264A - 在线教学精彩片段提取的方法 - Google Patents
在线教学精彩片段提取的方法 Download PDFInfo
- Publication number
- CN107154264A CN107154264A CN201710350223.4A CN201710350223A CN107154264A CN 107154264 A CN107154264 A CN 107154264A CN 201710350223 A CN201710350223 A CN 201710350223A CN 107154264 A CN107154264 A CN 107154264A
- Authority
- CN
- China
- Prior art keywords
- frame
- wonderful
- extracted
- audio
- sound bite
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 239000012634 fragment Substances 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims description 28
- 235000013350 formula milk Nutrition 0.000 claims description 18
- 239000000203 mixture Substances 0.000 claims description 18
- 238000009432 framing Methods 0.000 claims description 13
- 238000001228 spectrum Methods 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012935 Averaging Methods 0.000 claims 1
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
- H04N21/4394—Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/44016—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种在线教学精彩片段提取的方法,构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语音特征库;提取精彩片段,解析上课媒体文件,获得音频原始文件;对音频文件预处理,剔除静音信息,获得多个音频片段;在每个音频片段中,与该节课对应的语音片段库中的信息进行特征匹配,匹配成功,则打点记录;根据打点记录,对每个打点记录之前的一定长度的音视频片段进行提取,形成精彩片段,将这些精彩片段进行拼接,形成最终的媒体文件。本发明在线教学精彩片段提取的方法,根据所运用的行业场景,将特征库细化,能够有效提升特征匹配的准确率,同时,由于针对特定对象进行特征匹配,也极大提升了匹配效率。
Description
技术领域
本发明涉及一种数据提取方法,具体的说,是涉及一种在线教学精彩 片段提取的方法。
背景技术
在当前的在线教育行业中,一对一上课是重要的教学方式之一,为了 保证教学体验,需要对上课内容进行录制,以便学生及家长课后回顾。
由于录制的课程媒体文件对存储量要求很大,而媒体文件自身包含了 很多冗余信息,对存储造成浪费,同时,学生回顾课程时,也只是希望回 顾重点或者精彩片段,而不是把一堂课重新再学一次,这就需要对上课的 录制内容进行精彩片段的分析和提取,最终仅保存最有价值、最精彩的上 课片段。
发明内容
针对上述现有技术中的不足,本发明提供一种的在线教学精彩片段提 取的方法。
本发明所采取的技术方案是:
一种在线教学精彩片段提取的方法,
构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语 音特征库;
提取精彩片段,解析上课媒体文件,获得音频原始文件;
对音频文件预处理,剔除静音信息,获得多个音频片段;
在每个音频片段中,与该节课对应的语音片段库中的信息进行特征匹 配,匹配成功,则打点记录;
根据打点记录,对每个打点记录之前的一定长度的音视频片段进行提 取,形成精彩片段,将这些精彩片段进行拼接,形成最终的媒体文件。
保存在语音特征库中的语音为Great、Good和Excellent。
制作语音特征库的方式如下:
获取语音片段方式包括:
提前录制好判定标准中各个单词的语音片段;
从先前媒体文件中提取判定标准中各个单词的语音片段;
语音片段预处理:基于音响大小,识别出静音成分,并去除静音成 分;
特征信息提取:对经处理过的语音片段进行分帧;
对每帧都提取梅尔频率倒谱系数及其一阶差分,组成24维的特征向 量,语音片段所有帧的特征向量组成特征向量集;
将特征向量集与特定单词的语音片段形成一一映射的关系;
将特征向量集、特征向量集对应的单词和老师的ID信息存入特征信 息库;
完成语音片段的特征信息库建立。
音频特征匹配步骤如下:
(1)对有效音频片段分帧,每帧长度40ms,对每帧提取梅尔频率倒 谱系数及其一阶差分组成的特征向量;
(2)将首帧的特征向量与特征信息库中各个特征向量集的首个特征 向量进行相关性计算,根据相关度判定匹配度,若不匹配,则进入(5);
(3)选定库中特征向量集,计算有效音频片段后续帧的特征向量; 与该特征向量集对应位置的特征向量进行匹配,如遇不匹配,则进入 (5),若全部匹配,则进入(4);
(4)说明该有效音频片段为精彩片段的响应,对该片段做打点记 录,记录包括该音频片段的时间戳及片段ID信息;
(5)若有效音频片段处理完成,则完成整个匹配过程,否则,选择 下一个有效音频片段,进入(1)。
语音片段预处理包括如下步骤:
a)预置静音振幅的阈值,用TThreshold来表示,取经验值0.03;
b)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧求平均振幅,计算公式如下:
其中,i为帧序号,N为每帧的采样点数 量,Amplitude(n)为帧内第n个采样点的振幅值,A为本帧的平 均振幅;
c)静音帧判决:条件(1)为有效语音帧,条 件(2)为静音帧;
d)对于每帧完成静音帧判决后,若为有效语音帧,则写入有效语 音片段文件,获得有效的语音片段。
所述特征信息提取步骤如下:
a)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧都进行离散傅里叶变换,变换公式如下:
其中i为帧序号,N为每帧的采样 点数;
进一步,得到能量频谱,计算公式如下:
b)将上述能量谱Pi(k)通过梅尔滤波器组,梅尔滤波器组定义如下:
其中,m为滤波器 序号,M为滤波器数量,f()为梅尔滤波器的频率;通过梅尔滤波器组 后,得到梅尔频谱,再对其进行对数运算,公式如下:
c)对数频谱Li(m)进行DCT变换,得到梅尔倒谱系数,公式如下:
同时,计算其一阶差分,公式如下:
其中N取经验值3.
d)梅尔倒谱系数和一阶差分系数的维数M均为12,Ci,Di组成每帧的 特征向量Fi,维数为24;
e)对每帧进行上述操作,即可提取出语音片段的特征向量集。。
本发明相对现有技术的有益效果:
本发明在线教学精彩片段提取的方法,根据所运用的行业场景,将特 征库细化,能够有效提升特征匹配的准确率,同时,由于针对特定对象进 行特征匹配,也极大提升了匹配效率。
附图说明
图1是本发明在线教学精彩片段提取的方法,制作老师的语音特征库 流程图;
图2是本发明在线教学精彩片段提取的方法的音频片段匹配流程图。
附图中主要部件符号说明:
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
附图1-2可知,一种在线教学精彩片段提取的方法,
构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语 音特征库;
提取精彩片段,解析上课媒体文件,获得音频原始文件;
对音频文件预处理,剔除静音信息,获得多个音频片段;
在每个音频片段中,与该节课对应的老师在语音片段库中的信息进行 特征匹配,匹配成功,则打点记录;
根据打点记录,对每个打点记录之前的5s长度(时长可以根据需求 灵活设定)的音视频片段进行提取,形成精彩片段,将这些精彩片段进行 拼接,形成最终的媒体文件。
确定精彩片段的判定标准:在老师感觉学生表现较好时,会给予鼓励 性的回应,因此,本发明中精彩片段的判定标准为,当老师说出如下词汇 之一时,认为该时间点前,学生的表现优秀,存在一定时长的精彩片段:
(1)老师的语音中包含“Great”;
(2)老师的语音中包含”Good”;
(3)老师的语音中包含“Excellent”。
保存在语音特征库中的语音为Great、Good和Excellent。
制作老师的语音特征库的方式如下:
获取语音片段方式包括:
老师提前录制好判定标准中各个单词的语音片段;
从先前老师的上课媒体文件中提取判定标准中各个单词的语音片段;
语音片段预处理:基于音响大小,识别出静音成分,并去除静音成 分;
特征信息提取:对经处理过的语音片段进行分帧(40ms每帧);
对每帧都提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)及其一阶差分(delta-MFCCs),组成24维的特征向量,语 音片段所有帧的特征向量组成特征向量集;
将特征向量集与特定单词的语音片段形成一一映射的关系;
将特征向量集、特征向量集对应的单词和老师的ID信息存入特征信 息库;
完成语音片段的特征信息库建立。
其他片段处理方法相同。
精彩片段提取:
解析上课媒体文件,获得音频原始文件:媒体文件可以为各种标准化 格式,如MP4等,通过解码,得到音频原始文件;
音频文件中会有很多无效信息,比重最大的是静音部分或者响度很低 的噪音部分,音频片段分帧,每帧长度40ms,通过对文件中各帧(40ms/ 帧)的声音响度分析,剔除静音或者噪音部分,从而将音频文件切分为多 个独立的有效音频片段。
音频特征匹配步骤如下:
(1)对有效音频片段分帧,每帧长度40ms,对每帧提取梅尔频率倒 谱系数及其一阶差分组成的特征向量;
(2)将首帧的特征向量与特征信息库中该老师的各个特征向量集的 首个特征向量进行相关性计算,根据相关度判定匹配度,若不匹配,则进 入(5);
(3)选定库中特征向量集,计算有效音频片段后续帧的特征向量; 与该特征向量集对应位置的特征向量进行匹配,如遇不匹配,则进入 (5),若全部匹配,则进入(4);
(4)说明该有效音频片段为精彩片段的响应,对该片段做打点记 录,记录包括该音频片段的时间戳及片段ID信息;
(5)若有效音频片段处理完成,则完成整个匹配过程,否则,选择 下一个有效音频片段,进入(1)。
5、根据权利要求1所述在线教学精彩片段提取的方法,其特征在 于:所述语音片段预处理包括如下步骤:
a)预置静音振幅的阈值(Silent Threshold),用TThreshold来表示,取 经验值0.03;
b)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧求平均振幅,计算公式如下:
其中,i为帧序号,N为每帧的采样点数 量,Amplitude(n)为帧内第n个采样点的振幅值,A为本帧的平 均振幅;
c)静音帧判决:条件(1)为有效语音帧,条 件(2)为静音帧;
d)对于每帧完成静音帧判决后,若为有效语音帧,则写入有效语 音片段文件,否则不处理;获得有效的语音片段。
6、根据权利要求1所述在线教学精彩片段提取的方法,其特征在 于:所述特征信息提取步骤如下:
a)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧都进行离散傅里叶变换,变换公式如下:
其中i为帧序号,N为每帧的采样 点数;
进一步,得到能量频谱,计算公式如下:
b)将上述能量谱Pi(k)通过梅尔滤波器组,梅尔滤波器组定义如下:
其中,m为滤波器 序号,M为滤波器数量,f()为梅尔滤波器的频率;通过梅尔滤波器组 后,得到梅尔频谱,再对其进行对数运算,公式如下:
c)对数频谱Li(m)进行DCT变换,得到梅尔倒谱系数,公式如下:
同时,计算其一阶差分,公式如下:
其中N取经验值3.
d)梅尔倒谱系数和一阶差分系数的维数M均为12,Ci,Di组成每帧的 特征向量Fi,维数为24;
e)对每帧进行上述操作,即可提取出语音片段的特征向量集。
本发明在线教学精彩片段提取的方法,根据所运用的行业场景,将特 征库细化,能够有效提升特征匹配的准确率,同时,由于针对特定对象进 行特征匹配,也极大提升了匹配效率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任 何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简 单修改、等同变化与修饰,均属于本发明的技术方案范围内。
Claims (6)
1.一种在线教学精彩片段提取的方法,其特征在于,
构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语音特征库;
提取精彩片段,解析上课媒体文件,获得音频原始文件;
对音频文件预处理,剔除静音信息,获得多个音频片段;
在每个音频片段中,与该节课对应的语音片段库中的信息进行特征匹配,匹配成功,则打点记录;
根据打点记录,对每个打点记录之前的一定长度的音视频片段进行提取,形成精彩片段,将这些精彩片段进行拼接,形成最终的媒体文件。
2.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:保存在语音特征库中的语音为Great、Good和Excellent。
3.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:
制作语音特征库的方式如下:
获取语音片段方式包括:
提前录制好判定标准中各个单词的语音片段;
从先前媒体文件中提取判定标准中各个单词的语音片段;
语音片段预处理:基于音响大小,识别出静音成分,并去除静音成分;
特征信息提取:对经处理过的语音片段进行分帧;
对每帧都提取梅尔频率倒谱系数及其一阶差分,组成24维的特征向量,语音片段所有帧的特征向量组成特征向量集;
将特征向量集与特定单词的语音片段形成一一映射的关系;
将特征向量集、特征向量集对应的单词和老师的ID信息存入特征信息库;
完成语音片段的特征信息库建立。
4.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:
音频特征匹配步骤如下:
(1)对有效音频片段分帧,每帧长度40ms,对每帧提取梅尔频率倒谱系数及其一阶差分组成的特征向量;
(2)将首帧的特征向量与特征信息库中各个特征向量集的首个特征向量进行相关性计算,根据相关度判定匹配度,若不匹配,则进入(5);
(3)选定库中特征向量集,计算有效音频片段后续帧的特征向量;与该特征向量集对应位置的特征向量进行匹配,如遇不匹配,则进入(5),若全部匹配,则进入(4);
(4)说明该有效音频片段为精彩片段的响应,对该片段做打点记录,记录包括该音频片段的时间戳及片段ID信息;
(5)若有效音频片段处理完成,则完成整个匹配过程,否则,选择下一个有效音频片段,进入(1)。
5.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:所述语音片段预处理包括如下步骤:
a)预置静音振幅的阈值,用TThreshold来表示,取经验值0.03;
b)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长40ms,对每帧求平均振幅,计算公式如下:
其中,i为帧序号,N为每帧的采样点数量,Amplitude(n)为帧内第n个采样点的振幅值,A为本帧的平均振幅;
c)静音帧判决:条件(1)为有效语音帧,条件(2)为静音帧;
d)对于每帧完成静音帧判决后,若为有效语音帧,则写入有效语音片段文件,获得有效的语音片段。
6.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:所述特征信息提取步骤如下:
a)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长40ms,对每帧都进行离散傅里叶变换,变换公式如下:
其中i为帧序号,N为每帧的采样点数;
进一步,得到能量频谱,计算公式如下:
b)将上述能量谱Pi(k)通过梅尔滤波器组,梅尔滤波器组定义如下:
其中,m为滤波器序号,M为滤波器数量,f()为梅尔滤波器的频率;通过梅尔滤波器组后,得到梅尔频谱,再对其进行对数运算,公式如下:
c)对数频谱Li(m)进行DCT变换,得到梅尔倒谱系数,公式如下:
同时,计算其一阶差分,公式如下:
其中N取经验值3.
d)梅尔倒谱系数和一阶差分系数的维数M均为12,Ci,Di组成每帧的特征向量Fi,维数为24;
e)对每帧进行上述操作,即可提取出语音片段的特征向量集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710350223.4A CN107154264A (zh) | 2017-05-18 | 2017-05-18 | 在线教学精彩片段提取的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710350223.4A CN107154264A (zh) | 2017-05-18 | 2017-05-18 | 在线教学精彩片段提取的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107154264A true CN107154264A (zh) | 2017-09-12 |
Family
ID=59793370
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710350223.4A Pending CN107154264A (zh) | 2017-05-18 | 2017-05-18 | 在线教学精彩片段提取的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107154264A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886959A (zh) * | 2017-09-30 | 2018-04-06 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN108307250A (zh) * | 2018-01-23 | 2018-07-20 | 浙江大华技术股份有限公司 | 一种生成视频摘要的方法及装置 |
CN108521612A (zh) * | 2018-04-25 | 2018-09-11 | 腾讯科技(深圳)有限公司 | 视频摘要的生成方法、装置、服务器及存储介质 |
CN109040773A (zh) * | 2018-07-10 | 2018-12-18 | 武汉斗鱼网络科技有限公司 | 一种视频改进方法、装置、设备及介质 |
CN109089127A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109089128A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频处理方法、装置、设备及介质 |
CN109474849A (zh) * | 2018-11-12 | 2019-03-15 | 广东乐心医疗电子股份有限公司 | 多媒体数据处理方法、系统、终端和计算机可读存储介质 |
CN110022451A (zh) * | 2019-04-18 | 2019-07-16 | 环爱网络科技(上海)有限公司 | 用于生成子视频的方法和系统以及存储有对应程序的介质 |
CN110602626A (zh) * | 2019-10-23 | 2019-12-20 | 维沃移动通信有限公司 | 麦克风孔的误插入检测方法、电子设备 |
CN111050201A (zh) * | 2019-12-10 | 2020-04-21 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111107442A (zh) * | 2019-11-25 | 2020-05-05 | 北京大米科技有限公司 | 音视频文件的获取方法、装置、服务器及存储介质 |
CN111417014A (zh) * | 2020-03-20 | 2020-07-14 | 威比网络科技(上海)有限公司 | 基于在线教育的视频生成方法、系统、设备及存储介质 |
CN112863530A (zh) * | 2021-01-07 | 2021-05-28 | 广州欢城文化传媒有限公司 | 一种声音作品的生成方法和装置 |
CN114822512A (zh) * | 2022-06-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
CN115767174A (zh) * | 2022-10-31 | 2023-03-07 | 上海卓越睿新数码科技股份有限公司 | 在线视频剪辑方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1404609A (zh) * | 2000-10-30 | 2003-03-19 | 皇家菲利浦电子有限公司 | 使用音频特征检测视频节目中的精彩部分的系统和方法 |
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
CN105893549A (zh) * | 2016-03-31 | 2016-08-24 | 中国人民解放军信息工程大学 | 音频检索方法及装置 |
CN105912560A (zh) * | 2015-02-24 | 2016-08-31 | 泽普实验室公司 | 基于语音识别检测体育视频精彩部分 |
CN106571150A (zh) * | 2015-10-12 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 定位音乐人声区的方法和系统 |
-
2017
- 2017-05-18 CN CN201710350223.4A patent/CN107154264A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1404609A (zh) * | 2000-10-30 | 2003-03-19 | 皇家菲利浦电子有限公司 | 使用音频特征检测视频节目中的精彩部分的系统和方法 |
US6973256B1 (en) * | 2000-10-30 | 2005-12-06 | Koninklijke Philips Electronics N.V. | System and method for detecting highlights in a video program using audio properties |
CN103137137A (zh) * | 2013-02-27 | 2013-06-05 | 华南理工大学 | 一种会议音频中的精彩说话人发现方法 |
CN103956166A (zh) * | 2014-05-27 | 2014-07-30 | 华东理工大学 | 一种基于语音关键词识别的多媒体课件检索系统 |
CN105912560A (zh) * | 2015-02-24 | 2016-08-31 | 泽普实验室公司 | 基于语音识别检测体育视频精彩部分 |
CN106571150A (zh) * | 2015-10-12 | 2017-04-19 | 阿里巴巴集团控股有限公司 | 定位音乐人声区的方法和系统 |
CN105893549A (zh) * | 2016-03-31 | 2016-08-24 | 中国人民解放军信息工程大学 | 音频检索方法及装置 |
Non-Patent Citations (1)
Title |
---|
郭春霞,裘雪红: "基于MFCC的说话人识别系统", 《电子科技》 * |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107886959B (zh) * | 2017-09-30 | 2021-07-27 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN107886959A (zh) * | 2017-09-30 | 2018-04-06 | 中国农业科学院蜜蜂研究所 | 一种提取蜜蜂访花视频片段的方法和装置 |
CN108307250A (zh) * | 2018-01-23 | 2018-07-20 | 浙江大华技术股份有限公司 | 一种生成视频摘要的方法及装置 |
US11270737B2 (en) | 2018-01-23 | 2022-03-08 | Zhejiang Dahua Technology Co., Ltd. | Systems and methods for editing a video |
CN108521612B (zh) * | 2018-04-25 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 视频摘要的生成方法、装置、服务器及存储介质 |
CN108521612A (zh) * | 2018-04-25 | 2018-09-11 | 腾讯科技(深圳)有限公司 | 视频摘要的生成方法、装置、服务器及存储介质 |
CN109089128A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频处理方法、装置、设备及介质 |
CN109040773A (zh) * | 2018-07-10 | 2018-12-18 | 武汉斗鱼网络科技有限公司 | 一种视频改进方法、装置、设备及介质 |
CN109089127B (zh) * | 2018-07-10 | 2021-05-28 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109089127A (zh) * | 2018-07-10 | 2018-12-25 | 武汉斗鱼网络科技有限公司 | 一种视频拼接方法、装置、设备及介质 |
CN109474849A (zh) * | 2018-11-12 | 2019-03-15 | 广东乐心医疗电子股份有限公司 | 多媒体数据处理方法、系统、终端和计算机可读存储介质 |
CN110022451A (zh) * | 2019-04-18 | 2019-07-16 | 环爱网络科技(上海)有限公司 | 用于生成子视频的方法和系统以及存储有对应程序的介质 |
CN110602626A (zh) * | 2019-10-23 | 2019-12-20 | 维沃移动通信有限公司 | 麦克风孔的误插入检测方法、电子设备 |
CN111107442A (zh) * | 2019-11-25 | 2020-05-05 | 北京大米科技有限公司 | 音视频文件的获取方法、装置、服务器及存储介质 |
CN111107442B (zh) * | 2019-11-25 | 2022-07-12 | 北京大米科技有限公司 | 音视频文件的获取方法、装置、服务器及存储介质 |
CN111050201A (zh) * | 2019-12-10 | 2020-04-21 | Oppo广东移动通信有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN111417014A (zh) * | 2020-03-20 | 2020-07-14 | 威比网络科技(上海)有限公司 | 基于在线教育的视频生成方法、系统、设备及存储介质 |
CN111417014B (zh) * | 2020-03-20 | 2022-12-13 | 深圳市企鹅网络科技有限公司 | 基于在线教育的视频生成方法、系统、设备及存储介质 |
CN112863530A (zh) * | 2021-01-07 | 2021-05-28 | 广州欢城文化传媒有限公司 | 一种声音作品的生成方法和装置 |
CN114822512A (zh) * | 2022-06-29 | 2022-07-29 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
CN114822512B (zh) * | 2022-06-29 | 2022-09-02 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备及存储介质 |
WO2024001646A1 (zh) * | 2022-06-29 | 2024-01-04 | 腾讯科技(深圳)有限公司 | 音频数据的处理方法、装置、电子设备、程序产品及存储介质 |
CN115767174A (zh) * | 2022-10-31 | 2023-03-07 | 上海卓越睿新数码科技股份有限公司 | 在线视频剪辑方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107154264A (zh) | 在线教学精彩片段提取的方法 | |
CN105957531B (zh) | 基于云平台的演讲内容提取方法及装置 | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
Palaskar et al. | End-to-end multimodal speech recognition | |
CN102968986A (zh) | 基于长时特征和短时特征的重叠语音与单人语音区分方法 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN110970036B (zh) | 声纹识别方法及装置、计算机存储介质、电子设备 | |
CN107943786B (zh) | 一种中文命名实体识别方法及系统 | |
Nahid et al. | Bengali speech recognition: A double layered LSTM-RNN approach | |
CN112270933B (zh) | 一种音频识别方法和装置 | |
Kaushik et al. | Automatic audio sentiment extraction using keyword spotting. | |
Gref et al. | Improved transcription and indexing of oral history interviews for digital humanities research | |
Chen et al. | Towards unsupervised automatic speech recognition trained by unaligned speech and text only | |
CN114550706A (zh) | 基于深度学习的智慧校园语音识别方法 | |
Kheder et al. | A unified joint model to deal with nuisance variabilities in the i-vector space | |
CN110647613A (zh) | 一种课件构建方法、装置、服务器和存储介质 | |
CN113516987B (zh) | 一种说话人识别方法、装置、存储介质及设备 | |
Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
Nyodu et al. | Automatic identification of Arunachal language using K-nearest neighbor algorithm | |
CN115376547B (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
Gref et al. | Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech Recognition in Real-World Applications--A Case Study on German Oral History Interviews | |
Solberg et al. | A Large Norwegian Dataset for Weak Supervision ASR | |
Fauzi et al. | The recognition of hijaiyah letter pronunciation using mel frequency cepstral coefficients and hidden markov model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170912 |
|
RJ01 | Rejection of invention patent application after publication |