CN107154264A - 在线教学精彩片段提取的方法 - Google Patents

在线教学精彩片段提取的方法 Download PDF

Info

Publication number
CN107154264A
CN107154264A CN201710350223.4A CN201710350223A CN107154264A CN 107154264 A CN107154264 A CN 107154264A CN 201710350223 A CN201710350223 A CN 201710350223A CN 107154264 A CN107154264 A CN 107154264A
Authority
CN
China
Prior art keywords
frame
wonderful
extracted
audio
sound bite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710350223.4A
Other languages
English (en)
Inventor
白旭辉
陈靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dasheng On-Line Technology Co Ltd
Original Assignee
Beijing Dasheng On-Line Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dasheng On-Line Technology Co Ltd filed Critical Beijing Dasheng On-Line Technology Co Ltd
Priority to CN201710350223.4A priority Critical patent/CN107154264A/zh
Publication of CN107154264A publication Critical patent/CN107154264A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8549Creating video summaries, e.g. movie trailer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种在线教学精彩片段提取的方法,构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语音特征库;提取精彩片段,解析上课媒体文件,获得音频原始文件;对音频文件预处理,剔除静音信息,获得多个音频片段;在每个音频片段中,与该节课对应的语音片段库中的信息进行特征匹配,匹配成功,则打点记录;根据打点记录,对每个打点记录之前的一定长度的音视频片段进行提取,形成精彩片段,将这些精彩片段进行拼接,形成最终的媒体文件。本发明在线教学精彩片段提取的方法,根据所运用的行业场景,将特征库细化,能够有效提升特征匹配的准确率,同时,由于针对特定对象进行特征匹配,也极大提升了匹配效率。

Description

在线教学精彩片段提取的方法
技术领域
本发明涉及一种数据提取方法,具体的说,是涉及一种在线教学精彩 片段提取的方法。
背景技术
在当前的在线教育行业中,一对一上课是重要的教学方式之一,为了 保证教学体验,需要对上课内容进行录制,以便学生及家长课后回顾。
由于录制的课程媒体文件对存储量要求很大,而媒体文件自身包含了 很多冗余信息,对存储造成浪费,同时,学生回顾课程时,也只是希望回 顾重点或者精彩片段,而不是把一堂课重新再学一次,这就需要对上课的 录制内容进行精彩片段的分析和提取,最终仅保存最有价值、最精彩的上 课片段。
发明内容
针对上述现有技术中的不足,本发明提供一种的在线教学精彩片段提 取的方法。
本发明所采取的技术方案是:
一种在线教学精彩片段提取的方法,
构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语 音特征库;
提取精彩片段,解析上课媒体文件,获得音频原始文件;
对音频文件预处理,剔除静音信息,获得多个音频片段;
在每个音频片段中,与该节课对应的语音片段库中的信息进行特征匹 配,匹配成功,则打点记录;
根据打点记录,对每个打点记录之前的一定长度的音视频片段进行提 取,形成精彩片段,将这些精彩片段进行拼接,形成最终的媒体文件。
保存在语音特征库中的语音为Great、Good和Excellent。
制作语音特征库的方式如下:
获取语音片段方式包括:
提前录制好判定标准中各个单词的语音片段;
从先前媒体文件中提取判定标准中各个单词的语音片段;
语音片段预处理:基于音响大小,识别出静音成分,并去除静音成 分;
特征信息提取:对经处理过的语音片段进行分帧;
对每帧都提取梅尔频率倒谱系数及其一阶差分,组成24维的特征向 量,语音片段所有帧的特征向量组成特征向量集;
将特征向量集与特定单词的语音片段形成一一映射的关系;
将特征向量集、特征向量集对应的单词和老师的ID信息存入特征信 息库;
完成语音片段的特征信息库建立。
音频特征匹配步骤如下:
(1)对有效音频片段分帧,每帧长度40ms,对每帧提取梅尔频率倒 谱系数及其一阶差分组成的特征向量;
(2)将首帧的特征向量与特征信息库中各个特征向量集的首个特征 向量进行相关性计算,根据相关度判定匹配度,若不匹配,则进入(5);
(3)选定库中特征向量集,计算有效音频片段后续帧的特征向量; 与该特征向量集对应位置的特征向量进行匹配,如遇不匹配,则进入 (5),若全部匹配,则进入(4);
(4)说明该有效音频片段为精彩片段的响应,对该片段做打点记 录,记录包括该音频片段的时间戳及片段ID信息;
(5)若有效音频片段处理完成,则完成整个匹配过程,否则,选择 下一个有效音频片段,进入(1)。
语音片段预处理包括如下步骤:
a)预置静音振幅的阈值,用TThreshold来表示,取经验值0.03;
b)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧求平均振幅,计算公式如下:
其中,i为帧序号,N为每帧的采样点数 量,Amplitude(n)为帧内第n个采样点的振幅值,A为本帧的平 均振幅;
c)静音帧判决:条件(1)为有效语音帧,条 件(2)为静音帧;
d)对于每帧完成静音帧判决后,若为有效语音帧,则写入有效语 音片段文件,获得有效的语音片段。
所述特征信息提取步骤如下:
a)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧都进行离散傅里叶变换,变换公式如下:
其中i为帧序号,N为每帧的采样 点数;
进一步,得到能量频谱,计算公式如下:
b)将上述能量谱Pi(k)通过梅尔滤波器组,梅尔滤波器组定义如下:
其中,m为滤波器 序号,M为滤波器数量,f()为梅尔滤波器的频率;通过梅尔滤波器组 后,得到梅尔频谱,再对其进行对数运算,公式如下:
c)对数频谱Li(m)进行DCT变换,得到梅尔倒谱系数,公式如下:
同时,计算其一阶差分,公式如下:
其中N取经验值3.
d)梅尔倒谱系数和一阶差分系数的维数M均为12,Ci,Di组成每帧的 特征向量Fi,维数为24;
e)对每帧进行上述操作,即可提取出语音片段的特征向量集。。
本发明相对现有技术的有益效果:
本发明在线教学精彩片段提取的方法,根据所运用的行业场景,将特 征库细化,能够有效提升特征匹配的准确率,同时,由于针对特定对象进 行特征匹配,也极大提升了匹配效率。
附图说明
图1是本发明在线教学精彩片段提取的方法,制作老师的语音特征库 流程图;
图2是本发明在线教学精彩片段提取的方法的音频片段匹配流程图。
附图中主要部件符号说明:
具体实施方式
以下参照附图及实施例对本发明进行详细的说明:
附图1-2可知,一种在线教学精彩片段提取的方法,
构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语 音特征库;
提取精彩片段,解析上课媒体文件,获得音频原始文件;
对音频文件预处理,剔除静音信息,获得多个音频片段;
在每个音频片段中,与该节课对应的老师在语音片段库中的信息进行 特征匹配,匹配成功,则打点记录;
根据打点记录,对每个打点记录之前的5s长度(时长可以根据需求 灵活设定)的音视频片段进行提取,形成精彩片段,将这些精彩片段进行 拼接,形成最终的媒体文件。
确定精彩片段的判定标准:在老师感觉学生表现较好时,会给予鼓励 性的回应,因此,本发明中精彩片段的判定标准为,当老师说出如下词汇 之一时,认为该时间点前,学生的表现优秀,存在一定时长的精彩片段:
(1)老师的语音中包含“Great”;
(2)老师的语音中包含”Good”;
(3)老师的语音中包含“Excellent”。
保存在语音特征库中的语音为Great、Good和Excellent。
制作老师的语音特征库的方式如下:
获取语音片段方式包括:
老师提前录制好判定标准中各个单词的语音片段;
从先前老师的上课媒体文件中提取判定标准中各个单词的语音片段;
语音片段预处理:基于音响大小,识别出静音成分,并去除静音成 分;
特征信息提取:对经处理过的语音片段进行分帧(40ms每帧);
对每帧都提取梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)及其一阶差分(delta-MFCCs),组成24维的特征向量,语 音片段所有帧的特征向量组成特征向量集;
将特征向量集与特定单词的语音片段形成一一映射的关系;
将特征向量集、特征向量集对应的单词和老师的ID信息存入特征信 息库;
完成语音片段的特征信息库建立。
其他片段处理方法相同。
精彩片段提取:
解析上课媒体文件,获得音频原始文件:媒体文件可以为各种标准化 格式,如MP4等,通过解码,得到音频原始文件;
音频文件中会有很多无效信息,比重最大的是静音部分或者响度很低 的噪音部分,音频片段分帧,每帧长度40ms,通过对文件中各帧(40ms/ 帧)的声音响度分析,剔除静音或者噪音部分,从而将音频文件切分为多 个独立的有效音频片段。
音频特征匹配步骤如下:
(1)对有效音频片段分帧,每帧长度40ms,对每帧提取梅尔频率倒 谱系数及其一阶差分组成的特征向量;
(2)将首帧的特征向量与特征信息库中该老师的各个特征向量集的 首个特征向量进行相关性计算,根据相关度判定匹配度,若不匹配,则进 入(5);
(3)选定库中特征向量集,计算有效音频片段后续帧的特征向量; 与该特征向量集对应位置的特征向量进行匹配,如遇不匹配,则进入 (5),若全部匹配,则进入(4);
(4)说明该有效音频片段为精彩片段的响应,对该片段做打点记 录,记录包括该音频片段的时间戳及片段ID信息;
(5)若有效音频片段处理完成,则完成整个匹配过程,否则,选择 下一个有效音频片段,进入(1)。
5、根据权利要求1所述在线教学精彩片段提取的方法,其特征在 于:所述语音片段预处理包括如下步骤:
a)预置静音振幅的阈值(Silent Threshold),用TThreshold来表示,取 经验值0.03;
b)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧求平均振幅,计算公式如下:
其中,i为帧序号,N为每帧的采样点数 量,Amplitude(n)为帧内第n个采样点的振幅值,A为本帧的平 均振幅;
c)静音帧判决:条件(1)为有效语音帧,条 件(2)为静音帧;
d)对于每帧完成静音帧判决后,若为有效语音帧,则写入有效语 音片段文件,否则不处理;获得有效的语音片段。
6、根据权利要求1所述在线教学精彩片段提取的方法,其特征在 于:所述特征信息提取步骤如下:
a)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长 40ms,对每帧都进行离散傅里叶变换,变换公式如下:
其中i为帧序号,N为每帧的采样 点数;
进一步,得到能量频谱,计算公式如下:
b)将上述能量谱Pi(k)通过梅尔滤波器组,梅尔滤波器组定义如下:
其中,m为滤波器 序号,M为滤波器数量,f()为梅尔滤波器的频率;通过梅尔滤波器组 后,得到梅尔频谱,再对其进行对数运算,公式如下:
c)对数频谱Li(m)进行DCT变换,得到梅尔倒谱系数,公式如下:
同时,计算其一阶差分,公式如下:
其中N取经验值3.
d)梅尔倒谱系数和一阶差分系数的维数M均为12,Ci,Di组成每帧的 特征向量Fi,维数为24;
e)对每帧进行上述操作,即可提取出语音片段的特征向量集。
本发明在线教学精彩片段提取的方法,根据所运用的行业场景,将特 征库细化,能够有效提升特征匹配的准确率,同时,由于针对特定对象进 行特征匹配,也极大提升了匹配效率。
以上所述,仅是本发明的较佳实施例而已,并非对本发明的结构作任 何形式上的限制。凡是依据本发明的技术实质对以上实施例所作的任何简 单修改、等同变化与修饰,均属于本发明的技术方案范围内。

Claims (6)

1.一种在线教学精彩片段提取的方法,其特征在于,
构建语音特征库,设定精彩片段的判定标准,根据判定标准,制作语音特征库;
提取精彩片段,解析上课媒体文件,获得音频原始文件;
对音频文件预处理,剔除静音信息,获得多个音频片段;
在每个音频片段中,与该节课对应的语音片段库中的信息进行特征匹配,匹配成功,则打点记录;
根据打点记录,对每个打点记录之前的一定长度的音视频片段进行提取,形成精彩片段,将这些精彩片段进行拼接,形成最终的媒体文件。
2.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:保存在语音特征库中的语音为Great、Good和Excellent。
3.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:
制作语音特征库的方式如下:
获取语音片段方式包括:
提前录制好判定标准中各个单词的语音片段;
从先前媒体文件中提取判定标准中各个单词的语音片段;
语音片段预处理:基于音响大小,识别出静音成分,并去除静音成分;
特征信息提取:对经处理过的语音片段进行分帧;
对每帧都提取梅尔频率倒谱系数及其一阶差分,组成24维的特征向量,语音片段所有帧的特征向量组成特征向量集;
将特征向量集与特定单词的语音片段形成一一映射的关系;
将特征向量集、特征向量集对应的单词和老师的ID信息存入特征信息库;
完成语音片段的特征信息库建立。
4.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:
音频特征匹配步骤如下:
(1)对有效音频片段分帧,每帧长度40ms,对每帧提取梅尔频率倒谱系数及其一阶差分组成的特征向量;
(2)将首帧的特征向量与特征信息库中各个特征向量集的首个特征向量进行相关性计算,根据相关度判定匹配度,若不匹配,则进入(5);
(3)选定库中特征向量集,计算有效音频片段后续帧的特征向量;与该特征向量集对应位置的特征向量进行匹配,如遇不匹配,则进入(5),若全部匹配,则进入(4);
(4)说明该有效音频片段为精彩片段的响应,对该片段做打点记录,记录包括该音频片段的时间戳及片段ID信息;
(5)若有效音频片段处理完成,则完成整个匹配过程,否则,选择下一个有效音频片段,进入(1)。
5.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:所述语音片段预处理包括如下步骤:
a)预置静音振幅的阈值,用TThreshold来表示,取经验值0.03;
b)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长40ms,对每帧求平均振幅,计算公式如下:
其中,i为帧序号,N为每帧的采样点数量,Amplitude(n)为帧内第n个采样点的振幅值,A为本帧的平均振幅;
c)静音帧判决:条件(1)为有效语音帧,条件(2)为静音帧;
d)对于每帧完成静音帧判决后,若为有效语音帧,则写入有效语音片段文件,获得有效的语音片段。
6.根据权利要求1所述在线教学精彩片段提取的方法,其特征在于:所述特征信息提取步骤如下:
a)根据语音的短时平稳性质,对语音片段进行分帧,每帧时长40ms,对每帧都进行离散傅里叶变换,变换公式如下:
其中i为帧序号,N为每帧的采样点数;
进一步,得到能量频谱,计算公式如下:
b)将上述能量谱Pi(k)通过梅尔滤波器组,梅尔滤波器组定义如下:
其中,m为滤波器序号,M为滤波器数量,f()为梅尔滤波器的频率;通过梅尔滤波器组后,得到梅尔频谱,再对其进行对数运算,公式如下:
c)对数频谱Li(m)进行DCT变换,得到梅尔倒谱系数,公式如下:
同时,计算其一阶差分,公式如下:
其中N取经验值3.
d)梅尔倒谱系数和一阶差分系数的维数M均为12,Ci,Di组成每帧的特征向量Fi,维数为24;
e)对每帧进行上述操作,即可提取出语音片段的特征向量集。
CN201710350223.4A 2017-05-18 2017-05-18 在线教学精彩片段提取的方法 Pending CN107154264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710350223.4A CN107154264A (zh) 2017-05-18 2017-05-18 在线教学精彩片段提取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710350223.4A CN107154264A (zh) 2017-05-18 2017-05-18 在线教学精彩片段提取的方法

Publications (1)

Publication Number Publication Date
CN107154264A true CN107154264A (zh) 2017-09-12

Family

ID=59793370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710350223.4A Pending CN107154264A (zh) 2017-05-18 2017-05-18 在线教学精彩片段提取的方法

Country Status (1)

Country Link
CN (1) CN107154264A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886959A (zh) * 2017-09-30 2018-04-06 中国农业科学院蜜蜂研究所 一种提取蜜蜂访花视频片段的方法和装置
CN108307250A (zh) * 2018-01-23 2018-07-20 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
CN108521612A (zh) * 2018-04-25 2018-09-11 腾讯科技(深圳)有限公司 视频摘要的生成方法、装置、服务器及存储介质
CN109040773A (zh) * 2018-07-10 2018-12-18 武汉斗鱼网络科技有限公司 一种视频改进方法、装置、设备及介质
CN109089127A (zh) * 2018-07-10 2018-12-25 武汉斗鱼网络科技有限公司 一种视频拼接方法、装置、设备及介质
CN109089128A (zh) * 2018-07-10 2018-12-25 武汉斗鱼网络科技有限公司 一种视频处理方法、装置、设备及介质
CN109474849A (zh) * 2018-11-12 2019-03-15 广东乐心医疗电子股份有限公司 多媒体数据处理方法、系统、终端和计算机可读存储介质
CN110022451A (zh) * 2019-04-18 2019-07-16 环爱网络科技(上海)有限公司 用于生成子视频的方法和系统以及存储有对应程序的介质
CN110602626A (zh) * 2019-10-23 2019-12-20 维沃移动通信有限公司 麦克风孔的误插入检测方法、电子设备
CN111050201A (zh) * 2019-12-10 2020-04-21 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备及存储介质
CN111107442A (zh) * 2019-11-25 2020-05-05 北京大米科技有限公司 音视频文件的获取方法、装置、服务器及存储介质
CN111417014A (zh) * 2020-03-20 2020-07-14 威比网络科技(上海)有限公司 基于在线教育的视频生成方法、系统、设备及存储介质
CN112863530A (zh) * 2021-01-07 2021-05-28 广州欢城文化传媒有限公司 一种声音作品的生成方法和装置
CN114822512A (zh) * 2022-06-29 2022-07-29 腾讯科技(深圳)有限公司 音频数据的处理方法、装置、电子设备及存储介质
CN115767174A (zh) * 2022-10-31 2023-03-07 上海卓越睿新数码科技股份有限公司 在线视频剪辑方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1404609A (zh) * 2000-10-30 2003-03-19 皇家菲利浦电子有限公司 使用音频特征检测视频节目中的精彩部分的系统和方法
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统
CN105893549A (zh) * 2016-03-31 2016-08-24 中国人民解放军信息工程大学 音频检索方法及装置
CN105912560A (zh) * 2015-02-24 2016-08-31 泽普实验室公司 基于语音识别检测体育视频精彩部分
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1404609A (zh) * 2000-10-30 2003-03-19 皇家菲利浦电子有限公司 使用音频特征检测视频节目中的精彩部分的系统和方法
US6973256B1 (en) * 2000-10-30 2005-12-06 Koninklijke Philips Electronics N.V. System and method for detecting highlights in a video program using audio properties
CN103137137A (zh) * 2013-02-27 2013-06-05 华南理工大学 一种会议音频中的精彩说话人发现方法
CN103956166A (zh) * 2014-05-27 2014-07-30 华东理工大学 一种基于语音关键词识别的多媒体课件检索系统
CN105912560A (zh) * 2015-02-24 2016-08-31 泽普实验室公司 基于语音识别检测体育视频精彩部分
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN105893549A (zh) * 2016-03-31 2016-08-24 中国人民解放军信息工程大学 音频检索方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭春霞,裘雪红: "基于MFCC的说话人识别系统", 《电子科技》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886959B (zh) * 2017-09-30 2021-07-27 中国农业科学院蜜蜂研究所 一种提取蜜蜂访花视频片段的方法和装置
CN107886959A (zh) * 2017-09-30 2018-04-06 中国农业科学院蜜蜂研究所 一种提取蜜蜂访花视频片段的方法和装置
CN108307250A (zh) * 2018-01-23 2018-07-20 浙江大华技术股份有限公司 一种生成视频摘要的方法及装置
US11270737B2 (en) 2018-01-23 2022-03-08 Zhejiang Dahua Technology Co., Ltd. Systems and methods for editing a video
CN108521612B (zh) * 2018-04-25 2021-02-09 腾讯科技(深圳)有限公司 视频摘要的生成方法、装置、服务器及存储介质
CN108521612A (zh) * 2018-04-25 2018-09-11 腾讯科技(深圳)有限公司 视频摘要的生成方法、装置、服务器及存储介质
CN109089128A (zh) * 2018-07-10 2018-12-25 武汉斗鱼网络科技有限公司 一种视频处理方法、装置、设备及介质
CN109040773A (zh) * 2018-07-10 2018-12-18 武汉斗鱼网络科技有限公司 一种视频改进方法、装置、设备及介质
CN109089127B (zh) * 2018-07-10 2021-05-28 武汉斗鱼网络科技有限公司 一种视频拼接方法、装置、设备及介质
CN109089127A (zh) * 2018-07-10 2018-12-25 武汉斗鱼网络科技有限公司 一种视频拼接方法、装置、设备及介质
CN109474849A (zh) * 2018-11-12 2019-03-15 广东乐心医疗电子股份有限公司 多媒体数据处理方法、系统、终端和计算机可读存储介质
CN110022451A (zh) * 2019-04-18 2019-07-16 环爱网络科技(上海)有限公司 用于生成子视频的方法和系统以及存储有对应程序的介质
CN110602626A (zh) * 2019-10-23 2019-12-20 维沃移动通信有限公司 麦克风孔的误插入检测方法、电子设备
CN111107442A (zh) * 2019-11-25 2020-05-05 北京大米科技有限公司 音视频文件的获取方法、装置、服务器及存储介质
CN111107442B (zh) * 2019-11-25 2022-07-12 北京大米科技有限公司 音视频文件的获取方法、装置、服务器及存储介质
CN111050201A (zh) * 2019-12-10 2020-04-21 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备及存储介质
CN111417014A (zh) * 2020-03-20 2020-07-14 威比网络科技(上海)有限公司 基于在线教育的视频生成方法、系统、设备及存储介质
CN111417014B (zh) * 2020-03-20 2022-12-13 深圳市企鹅网络科技有限公司 基于在线教育的视频生成方法、系统、设备及存储介质
CN112863530A (zh) * 2021-01-07 2021-05-28 广州欢城文化传媒有限公司 一种声音作品的生成方法和装置
CN114822512A (zh) * 2022-06-29 2022-07-29 腾讯科技(深圳)有限公司 音频数据的处理方法、装置、电子设备及存储介质
CN114822512B (zh) * 2022-06-29 2022-09-02 腾讯科技(深圳)有限公司 音频数据的处理方法、装置、电子设备及存储介质
WO2024001646A1 (zh) * 2022-06-29 2024-01-04 腾讯科技(深圳)有限公司 音频数据的处理方法、装置、电子设备、程序产品及存储介质
CN115767174A (zh) * 2022-10-31 2023-03-07 上海卓越睿新数码科技股份有限公司 在线视频剪辑方法

Similar Documents

Publication Publication Date Title
CN107154264A (zh) 在线教学精彩片段提取的方法
CN105957531B (zh) 基于云平台的演讲内容提取方法及装置
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
CN110782872A (zh) 基于深度卷积循环神经网络的语种识别方法及装置
Palaskar et al. End-to-end multimodal speech recognition
CN102968986A (zh) 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN110970036B (zh) 声纹识别方法及装置、计算机存储介质、电子设备
CN107943786B (zh) 一种中文命名实体识别方法及系统
Nahid et al. Bengali speech recognition: A double layered LSTM-RNN approach
CN112270933B (zh) 一种音频识别方法和装置
Kaushik et al. Automatic audio sentiment extraction using keyword spotting.
Gref et al. Improved transcription and indexing of oral history interviews for digital humanities research
Chen et al. Towards unsupervised automatic speech recognition trained by unaligned speech and text only
CN114550706A (zh) 基于深度学习的智慧校园语音识别方法
Kheder et al. A unified joint model to deal with nuisance variabilities in the i-vector space
CN110647613A (zh) 一种课件构建方法、装置、服务器和存储介质
CN113516987B (zh) 一种说话人识别方法、装置、存储介质及设备
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Nyodu et al. Automatic identification of Arunachal language using K-nearest neighbor algorithm
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
Gref et al. Multi-Staged Cross-Lingual Acoustic Model Adaption for Robust Speech Recognition in Real-World Applications--A Case Study on German Oral History Interviews
Solberg et al. A Large Norwegian Dataset for Weak Supervision ASR
Fauzi et al. The recognition of hijaiyah letter pronunciation using mel frequency cepstral coefficients and hidden markov model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170912

RJ01 Rejection of invention patent application after publication