CN104159145A - 一种针对讲座视频的时间轴自动产生方法 - Google Patents
一种针对讲座视频的时间轴自动产生方法 Download PDFInfo
- Publication number
- CN104159145A CN104159145A CN201410423661.5A CN201410423661A CN104159145A CN 104159145 A CN104159145 A CN 104159145A CN 201410423661 A CN201410423661 A CN 201410423661A CN 104159145 A CN104159145 A CN 104159145A
- Authority
- CN
- China
- Prior art keywords
- time shaft
- frequency
- time
- speechmaker
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Closed-Circuit Television Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明是一种针对讲座视频的时间轴自动产生方法,包括以下步骤:第一步,扫描一遍视频,通过小波变换和自相关函数法检测出基音频率;第二步,寻找基音频率的平均值μ和标准差σ,作为讲话人的基因频率;第三步,根据基音频率,进行初划分,划分为时间轴单元;第四步,对于每一个时间轴单元,计算其基音频率相似性A及频谱相似性B,对于A,B取两个阈值,当A和B均大于这两个阈值时,认为是演讲人在说话,排除非演讲人说话的时间轴,得到的时间轴为演讲人说话的时间轴。本发明是一种针对视频讲座可以自动产生出高精度的讲座视频时间轴的方法。
Description
技术领域
本发明涉及计算机软件技术领域,尤指一种针对讲座视频的时间轴自动产生方法。
背景技术
讲座、演讲、讲话类视频的特点是:(1)主讲人单一;(2)环境噪音干扰小;(3)主要的干扰是掌声、笑声、拖音和呼吸声。通常,讲座视频长度为10分钟-2小时。以1小时的视频为例,切分出时间轴,需要1-2小时的人工,浪费人力物力。
发明内容
为解决上述问题,本发明提供一种可以自动产生出高精度的讲座视频时间轴的针对讲座视频的时间轴自动产生方法。
本发明是一种针对讲座视频的时间轴自动产生方法,使用频率相似性和频谱相似性结合来得到时间轴语音段;并且采用二次扫描,根据过零率,得到更精确的时间轴语音段,包括以下步骤:
第一步,扫描一遍视频,通过小波变换和自相关函数法检测出基音频率;
第二步,寻找基音频率的平均值μ和标准差σ,作为讲话人的基因频率;
第三步,根据基音频率,进行初划分,划分为时间轴单元;
第四步,对于每一个时间轴单元,计算其基音频率相似性A及频谱相似性B,所述频率相似性A,既是该时间轴的基音平均频率,在以第二步计算得到的,基音频率的平均值μ和标准差σ所得到的正态分布上,所出现的概率;所述频谱相似性B的计算方式如下:每个时间轴由N帧组成,计算每一帧与前一帧的基因频率差的平均值D;取一个阈值K,当D<K时,B = 1,当D>K时,B按线性衰减;对于A,B取两个阈值,当A和B均大于这两个阈值时,认为是演讲人在说话,排除非演讲人说话的时间轴,得到的时间轴为演讲人说话的时间轴。
本发明的有益技术效果在于:本方法通过语音分析的方式,自动得到讲座视频的时间轴,主要用于给讲座、演讲、讲话类视频加配字幕时的预处理,省去了人工调制的过程。本方法可以自动产生出高精度的讲座视频时间轴,节省大量的人工。
附图说明
图1为划分的时间轴单元示意图。
具体实施方式
下面结合实施例,对本发明的具体实施方式作进一步详细描述。
本方法通过语音分析的方式,自动得到讲座视频的时间轴,主要用于给讲座、演讲、讲话类视频加配字幕时的预处理,省去了人工调制的过程。
讲座、演讲、讲话类视频的特点是:
(1)主讲人单一;
(2)环境噪音干扰小;
(3)主要的干扰是掌声、笑声、拖音和呼吸声。
本方法针对讲座视频的上述特点,采用两次扫描、三门阈法产生出时间轴,自动提取出语音片段,产生字幕时间轴。
本发明是一种针对讲座视频的时间轴自动产生方法,通过基音频率对主讲人的声音及其他声音进行分开,具体包括以下步骤:
第一步,扫描一遍视频,通过小波变换和自相关函数法检测出基音频率。
第二步,鉴于讲话人固定,基音频率也固定,寻找基音频率的平均值μ和标准差σ,作为讲话人的基因频率。
第三步,根据基音频率,进行初划分,划分为时间轴单元,如图1所示。
第四步,对于每一个时间轴单元,计算其基音频率相似性A及频谱相似性B,所述频率相似性A,既是该时间轴的基音平均频率,在以第二步计算得到的,基音频率的平均值μ和标准差σ所得到的正态分布上,所出现的概率;所述频谱相似性B的计算方式如下:每个时间轴由N帧组成,计算每一帧与前一帧的基因频率差的平均值D;取一个阈值K,当D<K时,B = 1,当D>K时,B按线性衰减;对于A,B取两个阈值,当A和B均大于这两个阈值时,认为是演讲人在说话,排除非演讲人说话的时间轴,得到的时间轴为演讲人说话的时间轴。
由于人说话时,语音的头部和尾部并不具有基音特征,因此,真实的说话的时间区间比根据基音得到的时间区间要大一些,因此,对于根据基音得到的时间轴,需要在此时间轴基础上,向前或向后各分析0.5秒的时间。计算这段时间的语音信号的过零率,如果过零率的值较大,则认为是语音,从而得到修正后的时间轴数据。
Claims (1)
1.一种针对讲座视频的时间轴自动产生方法,其特征在于,包括以下步骤:
第一步,扫描一遍视频,通过小波变换和自相关函数法检测出基音频率;
第二步,寻找基音频率的平均值μ和标准差σ,作为讲话人的基因频率;
第三步,根据基音频率,进行初划分,划分为时间轴单元;
第四步,对于每一个时间轴单元,计算其基音频率相似性A及频谱相似性B,所述频率相似性A,既是该时间轴的基音平均频率,在以第二步计算得到的,基音频率的平均值μ和标准差σ所得到的正态分布上,所出现的概率;所述频谱相似性B的计算方式如下:每个时间轴由N帧组成,计算每一帧与前一帧的基因频率差的平均值D;取一个阈值K,当D<K时,B = 1,当D>K时,B按线性衰减;对于A,B取两个阈值,当A和B均大于这两个阈值时,认为是演讲人在说话,排除非演讲人说话的时间轴,得到的时间轴为演讲人说话的时间轴。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423661.5A CN104159145B (zh) | 2014-08-26 | 2014-08-26 | 一种针对讲座视频的时间轴自动产生方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410423661.5A CN104159145B (zh) | 2014-08-26 | 2014-08-26 | 一种针对讲座视频的时间轴自动产生方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104159145A true CN104159145A (zh) | 2014-11-19 |
CN104159145B CN104159145B (zh) | 2018-03-09 |
Family
ID=51884535
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410423661.5A Active CN104159145B (zh) | 2014-08-26 | 2014-08-26 | 一种针对讲座视频的时间轴自动产生方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104159145B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1848105A (zh) * | 2005-04-15 | 2006-10-18 | 浙江工业大学 | 面向老年人群的具有情感的精神慰藉装置 |
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
CN101625858A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 语音端点检测中短时能频值的提取方法 |
CN102073636A (zh) * | 2009-10-30 | 2011-05-25 | 索尼株式会社 | 节目高潮检索方法和系统 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
-
2014
- 2014-08-26 CN CN201410423661.5A patent/CN104159145B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1848105A (zh) * | 2005-04-15 | 2006-10-18 | 浙江工业大学 | 面向老年人群的具有情感的精神慰藉装置 |
CN1870728A (zh) * | 2005-05-23 | 2006-11-29 | 北京大学 | 自动加配字幕的方法和系统 |
CN101359473A (zh) * | 2007-07-30 | 2009-02-04 | 国际商业机器公司 | 自动进行语音转换的方法和装置 |
CN101625858A (zh) * | 2008-07-10 | 2010-01-13 | 新奥特(北京)视频技术有限公司 | 语音端点检测中短时能频值的提取方法 |
CN102073636A (zh) * | 2009-10-30 | 2011-05-25 | 索尼株式会社 | 节目高潮检索方法和系统 |
CN102543080A (zh) * | 2010-12-24 | 2012-07-04 | 索尼公司 | 音频编辑系统和音频编辑方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104159145B (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104252861B (zh) | 视频语音转换方法、装置和服务器 | |
US10977299B2 (en) | Systems and methods for consolidating recorded content | |
US8843369B1 (en) | Speech endpointing based on voice profile | |
CN106297776B (zh) | 一种基于音频模板的语音关键词检索方法 | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
JP6859499B2 (ja) | 音声信号検出方法及び装置 | |
CN106340291A (zh) | 一种双语字幕制作方法及系统 | |
JP2013534651A5 (zh) | ||
CN103151039A (zh) | 一种基于向量机svm的说话者年龄段识别方法 | |
CN105378830A (zh) | 音频数据的处理 | |
US10249319B1 (en) | Methods and apparatus to reduce noise from harmonic noise sources | |
CN105096938A (zh) | 一种用于获取用户的用户特征信息的方法和装置 | |
JP2018534618A (ja) | ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置 | |
US10522160B2 (en) | Methods and apparatus to identify a source of speech captured at a wearable electronic device | |
CN109994129A (zh) | 语音处理系统、方法和设备 | |
CN109377982B (zh) | 一种有效语音获取方法 | |
CN112992190B (zh) | 音频信号的处理方法、装置、电子设备和存储介质 | |
WO2023193573A1 (zh) | 一种音频处理方法、装置、存储介质及电子设备 | |
JP5908924B2 (ja) | 音声処理装置、方法、プログラムおよび集積回路 | |
CN104159145A (zh) | 一种针对讲座视频的时间轴自动产生方法 | |
CN104240697A (zh) | 一种音频数据的特征提取方法及装置 | |
CN102682770A (zh) | 基于云计算的语音识别系统 | |
US11074926B1 (en) | Trending and context fatigue compensation in a voice signal | |
CN112509567B (zh) | 语音数据处理的方法、装置、设备、存储介质及程序产品 | |
Yali et al. | A speech endpoint detection algorithm based on wavelet transforms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Applicant after: Chinese translation language through Polytron Technologies Inc Address before: Room 7473, room No. 3, No. 3, Xijing Road, Badachu high tech park, Shijingshan District, Beijing Applicant before: Mandarin Technology (Beijing) Co., Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |