CN104469544A - 一种基于语音技术的视频标记方法 - Google Patents

一种基于语音技术的视频标记方法 Download PDF

Info

Publication number
CN104469544A
CN104469544A CN201410634401.2A CN201410634401A CN104469544A CN 104469544 A CN104469544 A CN 104469544A CN 201410634401 A CN201410634401 A CN 201410634401A CN 104469544 A CN104469544 A CN 104469544A
Authority
CN
China
Prior art keywords
described
video
voice
signal
marked
Prior art date
Application number
CN201410634401.2A
Other languages
English (en)
Inventor
涂勇
贺君龙
Original Assignee
重庆晋才富熙科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 重庆晋才富熙科技有限公司 filed Critical 重庆晋才富熙科技有限公司
Priority to CN201410634401.2A priority Critical patent/CN104469544A/zh
Publication of CN104469544A publication Critical patent/CN104469544A/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network, synchronizing decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4398Processing of audio elementary streams involving reformatting operations of audio signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47202End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting content on demand, e.g. video on demand
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/47217End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for controlling playback functions for recorded or on-demand content, e.g. using progress bars, mode or play-point indicators or bookmarks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Abstract

本发明提供一种基于语音技术的视频标记方法,应用于教学视频的播放方法领域,包括步骤:1)于视频中选定待标记点,输入语音信息;2)接收语音信息,并对语音信息进行采集以形成模拟语音信号;3)将模拟语音信号转换成数字语音信号; 4)对数字语音信号进行语音文本转换识别,以生成与数字语音信号对应的文字信号;5)将文字信号添加/嵌入到待标记点所在的视频文件中,且在视频播放至待标记点时将文字信号予以显示出来。本发明通过对视频进行自动智能语音设别标记,克服了现有技术中需要人工来对视频标注的方式,而且还可以在视频中进行一个或多个待标记点进行标记,给视频学习者提供了一个便捷而形象的视频标记方法。

Description

一种基于语音技术的视频标记方法

技术领域

[0001] 本发明涉及视频处理领域,主要是指视频进行设点标记并将标记的信息添加到视频中以便于视频播放时标注信息的自动显示,更加具体地来说,特别是涉及一种基于语音技术的视频标记方法。

背景技术

[0002] 随着互联网技术的发展,现代教学模式已经不再局限于传统的现场实际教学,人们更多地可以不用在现场听课学习,而是可以在不受时间和地点的限制,而根据自己的时间和情况来通过视频学习。例如,可以进行远程教学,或者视频自学等。不过这些都是建立在课程的视频录制上,即首先需要将现场教学进行视频录制,以供需要进行学习的在任何地点和时间来进行自由学习。

[0003] 实际中,一个课程可能包括几十个视频文件甚至更多,当对这些大量的视频文件进行整理归类时,往往采取的是重命名的方式来赋予一些标记性的文字,以便于归类和管理;另外,其在视频播放过程中,如果想要在视频中的某个点进行标记,是不可以的。

[0004] 现有技术中,为了克服上述问题和方便学习者能更好地在视频播放过程中做标记或者备注,采用了一种在线网页播放视频的方式,学习者通过账号登陆网页后进行视频管理和学习,并在视频播放网页中通过键盘输入文字的方式来进行备注或者标记。但是这种方式具有特定的条件性和限制性,而且也只局限于在视频以外的网页页面内做集中的标记和备注。

[0005] 所以,很多学习者希望能够在视频播放过程中,将需要备注和标记的标记信息添加到视频中去,以在视频播放过程中或者播放到所述标记点时就自动的将其对应的标记信息予以显示出来,以实现一种更加便捷和高效的方式来对视频中需要标记或者备注的地方进行标记。

发明内容

[0006] 鉴于以上所述,本发明的目的在于提供一种基于语音技术的视频标记方法,用于解决现有技术中在学习一个视频时无法快速找到自己需要学习的一段视频的问题。

[0007] 为实现上述目的及其他相关目的,本发明提供以下技术方案:

[0008] 一种基于语音技术的视频标记方法,所述方法包括步骤:1)于视频中选定待标记点,输入语音信息;2)接收所述语音信息,并对所述语音信息进行采集以形成模拟语音信号;3)将所述模拟语音信号转换成数字语音信号;4)对所述数字语音信号进行语音文本转换识别,以生成与所述数字语音信号对应的文字信号;5)将所述文字信号添加/嵌入到所述待标记点所在的视频文件中,且在视频播放至所述待标记点时将所述文字信号予以显示出来。

[0009] 优选地,在上述基于语音技术的视频标记方法中,所述步骤I)中对视频进行选定标记点的方法包括:选定一个标记点以对某一个视频点进行标注;或者,选择两个标记点,以对所述两个标记点之间的视频段进行标注。

[0010] 优选地,在上述基于语音技术的视频标记方法中,所述方法步骤2)中,还包括:剔除所述语音信号中的空白信号,以形成具有完整语音内容的新语音信号。

[0011] 优选地,在上述基于语音技术的视频标记方法中,步骤5)中,所述将所述文字信号添加/嵌入到所述待标记点所在的视频文件中的具体方法包括:5-1)判断所述文字信号所对应的文字长度是否超过预设值:5-2)若所述文字的长度不超过所述预设值,那么将所述文字信号嵌入到所述视频文件中,并在视频播放到所述待标记点时显示在播放画面中;5-3)若所述文字的长度超过所述预设值,那么将所述文字信号叠加到所述视频文件中,并在视频播放到所述待标记点时显示在播放画面外的窗口中。

[0012] 优选地,在上述基于语音技术的视频标记方法中,步骤4)和步骤5)之间,在对所述数字语音信号进行语音文本转换后,还包括方法:将所述数字语音信号对应的文字予以预览显示,并进行乱码检测:若存在乱码,则将所述文字切换至可编辑模式以供学习者对其校正;若不存在乱码,则将所述语音信号予以保存。

[0013] 如上所述,本发明具有以下有益效果:本发明通过对视频进行自动智能语音设别标记,克服了现有技术中需要人工来对视频标注的方式,而且还可以在视频中进行一个或多个待标记点进行标记,以实现对于标注信息和打点视屏同步播放显示的效果,从而给视频学习者提供了一个便捷而形象的视频标记方法,使视频学习者能够快速找到自己需要学习的一段视频。

附图说明

[0014] 为了更清楚地说明本发明实施例中的方案,下面将对具体实施例中描述所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

[0015] 图1为本发明一种基于语音技术的视频标记方法在一实施例中的流程示意图。

[0016] 附图标号说明

[0017] SlO至S50 方法步骤

具体实施方式

[0018] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。

[0019] 见图1,示出了本发明一种基于语音技术的视频标记方法的流程图,所述方法包括以下步骤:

[0020] S10,于视频中选定待标记点,输入语音信息;

[0021] S20,接收所述语音信息,并对所述语音信息进行采集以形成模拟语音信号;

[0022] S30,将所述模拟语音信号转换成数字语音信号;

[0023] S40,对所述数字语音信号进行语音文本转换识别,以生成与所述数字语音信号对应的文字信号;

[0024] S50,将所述文字信号添加/嵌入到所述待标记点所在的视频文件中,且在视频播放至所述待标记点时将所述文字信号予以显示出来。

[0025] 具体地,在上述步骤SlO中,进行标记的视频是处于播放中的视频,播放的方式可以是在网页中播放,也可以是利用播放器来进行播放。另外,对视频进行选定标记点可以是选定一个标记点以对某一个视频点进行标注,或者是选择两个标记点,以对所述两个标记点之间的视频段进行标注。如果是选择一个待标记点,那么在以后的标记完成后的视频中,播放时其会在播放到所述待标记点时进行显示标记信息;而如果是标记两个待标记点,那么在以后的标记完成后的视频中,播放时其会在播放到所述两个待标记点之间的视频段时间内进行显示标记信息。也即是,选择不同的标记点的数量,那么在后续的视频播放时,显示标记信息的时间也就会不同,从而给予学习者的提示时间也会有所不同。

[0026] 进一步地,输入语音信号可以通过触发录制起始点和录制结束点来获取语音信号的时长,具体可以采用麦克风来获取语音信号内容,即学习者通过点击或者触发录制起始点并对着麦克风将想要备注或标记的内容以语音的方式表达出来,并在完成录入后触发录制结束点来停止利用麦克风来录入语音信号。其中,所述录制起始点和录制结束点也就相当于一个麦克风录入开关按钮。例如,学习者想要对某一待标记点进行录入语音信号时,先点击麦克风录入开关按钮,并开始录入语音内容,当录入语音内容结束后,再点击所述麦克风录入开关按钮来结束录入语音内容,从而来获取一段连续或者多段连续的语音信号,触发麦克风录入开关按钮时,可以是一直按住来进行录入语音内容,结束后再松开来停止录入语音内容即可。

[0027] 应当理解,所述输入的语音信息可以是包括英文语音信息或者是中文语音信息,还也可以支持日语、法语、德语等语言进行语音信息的输入。

[0028] 具体地,在步骤S20中,通过接收来自步骤SlO中的语音信息,并对其进行整理采集成连续的语音信号,以供后续处理。因为在所输入的语音信号中,可能包括多个语音内容片断,而每个语音内容片断之间即为空白信号,而且所述空白信号的时间存在短时间的空白信号,也存在较长时间的空白信号,如果将较长的空白信号不经过整理就输入后续的步骤中,会影响整个标记过程的速度。其详细的实现步骤包括:剔除所述语音信号中的空白信号,以形成具有完整语音内容的新语音信号;再将所述新语音信号转生成模拟语音信号。这里对接收到的语音信号进行处理,是为了提高后期语音识别的数模转换的速率。应当理解,通过麦克风录入语音所生成的语音信号应该为模拟信号,但是为了后续的加工处理,必须将其转换成数字信号,当然,这个转换可以是剔除空白信号之前也可以是在剔除空白信号之后,但是必须是要在语音识别之间进行数字语音信号转换。

[0029] 具体地,在步骤S30中,将所采集得到的模拟语音信号转成数字语音信号,以供后面进行语音信号的处理,其可以通过软件转换,也可以通过转换芯片来实现。

[0030] 具体地,在步骤S40中,将对所述数字语音信号进行语音文本转换,即将所述数字语音信号对应转换成相应的文字信号。由于语音文本转换技术在现有技术中已经相当成熟,故这里将不再赘述。

[0031] 具体地,在所述步骤S50中,将经识别后的文字信号叠加/嵌入所述视频文件中,并在播放到对应的标记点时进行显示,应当理解,这里将文字信号显示到视频中时,其既可以字幕的方式嵌入到视频画面中,也可以是在视频播放画面外以窗口的方式予以显示出来。

[0032] 进一步地,本步骤S50中,还包括对文字信号的长短进行侦测,以自动选择相应的显示方式来进行文字信号的显示。具体地,若所述文字信号的容量值不超过预设值,那么将所述文字信号嵌入到所述视频文件中,并在视频播放到所述待标记点时显示在播放画面中;若所述文字信号的容量值超过预设值,那么将所述文字信号叠加到所述视频文件中,并在视频播放到所述待标记点时显示在播放画面外的窗口中。例如,将所述文字信号所对应的文字长度的预设值设定为20-60字节,以40字节为例,如果所述文字信号所对应的文字不超过40字节的话,那么就将所述文字信号嵌入所述视频文件中,并在播放到该文字信号对应的标记点时显示在播放界面中;相反,如果是超出40字节的话,那么就将所述文字信号添加所述视频文件中,并在视频播放到所述待标记点时显示在播放画面外的窗口中。

[0033] 更进一步地,在所述步骤S50中,还可以添加文字预览修改步骤,即在对所述数字语音信号进行语音文本转换后,将所述数字语音信号对应的文字予以预览显示,如果没有错误,那么将其保存;若存在错误,那么将所述文字切换至可编辑模式以供学习者对其校正。

[0034] 另外,还可以在上述步骤S50中增加文字格式编辑步骤,以改变所述文字的显示格式。使得人们可以根据自己的喜好进行文字的格式设置。

[0035] 综上所述,本发明通过对视频进行自动语音识别标记,克服了现有技术中需要人工来对视频标注的方式,而且还可以在视频中进行一个或多个待标记点进行标记,给视频学习者提供了一个便捷而形象的视频标记方法。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

Claims (7)

1.一种基于语音技术的视频标记方法,其特征在于,所述方法包括: 1)于视频中选定待标记点,输入语音信息; 2)接收所述语音信息,并对所述语音信息进行采集以形成模拟语音信号; 3)将所述模拟语音信号转换成数字语音信号; 4)对所述数字语音信号进行语音文本转换识别,以生成与所述数字语音信号对应的文字信号; 5)将所述文字信号添加/嵌入到所述待标记点所在的视频文件中,且在视频播放至所述待标记点时将所述文字信号予以显示出来。
2.根据权利要求1所述的基于语音技术的视频标记方法,其特征在于,所述步骤1)中对视频进行选定标记点的方法包括: 选定一个标记点以对某一个视频点进行标注; 或者,选择两个标记点,以对所述两个标记点之间的视频段进行标注。
3.根据权利要求1所述的基于语音技术的视频标记方法,其特征在于,所述方法步骤2)中,还包括:剔除所述语音信号中的空白信号,以形成具有完整语音内容的新语音信号。
4.根据权利要求1-3任一项所述的基于语音技术的视频标记方法,其特征在于,步骤5)中,所述将所述文字信号添加/嵌入到所述待标记点所在的视频文件中的具体方法包括: 5-1)判断所述文字信号所对应的文字长度是否超过预设值: 5-2)若所述文字的长度不超过所述预设值,那么将所述文字信号嵌入到所述视频文件中,并在视频播放到所述待标记点时显示在播放画面中; 5-3)若所述文字的长度超过所述预设值,那么将所述文字信号叠加到所述视频文件中,并在视频播放到所述待标记点时显示在播放画面外的窗口中。
5.根据权利要求4所述的基于语音技术的视频标记方法,其特征在于,所述预设值为20-60字节。
6.根据权利要求1-3任一项所述的基于语音技术的视频标记方法,其特征在于,步骤4)和步骤5)之间,在对所述数字语音信号进行语音文本转换后,还包括方法: 将所述数字语音信号对应的文字予以预览显示,并进行乱码检测:若存在乱码,则将所述文字切换至可编辑模式以供学习者对其校正;若不存在乱码,则将所述语音信号予以保存。
7.根据权利要求6所述的基于语音技术的视频标记方法,其特征在于,在将所述数字语音信号对应的文字予以预览显示的步骤中,还包括用于以改变所述文字的显示格式的文字格式编辑方法。
CN201410634401.2A 2014-11-07 2014-11-07 一种基于语音技术的视频标记方法 CN104469544A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410634401.2A CN104469544A (zh) 2014-11-07 2014-11-07 一种基于语音技术的视频标记方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410634401.2A CN104469544A (zh) 2014-11-07 2014-11-07 一种基于语音技术的视频标记方法

Publications (1)

Publication Number Publication Date
CN104469544A true CN104469544A (zh) 2015-03-25

Family

ID=52914789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410634401.2A CN104469544A (zh) 2014-11-07 2014-11-07 一种基于语音技术的视频标记方法

Country Status (1)

Country Link
CN (1) CN104469544A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185167A (zh) * 2015-08-12 2015-12-23 广东小天才科技有限公司 一种助听方法、助听装置、第一助听系统和第二助听系统
CN107396178A (zh) * 2017-07-26 2017-11-24 北京奇虎科技有限公司 一种编辑视频的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1326641A (zh) * 1998-10-21 2001-12-12 开放电视公司 利用远端服务器变换非文本信息为文本信息的交互式电视系统和方法
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN103530320A (zh) * 2013-09-18 2014-01-22 中兴通讯股份有限公司 多媒体文件处理方法、装置及终端
CN103631780A (zh) * 2012-08-21 2014-03-12 鸿富锦精密工业(深圳)有限公司 多媒体记录系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1326641A (zh) * 1998-10-21 2001-12-12 开放电视公司 利用远端服务器变换非文本信息为文本信息的交互式电视系统和方法
CN101539929A (zh) * 2009-04-17 2009-09-23 无锡天脉聚源传媒科技有限公司 利用计算机系统进行的电视新闻标引方法
CN102074235A (zh) * 2010-12-20 2011-05-25 上海华勤通讯技术有限公司 视频语音识别并检索的方法
CN103631780A (zh) * 2012-08-21 2014-03-12 鸿富锦精密工业(深圳)有限公司 多媒体记录系统及方法
CN103530320A (zh) * 2013-09-18 2014-01-22 中兴通讯股份有限公司 多媒体文件处理方法、装置及终端

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105185167A (zh) * 2015-08-12 2015-12-23 广东小天才科技有限公司 一种助听方法、助听装置、第一助听系统和第二助听系统
CN105185167B (zh) * 2015-08-12 2018-04-06 广东小天才科技有限公司 一种助听方法、助听装置和助听系统
CN107396178A (zh) * 2017-07-26 2017-11-24 北京奇虎科技有限公司 一种编辑视频的方法和装置

Similar Documents

Publication Publication Date Title
AU2016202974B2 (en) Automatically creating a mapping between text data and audio data
CN1776583B (zh) 解释语音命令的集中式方法和系统
US7343082B2 (en) Universal guide track
Robin Commentary: Learner-based listening and technological authenticity
US20070011012A1 (en) Method, system, and apparatus for facilitating captioning of multi-media content
Vincent Children writing: Multimodality and assessment in the writing classroom
US6435876B1 (en) Interactive learning of a foreign language
US6185538B1 (en) System for editing digital video and audio information
TW200901000A (en) Input method editor having a secondary language mode
NZ564249A (en) Data entry system
EP0366192A2 (de) Textverarbeitungsvorrichtung
Kowal et al. 5.9 The Transcription of Conversations
Bowerman et al. White South African English: phonology
US20030129571A1 (en) System and method for language education using meaning unit and relational question
JP2009516245A (ja) 多言語交流システム
EP1668641A4 (en) Storage medium including text-based caption information, reproducing apparatus and reproducing method thereof
US20120060093A1 (en) Multimedia file playing method and multimedia player
CN1744148A (zh) 一种远程教学系统及其方法
JP2003307997A (ja) 語学教育システム、音声データ処理装置、音声データ処理方法、音声データ処理プログラム、及び記憶媒体
CN102012905B (zh) 可作学习平台的手机、可定位的媒体播放处理方法及其装置
Lambourne et al. Speech-based real-time subtitling services
WO2006125347A1 (en) A homework assignment and assessment system for spoken language education and testing
CN101630448B (zh) 语言学习客户端及系统
CN103413550A (zh) 一种人机交互式语言学习系统和方法
Araújo Closed subtitling in Brazil

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325