CN105635782A - 一种字幕输出方法及装置 - Google Patents

一种字幕输出方法及装置 Download PDF

Info

Publication number
CN105635782A
CN105635782A CN201511018269.3A CN201511018269A CN105635782A CN 105635782 A CN105635782 A CN 105635782A CN 201511018269 A CN201511018269 A CN 201511018269A CN 105635782 A CN105635782 A CN 105635782A
Authority
CN
China
Prior art keywords
media file
audio frequency
frequency data
word
captions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511018269.3A
Other languages
English (en)
Inventor
廖伟健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meizu Technology China Co Ltd
Original Assignee
Meizu Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meizu Technology China Co Ltd filed Critical Meizu Technology China Co Ltd
Priority to CN201511018269.3A priority Critical patent/CN105635782A/zh
Publication of CN105635782A publication Critical patent/CN105635782A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明实施例公开了一种字幕输出方法及装置。通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息。

Description

一种字幕输出方法及装置
技术领域
本发明涉及多媒体技术领域,尤其涉及一种字幕输出方法及装置。
背景技术
随着互联网的迅速发展,多媒体在人类社会中产生的影响和作用越来越明显,且越来越重要,然而,在某些时候,用户接触到的媒体文件并没有提供字幕,例如手机中的录像、外国影片的宣传视频、学习资料等,由于这些媒体文件没有字幕,导致用户仅通过音频和/或视频无法获取更多的信息。
发明内容
本发明实施例提供一种字幕输出方法及装置,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息。
一方面,提供了一种字幕输出方法,所述方法包括:
获取媒体文件中的音频数据;
识别所述音频数据为文字;
当接收到播放所述媒体文件的指令时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
优选地,所述方法还包括:
当接收到播放所述媒体文件的指令时,监测所述媒体文件中是否包含字幕数据,若否,则延迟设定时间播放所述媒体文件,执行所述识别所述音频数据为文字的步骤;
当到达所述设定时间时,执行播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出的步骤。
优选地,所述识别所述音频数据为文字,包括:
识别所述音频数据为第一语言文字;
所述方法还包括:
将所述第一语言文字翻译为第二语言文字。
优选地,所述识别所述音频数据为文字,包括:
消除所述音频数据中的噪声;
将消除噪声后的所述音频数据划分为至少一段音频数据;
提取每段音频数据中的特征矢量;
在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字,所述语音数据库包括多个音频数据的特征矢量与文字的对应关系;
将所述查找到的文字生成字幕显示文件。
优选地,所述将所述识别出的文字作为所述媒体文件的字幕与所述音频信号同步显示,包括:
将所述字幕显示文件导入所述媒体文件;
在播放所述媒体文件时,将所述字幕显示文件中的字幕与所述音频信号同步显示。
另一方面,提供了一种字幕输出装置,所述装置包括:
获取模块,用于获取媒体文件中的音频数据;
识别模块,用于识别所述音频数据为文字;
播放模块,用于当接收到播放所述媒体文件的指令时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
优选地,所述装置还包括:
监测模块,用于当接收到播放所述媒体文件的指令时,监测所述媒体文件中是否包含字幕数据;
延迟模块,用于若所述监测模块的结果为否,则延迟设定时间播放所述媒体文件;
所述播放模块具体用于当到达所述设定时间时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
优选地,所述识别模块具体用于识别所述音频数据为第一语言文字;
所述装置还包括:
翻译模块,用于将所述第一语言文字翻译为第二语言文字。
优选地,所述识别模块包括:
消除单元,用于消除所述音频数据中的噪声;
划分单元,用于将消除噪声后的所述音频数据划分为至少一段音频数据;
提取单元,用于提取每段音频数据中的特征矢量;
查找单元,用于在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字,所述语音数据库包括多个音频数据的特征矢量与文字的对应关系;
生成单元,用于将所述查找到的文字生成字幕显示文件。
优选地,所述播放模块包括:
导入单元,用于将所述字幕显示文件导入所述媒体文件;
显示单元,用于在播放所述媒体文件时,将所述字幕显示文件中的字幕与所述音频信号同步显示。
实施本发明实施例提供的一种字幕输出方法及装置,具有如下有益效果:
通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种字幕输出方法的流程示意图;
图2为本发明实施例提供的另一种字幕输出方法的流程示意图;
图3为本发明实施例提供的又一种字幕输出方法的流程示意图;
图4为本发明实施例提供的一种字幕输出装置的结构示意图;
图5为本发明实施例提供的另一种字幕输出装置的结构示意图;
图6为本发明实施例提供的又一种字幕输出装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种字幕输出方法的流程示意图,该方法包括以下步骤:
S101,获取媒体文件中的音频数据。
当要播放媒体文件时,可以预先从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。本实施例中,音频数据没有对应的字幕,如果直接播放该媒体文件,用户只能观看视频和听取声音,而不能同时阅读字幕,这给用户造成一定的理解困难或不能给用户提供更多的信息。
S102,识别所述音频数据为文字。
在播放媒体文件前,将该媒体文件中的音频数据自动识别为文字,即将声音识别为文字。
S103,当接收到播放所述媒体文件的指令时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
播放媒体文件的同时,将识别出的文字作为媒体文件的字幕与音频数据同步输出,给没有字幕的媒体文件提供了字幕,从而可以给用户提供更多的信息。进行同步显示,即在播放音频数据时,显示对应的字幕,字幕的显示时间上与对应的音频数据播放同步,可采用现有的时间同步技术实现。
根据本发明实施例提供的一种字幕输出方法,通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息。
图2为本发明实施例提供的另一种字幕输出方法的流程示意图,该方法包括以下步骤:
S201,当接收到播放媒体文件的指令时,监测所述媒体文件中是否包含字幕数据;若是,则进行到步骤S202,否则,转至步骤S203。
S202,播放所述媒体文件。
S203,延迟设定时间播放所述媒体文件。
对于媒体文件中是否包含字幕数据,在播放媒体文件之前,需要进行监测,对于已经存在字幕数据的媒体文件则可以直接播放该媒体文件,对于没有字幕数据的媒体文件则需要延迟设定时间播放该媒体文件,以在该设定时间内获得媒体文件的字幕。
S204,获取所述媒体文件中的音频数据。
从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。
S205,消除所述音频数据中的噪声。
消除原始音频数据中的噪声,使处理后的数据更能反映语音的本质特征。
S206,将消除噪声后的所述音频数据划分为至少一段音频数据。
本步骤即进行端点检测,端点检测是指在音频数据中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。
S207,提取每段音频数据中的特征矢量。
特征矢量的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。
S208,在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字,所述语音数据库包括多个音频数据的特征矢量与文字的对应关系。
将提取的特征矢量依次与语音数据库中的每个模板进行匹配,将匹配成功的结果进行输出,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出,其中语义信息的获取是根据系统中存储的词汇量提取关键词。
S209,将所述查找到的文字生成字幕显示文件。
生成格式确定的字幕显示文件,从而在播放媒体文件时,可以直接同时显示该字幕显示文件。
S210,将所述字幕显示文件导入所述媒体文件。
S211,当到达所述设定时间时,播放所述媒体文件,将所述字幕显示文件中的字幕与所述音频信号同步显示。
根据本发明实施例提供的一种字幕输出方法,通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息。
图3为本发明实施例提供的又一种字幕输出方法的流程示意图,该方法包括以下步骤:
S301,当接收到播放媒体文件的指令时,监测所述媒体文件中是否包含字幕数据;若是,则进行到步骤S302,否则,转至步骤S303。
S302,播放所述媒体文件。
S303,延迟设定时间播放所述媒体文件。
对于媒体文件中是否包含字幕数据,在播放媒体文件之前,需要进行监测,对于已经存在字幕数据的媒体文件则可以直接播放该媒体文件,对于没有字幕数据的媒体文件则需要延迟设定时间播放该媒体文件,以在该设定时间内获得媒体文件的字幕。
S304,获取所述媒体文件中的音频数据。
从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。
S305,识别所述音频数据为第一语言文字。
该音频数据识别为第一语言文字识别的过程为原声识别,如果该音频数据不是用户的母语或用户容易听懂的语言,则识别出的该第一语言文字不是用户的母语或容易阅读的文字,即使识别出来,用户还是不能尽快获取更多的信息。
S306,将所述第一语言文字翻译为第二语言文字。
需要将第一语言文字转换或翻译为用户的母语或用户容易听懂的语言,以使用户更快地了解媒体文件内容。
S307,当到达所述设定时间时,播放所述媒体文件,并且将所述识别出的第二语言文字作为所述媒体文件的字幕与所述音频信号同步显示。
在本实施例中,显示的字幕即为翻译后的第二语言文字。
根据本发明实施例提供的一种字幕输出方法,通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息;且在显示字幕前,将识别出的原声对应的语言文字翻译为用户最容易读懂的语言文字,可以帮助用户更快地了解媒体文件内容。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为根据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
图4为本发明实施例提供的一种字幕输出装置的结构示意图,该装置1000包括:
获取模块11,用于获取媒体文件中的音频数据。
当要播放媒体文件时,可以预先从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。本实施例中,音频数据没有对应的字幕,如果直接播放该媒体文件,用户只能观看视频和听取声音,而不能同时阅读字幕,这给用户造成一定的理解困难或不能给用户提供更多的信息。
识别模块12,用于识别所述音频数据为文字。
在播放媒体文件前,将该媒体文件中的音频数据自动识别为文字,即将声音识别为文字。
播放模块13,用于当接收到播放所述媒体文件的指令时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
播放媒体文件的同时,将识别出的文字作为媒体文件的字幕与音频数据同步输出,给没有字幕的媒体文件提供了字幕,从而可以给用户提供更多的信息。进行同步显示,即在播放音频数据时,显示对应的字幕,字幕的显示时间上与对应的音频数据播放同步,可采用现有的时间同步技术实现。
根据本发明实施例提供的一种字幕输出装置,通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息。
图5为本发明实施例提供的另一种字幕输出装置的结构示意图,该装置2000包括:
监测模块21,用于当接收到播放媒体文件的指令时,监测所述媒体文件中是否包含字幕数据。
延迟模块22,用于延迟设定时间播放所述媒体文件。
对于媒体文件中是否包含字幕数据,在播放媒体文件之前,需要进行监测,对于已经存在字幕数据的媒体文件则可以直接播放该媒体文件,对于没有字幕数据的媒体文件则需要延迟设定时间播放该媒体文件,以在该设定时间内获得媒体文件的字幕。
获取模块23,用于获取所述媒体文件中的音频数据。
从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。
识别模块24,用于识别所述音频数据为文字。
在本实施例中,识别模块24包括消除单元241、划分单元242、提取单元243、查找单元244和生成单元245。
消除单元241,用于消除所述音频数据中的噪声。
消除原始音频数据中的噪声,使处理后的数据更能反映语音的本质特征。
划分单元242,用于将消除噪声后的所述音频数据划分为至少一段音频数据。
即进行端点检测,端点检测是指在音频数据中将语音和非语音信号时段区分开来,准确地确定出语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。
提取单元243,用于提取每段音频数据中的特征矢量。
特征矢量的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。
查找单元244,用于在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字,所述语音数据库包括多个音频数据的特征矢量与文字的对应关系。
将提取的特征矢量依次与语音数据库中的每个模板进行匹配,将匹配成功的结果进行输出,由语法分析器进行分析获取语义信息,再由对话管理器确定应答信息,由语音合成器输出,其中语义信息的获取是根据系统中存储的词汇量提取关键词。
生成单元245,用于将所述查找到的文字生成字幕显示文件。
生成格式确定的字幕显示文件,从而在播放媒体文件时,可以直接同时显示该字幕显示文件。
播放模块25,用于当接收到播放所述媒体文件的指令时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
在本实施例中,播放模块25包括导入单元251和显示单元252。
导入单元251,用于将所述字幕显示文件导入所述媒体文件。
显示单元252,用于当到达所述设定时间时,播放所述媒体文件,将所述字幕显示文件中的字幕与所述音频信号同步显示。
根据本发明实施例提供的一种字幕输出装置,通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息。
图6为本发明实施例提供的又一种字幕输出装置的结构示意图,该装置3000包括:
监测模块31,用于当接收到播放媒体文件的指令时,监测所述媒体文件中是否包含字幕数据。
延迟模块32,用于延迟设定时间播放所述媒体文件。
对于媒体文件中是否包含字幕数据,在播放媒体文件之前,需要进行监测,对于已经存在字幕数据的媒体文件则可以直接播放该媒体文件,对于没有字幕数据的媒体文件则需要延迟设定时间播放该媒体文件,以在该设定时间内获得媒体文件的字幕。
获取模块33,用于获取所述媒体文件中的音频数据。
从网络或本地存储装置获取该媒体文件。媒体文件一般包括视频数据和音频数据。
识别模块34,用于识别所述音频数据为第一语言文字。
该音频数据识别为第一语言文字识别的过程为原声识别,如果该音频数据不是用户的母语或用户容易听懂的语言,则识别出的该第一语言文字不是用户的母语或容易阅读的文字,即使识别出来,用户还是不能尽快获取更多的信息。
翻译模块35,用于将所述第一语言文字翻译为第二语言文字。
需要将第一语言文字转换或翻译为用户的母语或用户容易听懂的语言,以使用户更快地了解媒体文件内容。
播放模块36,用于当到达所述设定时间时,播放所述媒体文件,并且将所述识别出的第二语言文字作为所述媒体文件的字幕与所述音频信号同步显示。
在本实施例中,显示的字幕即为翻译后的第二语言文字。
根据本发明实施例提供的一种字幕输出装置,通过获取媒体文件中的音频数据,识别该音频数据为文字,当接收到播放该媒体文件的指令时,播放该媒体文件,并且将识别出的文字作为该媒体文件的字幕与音频数据同步输出,以给没有字幕的媒体文件提供字幕,给用户提供更多的信息;且在显示字幕前,将识别出的原声对应的语言文字翻译为用户最容易读懂的语言文字,可以帮助用户更快地了解媒体文件内容。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以用硬件实现,或固件实现,或它们的组合方式来实现。当使用软件实现时,可以将上述功能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何可用介质。以此为例但不限于:计算机可读介质可以包括随机存取存储器(RandomAccessMemory,RAM)、只读存储器(Read-OnlyMemory,ROM)、电可擦可编程只读存储器(ElectricallyErasableProgrammableRead-OnlyMemory,EEPROM)、只读光盘(CompactDiscRead-OnlyMemory,CD-ROM)或其他光盘存储、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质。此外。任何连接可以适当的成为计算机可读介质。例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(DigitalSubscriberLine,DSL)或者诸如红外线、无线电和微波之类的无线技术从网站、服务器或者其他远程源传输的,那么同轴电缆、光纤光缆、双绞线、DSL或者诸如红外线、无线和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的,盘(Disk)和碟(disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟,其中盘通常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可读介质的保护范围之内。
总之,以上所述仅为本发明技术方案的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种字幕输出方法,其特征在于,所述方法包括:
获取媒体文件中的音频数据;
识别所述音频数据为文字;
当接收到播放所述媒体文件的指令时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
当接收到播放所述媒体文件的指令时,监测所述媒体文件中是否包含字幕数据,若否,则延迟设定时间播放所述媒体文件,执行所述识别所述音频数据为文字的步骤;
当到达所述设定时间时,执行播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出的步骤。
3.如权利要求1或2所述的方法,其特征在于,所述识别所述音频数据为文字,包括:
识别所述音频数据为第一语言文字;
所述方法还包括:
将所述第一语言文字翻译为第二语言文字。
4.如权利要求1或2所述的方法,其特征在于,所述识别所述音频数据为文字,包括:
消除所述音频数据中的噪声;
将消除噪声后的所述音频数据划分为至少一段音频数据;
提取每段音频数据中的特征矢量;
在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字,所述语音数据库包括多个音频数据的特征矢量与文字的对应关系;
将所述查找到的文字生成字幕显示文件。
5.如权利要求4所述的方法,其特征在于,所述将所述识别出的文字作为所述媒体文件的字幕与所述音频信号同步显示,包括:
将所述字幕显示文件导入所述媒体文件;
在播放所述媒体文件时,将所述字幕显示文件中的字幕与所述音频信号同步显示。
6.一种字幕输出装置,其特征在于,所述装置包括:
获取模块,用于获取媒体文件中的音频数据;
识别模块,用于识别所述音频数据为文字;
播放模块,用于当接收到播放所述媒体文件的指令时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
监测模块,用于当接收到播放所述媒体文件的指令时,监测所述媒体文件中是否包含字幕数据;
延迟模块,用于若所述监测模块的结果为否,则延迟设定时间播放所述媒体文件;
所述播放模块具体用于当到达所述设定时间时,播放所述媒体文件,并且将所述识别出的文字作为所述媒体文件的字幕与所述音频数据同步输出。
8.如权利要求6或7所述的装置,其特征在于,所述识别模块具体用于识别所述音频数据为第一语言文字;
所述装置还包括:
翻译模块,用于将所述第一语言文字翻译为第二语言文字。
9.如权利要求6或7所述的方法,其特征在于,所述识别模块包括:
消除单元,用于消除所述音频数据中的噪声;
划分单元,用于将消除噪声后的所述音频数据划分为至少一段音频数据;
提取单元,用于提取每段音频数据中的特征矢量;
查找单元,用于在语音数据库中查找与所述每段音频数据中的特征矢量对应的文字,所述语音数据库包括多个音频数据的特征矢量与文字的对应关系;
生成单元,用于将所述查找到的文字生成字幕显示文件。
10.如权利要求9所述的装置,其特征在于,所述播放模块包括:
导入单元,用于将所述字幕显示文件导入所述媒体文件;
显示单元,用于在播放所述媒体文件时,将所述字幕显示文件中的字幕与所述音频信号同步显示。
CN201511018269.3A 2015-12-28 2015-12-28 一种字幕输出方法及装置 Pending CN105635782A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511018269.3A CN105635782A (zh) 2015-12-28 2015-12-28 一种字幕输出方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511018269.3A CN105635782A (zh) 2015-12-28 2015-12-28 一种字幕输出方法及装置

Publications (1)

Publication Number Publication Date
CN105635782A true CN105635782A (zh) 2016-06-01

Family

ID=56050204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511018269.3A Pending CN105635782A (zh) 2015-12-28 2015-12-28 一种字幕输出方法及装置

Country Status (1)

Country Link
CN (1) CN105635782A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156012A (zh) * 2016-06-28 2016-11-23 乐视控股(北京)有限公司 一种字幕生成方法及装置
CN106328146A (zh) * 2016-08-22 2017-01-11 广东小天才科技有限公司 一种视频的字幕生成方法及装置
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106792145A (zh) * 2017-02-22 2017-05-31 杭州当虹科技有限公司 一种音视频自动叠加字幕的方法和装置
CN106792097A (zh) * 2016-12-27 2017-05-31 深圳Tcl数字技术有限公司 音频信号字幕匹配方法及装置
CN106851401A (zh) * 2017-03-20 2017-06-13 惠州Tcl移动通信有限公司 一种自动添加字幕的方法及系统
CN107222792A (zh) * 2017-07-11 2017-09-29 成都德芯数字科技股份有限公司 一种字幕叠加方法及装置
CN107295307A (zh) * 2017-07-13 2017-10-24 安徽声讯信息技术有限公司 基于远程控制的文字与视频同步控制系统
CN109257547A (zh) * 2018-09-21 2019-01-22 南京邮电大学 中文在线音视频的字幕生成方法
CN109379628A (zh) * 2018-11-27 2019-02-22 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
CN109819202A (zh) * 2019-03-20 2019-05-28 上海高屋信息科技有限公司 字幕添加装置及字幕添加方法
CN110933536A (zh) * 2018-09-20 2020-03-27 台山市恒东音响科技有限公司 一种音箱
CN112929758A (zh) * 2020-12-31 2021-06-08 广州朗国电子科技有限公司 一种多媒体内容字幕生成方法、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
US20090157830A1 (en) * 2007-12-13 2009-06-18 Samsung Electronics Co., Ltd. Apparatus for and method of generating a multimedia email
US20100324707A1 (en) * 2009-06-19 2010-12-23 Ipeer Multimedia International Ltd. Method and system for multimedia data recognition, and method for multimedia customization which uses the method for multimedia data recognition
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN104010210A (zh) * 2014-06-12 2014-08-27 广东欧珀移动通信有限公司 一种多播放设备的播放控制方法、装置及系统
CN104333801A (zh) * 2014-11-28 2015-02-04 北京奇艺世纪科技有限公司 一种mp4媒体文件传输方法、播放方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090157830A1 (en) * 2007-12-13 2009-06-18 Samsung Electronics Co., Ltd. Apparatus for and method of generating a multimedia email
CN101382937A (zh) * 2008-07-01 2009-03-11 深圳先进技术研究院 基于语音识别的多媒体资源处理方法及其在线教学系统
US20100324707A1 (en) * 2009-06-19 2010-12-23 Ipeer Multimedia International Ltd. Method and system for multimedia data recognition, and method for multimedia customization which uses the method for multimedia data recognition
CN103327397A (zh) * 2012-03-22 2013-09-25 联想(北京)有限公司 一种媒体文件的字幕同步显示方法及系统
CN104010210A (zh) * 2014-06-12 2014-08-27 广东欧珀移动通信有限公司 一种多播放设备的播放控制方法、装置及系统
CN104333801A (zh) * 2014-11-28 2015-02-04 北京奇艺世纪科技有限公司 一种mp4媒体文件传输方法、播放方法、装置及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156012A (zh) * 2016-06-28 2016-11-23 乐视控股(北京)有限公司 一种字幕生成方法及装置
CN106328146A (zh) * 2016-08-22 2017-01-11 广东小天才科技有限公司 一种视频的字幕生成方法及装置
CN106340291A (zh) * 2016-09-27 2017-01-18 广东小天才科技有限公司 一种双语字幕制作方法及系统
CN106792097A (zh) * 2016-12-27 2017-05-31 深圳Tcl数字技术有限公司 音频信号字幕匹配方法及装置
CN106792145A (zh) * 2017-02-22 2017-05-31 杭州当虹科技有限公司 一种音视频自动叠加字幕的方法和装置
CN106851401A (zh) * 2017-03-20 2017-06-13 惠州Tcl移动通信有限公司 一种自动添加字幕的方法及系统
CN107222792A (zh) * 2017-07-11 2017-09-29 成都德芯数字科技股份有限公司 一种字幕叠加方法及装置
CN107295307A (zh) * 2017-07-13 2017-10-24 安徽声讯信息技术有限公司 基于远程控制的文字与视频同步控制系统
CN110933536A (zh) * 2018-09-20 2020-03-27 台山市恒东音响科技有限公司 一种音箱
CN110933536B (zh) * 2018-09-20 2021-02-19 台山市恒东音响科技有限公司 一种音箱
CN109257547A (zh) * 2018-09-21 2019-01-22 南京邮电大学 中文在线音视频的字幕生成方法
CN109379628B (zh) * 2018-11-27 2021-02-02 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
CN109379628A (zh) * 2018-11-27 2019-02-22 Oppo广东移动通信有限公司 视频处理方法、装置、电子设备及计算机可读介质
US11418832B2 (en) 2018-11-27 2022-08-16 Guangdong Oppo Mobile Telecommunications Corp., Ltd. Video processing method, electronic device and computer-readable storage medium
CN109819202A (zh) * 2019-03-20 2019-05-28 上海高屋信息科技有限公司 字幕添加装置及字幕添加方法
CN112929758A (zh) * 2020-12-31 2021-06-08 广州朗国电子科技有限公司 一种多媒体内容字幕生成方法、设备以及存储介质

Similar Documents

Publication Publication Date Title
CN105635782A (zh) 一种字幕输出方法及装置
KR101990023B1 (ko) 외국어학습을 위한 청크단위 분리 규칙과 핵심어 자동 강세 표시 구현 방법 및 시스템
US11190855B2 (en) Automatic generation of descriptive video service tracks
CN109754783B (zh) 用于确定音频语句的边界的方法和装置
CN103226947B (zh) 一种基于移动终端的音频处理方法及装置
CN105704538A (zh) 一种音视频字幕生成方法及系统
US9804729B2 (en) Presenting key differences between related content from different mediums
WO2020098115A1 (zh) 字幕添加方法、装置、电子设备及计算机可读存储介质
CN106340291A (zh) 一种双语字幕制作方法及系统
US9972340B2 (en) Deep tagging background noises
WO2015008162A2 (en) Systems and methods for textual content creation from sources of audio that contain speech
US9495365B2 (en) Identifying key differences between related content from different mediums
WO2014141054A1 (en) Method, apparatus and system for regenerating voice intonation in automatically dubbed videos
US20220076674A1 (en) Cross-device voiceprint recognition
US9158435B2 (en) Synchronizing progress between related content from different mediums
CN104252861A (zh) 视频语音转换方法、装置和服务器
CN105898556A (zh) 一种外挂字幕的自动同步方法及装置
CN110717337A (zh) 信息处理方法、装置、计算设备和存储介质
CN110853615A (zh) 一种数据处理方法、装置及存储介质
EP4322029A1 (en) Method and apparatus for generating video corpus, and related device
CN104464734A (zh) 声音同时处理装置、方法及程序
US9905221B2 (en) Automatic generation of a database for speech recognition from video captions
CN106550268B (zh) 视频处理方法和视频处理装置
CN113782026A (zh) 一种信息处理方法、装置、介质和设备
Lebourdais et al. Overlaps and gender analysis in the context of broadcast media

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160601

RJ01 Rejection of invention patent application after publication