CN109257547B - 中文在线音视频的字幕生成方法 - Google Patents

中文在线音视频的字幕生成方法 Download PDF

Info

Publication number
CN109257547B
CN109257547B CN201811107225.1A CN201811107225A CN109257547B CN 109257547 B CN109257547 B CN 109257547B CN 201811107225 A CN201811107225 A CN 201811107225A CN 109257547 B CN109257547 B CN 109257547B
Authority
CN
China
Prior art keywords
audio
audio data
file
video
subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811107225.1A
Other languages
English (en)
Other versions
CN109257547A (zh
Inventor
薛景
陈康扬
王宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201811107225.1A priority Critical patent/CN109257547B/zh
Publication of CN109257547A publication Critical patent/CN109257547A/zh
Application granted granted Critical
Publication of CN109257547B publication Critical patent/CN109257547B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明揭示了一种中文在线音视频的字幕生成方法,包括如下步骤:S1、音频数据提取步骤,服务器接收音视频文件、提取音频数据并转化为标准格式;S2、降噪步骤,对音频数据进行降噪处理,得到音频文件;S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配。本发明的方法可以自动完成音视频信息的语音识别和字幕生成工作,有效地弥补了传统的人工速记在字幕生成工作中转换效率上的不足。

Description

中文在线音视频的字幕生成方法
技术领域
本发明涉及一种字幕自动生成方法,具体而言,涉及一种中文在线课程音视频的字幕自动生成方法,属于音频识别技术领域。
背景技术
伴随着互联网技术的不断进步和提高,各类中文在线音频、视频课程网站也得到了广泛地普及和迅速的发展,传播各领域专业知识的途径和形式都发生了改变。音频、视频信息中的同步字幕,帮助学习者克服了由于地域文化和语言差异在理解新知识时造成的困难,也消除了由于授课人吐词不清、同音字、语音不标准等引起的收听、观看音视频信息的障碍。同时,给音视频加上字幕,还能有效帮助一些听力功能衰弱或有障碍的人群理解课程中的学习内容。
传统的对音视频进行字幕添加的方式,是由专业的速记人员在收听、观看音视频数据的同时,以文字的方式快速记录每个时刻听到的声音信息,并记录下相应信息的时间戳,再由人工校对的方式将记录下的文字添加到音视频的特定时间戳位置上。该方式不仅对速记人员提出了很高的专业要求,还经常需要反复校对才能保证字幕内容的完善。此外,在添加字幕的过程中,往往也会因时间轴上存在误差而进行大量的精细调整,十分耗费人力资源。
国外的一些视频课程网站,比如Coursera,已经开始为所有的英语视频提供自动生成的字幕。对于听力有障碍的用户或者希望观看他国语言视频的用户是一个极大的福利。Google科学家Mike Cohen表示,字幕生成技术集语音识别和翻译算法于一体,但这一技术并非完美无缺,仍需要不断进步。并且,目前也有一些学者针对国内目前的中文音视频的自动字幕生成技术进行了调研,发现在中文在线课程的相关站点中,该项技术尚未得到广泛应用。
综上所述,如何在现有技术的基础上提出一种中文在线音视频的字幕生成方法,结合现有技术中的诸多优点,也就成为了本领域内技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明提出了一种中文在线音视频的字幕生成方法,包括如下步骤:
S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式;
S2、降噪步骤,对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件;
S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;
S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;
S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配。
优选地,S1所述音频数据提取步骤,具体包括:用户通过中文在线课程视频网站上传一段音视频文件,服务器接收到音视频文件、提取出其中的音频数据,服务器从音频数据中读取参数信息,并将音频数据转化为标准格式;所述参数信息至少包括声道数、编码方式及采样率。
优选地,所述的标准格式为单声道和16000帧率的WAV格式。
优选地,S2所述降噪步骤,具体包括:选取音频数据中前0.5秒的声音作为噪声样本,通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值,以此作为噪声门阈值,再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值,获得音频信号强度值,随后对音频信号强度值与噪声门阈值进行逐帧比较,保留音频信号强度值大于噪声门阈值的音频数据,最终得到降噪完成的音频文件。
优选地,S3所述数据切分步骤,具体包括:采用双门限语音端点检测技术,对已完成降噪的音频文件进行端点切分,切分出可用的音频样本,将未满足门限的部分音频文件当做静音或噪音、不做处理。
优选地,S3所述数据切分步骤中,所述双门限语音端点检测技术中的两个门限为包括过零率及短时能量。
优选地,S4所述片段识别步骤,具体包括:按照默认的最小静音长度和最短有效声音两项参数对S3中选择出的音频样本进行进一步切分,得到一系列的语音片段,然后将得到语音片段通过调用百度api进行语音识别,整理得到全部音频数据的识别结果,对识别结果采用Boson句法依存分布来检测符合依存语法关系的情况、判断识别效果。
优选地,S4所述片段识别步骤中,依存语法关系包括以下条件:
一个句子中只有一个成分是独立的;
句子的其他成分都从属于某一成分;
句子中的任何一个成分都不能依存于两个或两个以上的成分;
若句子中的成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分;
句子中心成分左右两边的其他成分相互不发生关系。
优选地,S4所述片段识别步骤中,若识别结果与上述的语法关系存在较大差异,则将最小静音长度及最短有效声音提供给用户进行参数调整,调整完毕后重新执行S4所述片段识别步骤;若识别结果经过用户确认后满足预期,则进入S5所述字幕生成步骤。
优选地,S5所述字幕生成步骤,具体包括:将各个语音片段对应的中文字幕,按照字幕的格式写入srt文件,每个语音片段的时间戳对应一段中文字幕,然后利用脚本自动调用字幕添加软件,将生成好的字幕文件按照时间添加进用户上传的音视频文件当中,最终得到一个带有字幕的中文课程视频,返回给用户以供下载。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明的方法可以自动完成音视频信息的语音识别和字幕生成工作,有效地弥补了传统的人工速记在字幕生成工作中转换效率上的不足。同时,本方法能够自动地将字幕文本对齐到时间轴,不仅省去了传统人工反复校正时间轴和精细调整等繁琐的工作,还提高了生成字幕的质量,使得中文在线课程音视频制作人员可以将更多的时间放在制作高质量的视频工作上,而非制作和调整大量视频字幕数据上,从而大大地降低了中文在线课程音视频制作的后期维护成本。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他音频识别项目的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明的流程示意图。
具体实施方式
如图1所示,本发明揭示了一种中文在线音视频的字幕生成方法,包括如下步骤:
S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式。
具体包括:用户通过中文在线课程视频网站上传一段音视频文件,服务器接收到音视频文件、提取出其中的音频数据,服务器从音频数据中读取参数信息,并将音频数据转化为标准格式。所述参数信息至少包括声道数、编码方式及采样率。
本步骤中处理分析的生成的音频格式为wav格式,wav是微软与IBM公司所开发在个人电脑存储音频流的编码格式,此格式属于资源交换档案个十(RIFF)应用之一。RIFF是由chunk构成的,chunk是RIFF组成的基本单位,每个CHUNK可看作存贮了视频的一帧数据或者是音频的一帧数据。其中Format CHUNK记录了WAV的各种参数信息,有FormatTag音频数据的编码方式、Channels声道数、SamplesPerSec采样率(每秒样本数)、BitsPerSample*每个声道的采样精度等。这里我们对数据的声道数和采样频率进行检测,如果不是标准格式就将其转化为标准格式。
所述的标准格式为单声道和16000帧率的WAV格式。
S2、降噪步骤,使用噪声门技术对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件。
此处使用了一种噪声门技术对音频数据进行了降噪处理,以提高识别率,其基本方法是选取一段噪声样本,对噪声样本进行建模,然后降低用户上传的原始音频信号中噪声的分贝。在样本信号的若干频段f[1], ..., f[M]上,分别设置噪声门g[1], ..., g[M],每个门对应一个阈值t[1], ..., t[M]。这些阈值是根据噪声样本确定。当通过某个门g[m]的信号强度超过阈值t[m]时,门就会关闭,反之,则会重新打开。以此保留下强度更大的声音。
具体包括:选取音频数据中前0.5秒的声音作为噪声样本,通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值,以此作为噪声门阈值,再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值,获得音频信号强度值,随后对音频信号强度值与噪声门阈值进行逐帧比较,保留音频信号强度值大于噪声门阈值的音频数据,最终得到降噪完成的音频文件。
S3、数据切分步骤,对音频文件进行端点切分,得到音频样本。
具体包括:采用双门限语音端点检测技术,对已完成降噪的音频文件进行端点切分,切分出可用的音频样本,将未满足门限的部分音频文件当做静音或噪音、不做处理。
所述双门限语音端点检测技术中的两个门限为包括过零率(ZCR)及短时能量(Ep)。
所述ZCR的数学形式化定义为:
zcr=
Figure DEST_PATH_IMAGE001
π{
Figure 852795DEST_PATH_IMAGE002
<0},
其中,s是采样点的值,T为帧长,函数π{A}在A为真时值为1,否则为0。
Ep的数学形式化定义为:
volume=10∗log10
Figure DEST_PATH_IMAGE003
S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果。
具体包括:按照默认的最小静音长度(space)和最短有效声音(min_voice)两项参数对S3中选择出的音频样本进行进一步切分,得到一系列的语音片段,然后将得到语音片段通过调用百度api进行语音识别,整理得到全部音频数据的识别结果,对识别结果采用Boson句法依存分布来检测符合依存语法关系的情况、判断识别效果。
所述的依存语法关系包括以下五个条件:
1、一个句子中只有一个成分是独立的。
2、句子的其他成分都从属于某一成分。
3、句子中的任何一个成分都不能依存于两个或两个以上的成分。
4、若句子中的成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分。
5、句子中心成分左右两边的其他成分相互不发生关系。
需要说明的是,本步骤中,通过向BosonNLP的api发送一个POST请求,按照要求将HTTPHeader设置成指定的格式,请求Body为需要依存分析的JSON文本,最终得到依存文法分析引擎返回的结果。以此能够判断出识别出的句式是否大致满足依存关系。若识别结果与上述语法关系存在较大差异,则将最小静音长度及最短有效声音提供给用户进行参数调整,调整完毕后重新执行S4所述片段识别步骤。若识别结果在经过用户确认后满足预期,则进入S5所述字幕生成步骤。
S5、字幕生成步骤,利用Python自动化脚本,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配,按照生成的字幕文件里各段文字的时间轴将字幕自动添加进去,生成带字幕的音视频文件。
具体包括:将各个语音片段对应的中文字幕,按照字幕的格式写入srt文件,每个语音片段的时间戳对应一段中文字幕,然后利用脚本自动调用字幕添加软件,将生成好的字幕文件按照时间添加进用户上传的音视频文件当中,最终得到一个带有字幕的中文课程视频,返回给用户以供下载。
本发明的方法可以自动完成音视频信息的语音识别和字幕生成工作,有效地弥补了传统的人工速记在字幕生成工作中转换效率上的不足。
同时,本方法能够自动地将字幕文本对齐到时间轴,不仅省去了传统人工反复校正时间轴和精细调整等繁琐的工作,还提高了生成字幕的质量,使得中文在线课程音视频制作人员可以将更多的时间放在制作高质量的视频工作上,而非制作和调整大量视频字幕数据上,从而大大地降低了中文在线课程音视频制作的后期维护成本。
此外,本发明也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他音频识别项目的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (2)

1.一种中文在线音视频的字幕生成方法,其特征在于,包括如下步骤:
S1、音频数据提取步骤,服务器接收用户上传的音视频文件、并从所接收的音视频文件中提取出音频数据,将音频数据转化为标准格式;
S2、降噪步骤,对已转化为标准格式的音频数据进行降噪处理,得到降噪完成的音频文件;
S3、数据切分步骤,对音频文件进行端点切分,得到音频样本;
S4、片段识别步骤,对所得到的音频样本进行进一步切分,得到一系列语音片段,再对语音片段进行识别,整理得到全部音频数据的识别结果;
S5、字幕生成步骤,整合分析出文本及对应的时间轴,得到字幕文件,按照生成的字幕文件将字幕与音频数据进行匹配;
S1所述音频数据提取步骤,具体包括,用户通过中文在线课程视频网站上传一段音视频文件,服务器接收到音视频文件、提取出其中的音频数据,服务器从音频数据中读取参数信息,并将音频数据转化为标准格式;所述参数信息至少包括声道数、编码方式及采样率;
S2所述降噪步骤,具体包括,选取音频数据中前0.5秒的声音作为噪声样本,通过汉宁窗对噪声样本进行分帧并求出每一帧对应的强度值,以此作为噪声门阈值,再通过汉宁窗对音频数据进行分帧并求出每一帧对应的强度值,获得音频信号强度值,随后对音频信号强度值与噪声门阈值进行逐帧比较,保留音频信号强度值大于噪声门阈值的音频数据,最终得到降噪完成的音频文件;
S3所述数据切分步骤,具体包括,采用双门限语音端点检测技术,对已完成降噪的音频文件进行端点切分,切分出可用的音频样本,将未满足门限的部分音频文件当做静音或噪音、不做处理;
S3所述数据切分步骤中,所述双门限语音端点检测技术中的两个门限为包括过零率及短时能量;
S4所述片段识别步骤,具体包括,按照默认的最小静音长度和最短有效声音两项参数对S3中选择出的音频样本进行进一步切分,得到一系列的语音片段,然后将得到语音片段通过调用百度api进行语音识别,整理得到全部音频数据的识别结果,对识别结果采用Hanlp、Boson句法依存分布来检测符合依存语法关系的情况、判断识别效果;
S4所述片段识别步骤中,依存语法关系包括以下条件:一个句子中只有一个成分是独立的;句子的其他成分都从属于某一成分;句子中的任何一个成分都不能依存于两个或两个以上的成分;若句子中的成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分;句子中心成分左右两边的其他成分相互不发生关系;
S4所述片段识别步骤中,若识别结果不满足预期,则将最小静音长度及最短有效声音提供给用户进行参数调整,调整完毕后重新执行S4所述片段识别步骤;若识别结果满足预期,则进入S5所述字幕生成步骤;
S5所述字幕生成步骤,具体包括,将各个语音片段对应的中文字幕,按照字幕的格式写入srt文件,每个语音片段的时间戳对应一段中文字幕,然后利用脚本自动调用字幕添加软件,将生成好的字幕文件按照时间添加进用户上传的音视频文件当中,最终得到一个带有字幕的中文课程视频,返回给用户以供下载。
2.根据权利要求1所述的中文在线音视频的字幕生成方法,其特征在于:所述的标准格式为单声道和16000帧率的WAV格式。
CN201811107225.1A 2018-09-21 2018-09-21 中文在线音视频的字幕生成方法 Active CN109257547B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811107225.1A CN109257547B (zh) 2018-09-21 2018-09-21 中文在线音视频的字幕生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811107225.1A CN109257547B (zh) 2018-09-21 2018-09-21 中文在线音视频的字幕生成方法

Publications (2)

Publication Number Publication Date
CN109257547A CN109257547A (zh) 2019-01-22
CN109257547B true CN109257547B (zh) 2021-04-06

Family

ID=65048519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811107225.1A Active CN109257547B (zh) 2018-09-21 2018-09-21 中文在线音视频的字幕生成方法

Country Status (1)

Country Link
CN (1) CN109257547B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110691204B (zh) * 2019-09-09 2021-04-02 苏州臻迪智能科技有限公司 一种音视频处理方法、装置、电子设备及存储介质
CN110933485A (zh) * 2019-10-21 2020-03-27 天脉聚源(杭州)传媒科技有限公司 一种视频字幕生成方法、系统、装置和存储介质
CN110740283A (zh) * 2019-10-29 2020-01-31 杭州当虹科技股份有限公司 一种基于视频通讯的语音转文字方法
CN111050201B (zh) * 2019-12-10 2022-06-14 Oppo广东移动通信有限公司 数据处理方法、装置、电子设备及存储介质
CN111312219B (zh) * 2020-01-16 2023-11-28 上海携程国际旅行社有限公司 电话录音标注方法、系统、存储介质和电子设备
CN113329192A (zh) * 2021-06-29 2021-08-31 北京烫手科技有限公司 一种智能影视字幕制作方法及系统
CN113992940B (zh) * 2021-12-27 2022-03-29 北京美摄网络科技有限公司 Web端文字视频编辑方法、系统、电子设备及存储介质
CN117749965A (zh) * 2022-09-14 2024-03-22 北京字跳网络技术有限公司 字幕处理方法及装置
CN116721662B (zh) * 2023-02-03 2023-12-01 北京探境科技有限公司 音频处理方法、装置、存储介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106409284A (zh) * 2015-07-28 2017-02-15 三星电子株式会社 用于更新语言模型并执行语音识别的方法和装置
EP3232436A2 (en) * 2012-11-16 2017-10-18 2236008 Ontario Inc. Application services interface to asr
WO2018053502A1 (en) * 2016-09-19 2018-03-22 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937972B (zh) * 2012-10-15 2016-06-22 上海外教社信息技术有限公司 一种视听字幕制作系统及方法
CN104902081B (zh) * 2015-04-30 2017-05-03 广东欧珀移动通信有限公司 一种飞行模式的控制方法及移动终端
CN105635782A (zh) * 2015-12-28 2016-06-01 魅族科技(中国)有限公司 一种字幕输出方法及装置
CN107690089A (zh) * 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
CN106601230B (zh) * 2016-12-19 2020-06-02 苏州金峰物联网技术有限公司 基于连续混合高斯hmm模型的物流分拣地名语音识别方法、系统及物流分拣系统
CN107103902B (zh) * 2017-06-14 2020-02-04 上海适享文化传播有限公司 完整语音内容递归识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3232436A2 (en) * 2012-11-16 2017-10-18 2236008 Ontario Inc. Application services interface to asr
CN106409284A (zh) * 2015-07-28 2017-02-15 三星电子株式会社 用于更新语言模型并执行语音识别的方法和装置
WO2018053502A1 (en) * 2016-09-19 2018-03-22 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
György Szaszák.Exploiting Prosody for Automatic Syntactic Phrase Boundary Detection in Speech.《Journal of Language Modelling》.2012,全文. *
一种基于遗传算法的语法网络搜索方法;汪丹丹;《电子世界》;20140530;全文 *

Also Published As

Publication number Publication date
CN109257547A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109257547B (zh) 中文在线音视频的字幕生成方法
Alghamdi et al. A corpus of audio-visual Lombard speech with frontal and profile views
CN105405439B (zh) 语音播放方法及装置
CN105245917B (zh) 一种多媒体语音字幕生成的系统和方法
CN107305541B (zh) 语音识别文本分段方法及装置
WO2017084197A1 (zh) 一种基于情感识别的智能家居控制方法及其系统
CN110166816B (zh) 用于人工智能教育的基于语音识别的视频编辑方法和系统
US20110093263A1 (en) Automated Video Captioning
CN102496364A (zh) 基于云端网络的交互式语音识别方法
US9767825B2 (en) Automatic rate control based on user identities
Federico et al. An automatic caption alignment mechanism for off-the-shelf speech recognition technologies
US20130080384A1 (en) Systems and methods for extracting and processing intelligent structured data from media files
CN103167360A (zh) 实现多语字幕翻译的方法
Álvarez et al. Automating live and batch subtitling of multimedia contents for several European languages
WO2023071578A1 (zh) 一种文本对齐语音的方法、装置、设备及介质
CN108735230B (zh) 基于混合音频的背景音乐识别方法、装置及设备
CN1932976A (zh) 一种实现视音频处理中字幕与语音同步的方法和系统
Behre et al. Streaming punctuation: A novel punctuation technique leveraging bidirectional context for continuous speech recognition
TW201102836A (en) Content adaptive multimedia processing system and method for the same
Sharma et al. Acoustic and linguistic features influence talker change detection
CN113490027A (zh) 一种短视频制作生成处理方法、设备及计算机存储介质
Fernández et al. Monitoring of audio visual quality by key indicators: Detection of selected audio and audiovisual artefacts
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法
Eizmendi Automatic speech recognition for live TV subtitling for hearing-impaired people
CN110264994A (zh) 一种语音合成方法、电子设备及智能家居系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant