CN109389999A - 一种高性能的音视频自动断句方法和系统 - Google Patents
一种高性能的音视频自动断句方法和系统 Download PDFInfo
- Publication number
- CN109389999A CN109389999A CN201811141404.7A CN201811141404A CN109389999A CN 109389999 A CN109389999 A CN 109389999A CN 201811141404 A CN201811141404 A CN 201811141404A CN 109389999 A CN109389999 A CN 109389999A
- Authority
- CN
- China
- Prior art keywords
- point
- subordinate sentence
- sampled
- sentence
- subordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Television Signal Processing For Recording (AREA)
- Studio Circuits (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明提供了一种高性能的音视频自动断句方法及相应的系统,通过MNS消息队列对待处理的信息进行统一管理,通过多线程的处理方式实现对大量任务的连续处理,从而提高了处理效率;从wav格式文件中选取非噪音采样点,可以有效排除噪音或背景音的影响,降低无意义断句的概率;根据语言习惯设置句间时长阈值t0,当相邻非噪音采样点t>t0时,即认为该部分满足语句长度的最低要求,此时即可进行分句;制作字幕时,为了调整时间轴、使语句和文字相匹配,以分句点的时间戳作为相应文字的起始时间,一一进行匹配,从而完成字幕的配置。通过上述方法进行自动断句,可以有效缩短断句时间、提高断句准确性,从而大大节省时间成本和人力成本。
Description
技术领域
本发明属于音视频字幕制作技术领域,特别涉及一种高性能的音视频自动断句方法和系统。
背景技术
目前在制作音视频字幕时,主要通过人工进行语音断句。人工语音断句的前提是将语音全部听一遍,通过拍打快捷键、记忆抓取、语音识别等来标注一句话的开始点和结束点。由于人为拍打往往存在一定的延时,导致得到的开始点和结束点出现错位,需要另外进行手动调整。因此,整个流程需要消耗大量时间,且精准度不高。比如,30分钟的音频需要耗时40分钟至1小时的断句时间,效率极其低下。而在字幕制作环节中,如果不进行断句,而是直接由人工进行听写,往往很难进行并行化,而人听写的速度会比机器自动断句速度慢,会增加大量的时间成本和人力成本。
发明内容
为了解决上述技术问题,本发明提供了一种高性能的音视频自动断句方法和系统。
本发明具体技术方案如下:
本发明一方面提供了一种高性能的音视频自动断句方法,包括如下步骤:
S1:从MNS消息队列中读取待处理的消息,MNS中的工作线程根据队列任务下载对应的媒体文件、并转换成wav格式文件;
S2:设置一个句间时长阈值t0,从所述wav格式文件中随机选取多个非噪音采样点,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,即将在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳,相邻两个分句点之间即为一个独立的分句;
S3:制作与所述wav格式文件相配合的字幕,并按照所述时间戳对所述字幕进行断句并标记;根据所述时间戳将经过断句的字幕与所述媒体文件进行匹配,完成字幕的配置。
进一步地3.,所述步骤S1中,所述MNS消息队列包括一个输入通道和至少两个输出通道,所述输出通道为任务消息的消费进程或消费线程,所述消费进程==CPU的个数,所述消费线程==CPU的个数。
进一步地,所述步骤S2的具体方法如下:
S2.1:设置一个振幅阈值为噪音阈值A0,从所述wav格式文件中随机选取多个采样点,将振幅A>A0的所述采样点设为非噪音采样点;
S2.2:设置一个句间时长阈值t0,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,将所述相邻非噪音采样点中在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳;
S2.3:设置一个分句时长阈值T0,根据所述分句点将所述wav格式文件分成多个分句,并计算每个分句的时长T;将T<T0的分句设为有效分句,将T≥T0的分句返回步骤S2.1,重新进行分句。
进一步地,每个所述采样点包括多个帧且帧数相等,振幅A为所述采样点中所有有效帧的最大振幅,t为在前采样点的最末帧与在后采样点的第一帧之间的时间间隔,T为在前分句点的最末帧与在后分句点的第一帧之间的时长,所述时间戳为所述分句点的最末帧的时间点。
进一步地,所述步骤S2.1的具体方法如下:
S2.1.1:设置一个振幅阈值为噪音阈值A0,从所述wav格式文件中随机选取多个采样点;
S2.1.2:从所述采样点中选择所有振幅超过仪器定量限的帧作为有效帧,并据此计算平均振幅A;
S2.1.3:选出平均振幅A>A0的所有采样点,设为非噪音采样点。
进一步地,步骤S2.3的具体方法如下:
S2.3.1:设置一个分句时长阈值T0,根据所述分句点将所述wav格式文件分成多个分句,每个分句从在前分句点的最末帧开始、至在后分句点的第一帧结束;
S2.3.2:计算每个分句的时长T,并选出所有T<T0的分句,设为有效分句;
S2.3.3:将所有T≥T0的分句返回步骤S2.1,提高噪音阈值A0,重新进行分句。
进一步地,所述步骤S3中,所述字幕的每个分句的起始时间与对应的所述时间戳相同,结束时间与所述wav格式文件中对应的分句的最末帧的时间点相同。
本发明另一方面提供了一种高性能的音视频自动断句系统,包括如下部分:
消息队列管理模块,用于对MNS消息队列中的消息进行管理,并按顺序从所述MNS消息队列中读取待处理的消息;
格式转换模块,用于从所述下载对应的媒体文件、并转换成wav格式文件;
断句模块,用于设置一个句间时长阈值t0,从所述wav格式文件中随机选取多个非噪音采样点,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,即将在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳,相邻两个分句点之间即为一个独立的分句;
字幕制作模块,用于制作与所述wav格式文件相配合的字幕,并按照所述时间戳对所述字幕进行断句并标记;
字幕匹配模块,根据所述时间戳将经过断句的字幕与所述媒体文件进行匹配,完成字幕的配置。
进一步地,所述断句模块包括如下部分:
采样单元,用于设置一个振幅阈值为噪音阈值A0,并从所述wav格式文件中随机选取多个采样点,将振幅A>A0的所述采样点设为非噪音采样点;
分句点筛选单元,用于设置一个句间时长阈值t0,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,将所述相邻非噪音采样点中在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳;
分句单元,用于设置一个分句时长阈值T0,根据所述分句点将所述wav格式文件分成多个分句,并计算每个分句的时长T;将T<T0的分句设为有效分句,将T≥T0的分句返回所述采样单元,提高噪音阈值A0并重新进行分句。
进一步地,所述系统还包括如下部分:
错误信息回调模块,用于将断句过程中的错误信息回调至相应步骤进行重新处理,同时写入日志进行备份。
本发明的有益效果如下:本发明提供了一种高性能的音视频自动断句方法及相应的系统,通过MNS消息队列对待处理的信息进行统一管理,通过多线程的处理方式实现对大量任务的连续处理,从而提高了处理效率;从wav格式文件中选取非噪音采样点,可以有效排除噪音或背景音的影响,降低无意义断句的概率;根据语言习惯设置句间时长阈值t0,当相邻非噪音采样点t>t0时,即认为该部分满足语句长度的最低要求,此时即可进行分句,不满足这一条件时即不进行分句;制作字幕时,为了调整时间轴、使语句和文字相匹配,以分句点的时间戳作为相应文字的起始时间,一一进行匹配,从而完成字幕的配置。通过上述方法进行自动断句,可以有效缩短断句时间、提高断句准确性,从而大大节省时间成本和人力成本。
附图说明
图1为实施例1所述的一种高性能的音视频自动断句方法的流程图;
图2为实施例2所述的一种高性能的音视频自动断句方法中步骤S2的流程图;
图3为实施例3所述的一种高性能的音视频自动断句方法中步骤S2.1的流程图;
图4为实施例4所述的一种高性能的音视频自动断句系统的结构示意图;
图5为实施例5所述的一种高性能的音视频自动断句系统的结构示意图。
具体实施方式
下面结合附图和以下实施例对本发明作进一步详细说明。
实施例1
如图1所示,本发明实施例1提供了一种高性能的音视频自动断句方法,包括如下步骤:
S1:从MNS消息队列中读取待处理的消息,MNS中的工作线程根据队列任务下载对应的媒体文件、并转换成wav格式文件;
S2:设置一个句间时长阈值t0,从wav格式文件中随机选取多个非噪音采样点,并对相邻非噪音采样点之间的时间间隔t进行计算;当t>t0时,即将在先的非噪音采样点设为分句点,并记录分句点的时间戳,相邻两个分句点之间即为一个独立的分句;
S3:制作与wav格式文件相配合的字幕,并按照时间戳对字幕进行断句并标记;根据时间戳将经过断句的字幕与媒体文件进行匹配,完成字幕的配置。
本实施例提供了一种高性能的音视频自动断句方法,通过MNS消息队列对待处理的信息进行统一管理,通过多线程的处理方式实现对大量任务的连续处理,从而提高了处理效率;从wav格式文件中选取非噪音采样点,可以有效排除噪音或背景音的影响,降低无意义断句的概率;根据语言习惯设置句间时长阈值t0,当相邻非噪音采样点t>t0时,即认为该部分满足语句长度的最低要求,此时即可进行分句,不满足这一条件时即不进行分句;制作字幕时,为了调整时间轴、使语句和文字相匹配,以分句点的时间戳作为相应文字的起始时间,一一进行匹配,从而完成字幕的配置。在实际操作过程中,每一步操作均需要通过回调接口通知外部系统并写入日志文件,从而保证信息不发生丢失,同时在出现错误时也可以及时得到反馈。
通过上述方法进行自动断句,可以有效缩短断句时间、提高断句准确性,从而大大节省时间成本和人力成本。
实施例2
实施例2在实施例1的基础上公开了一种高性能的音视频自动断句方法,该实施例2进一步限定了步骤S1中,MNS消息队列包括一个输入通道和至少两个输出通道,输出通道为任务消息的消费进程或消费线程,消费进程==CPU的个数,消费线程==CPU的个数。
消费进程或消费线程的个数均在启动前根据服务器CPU的个数进行自动化设置,一般默认为与CPU的个数相同,以保证多个消费进程或消费线程同时运行,不发生冲突、也不会出现闲置资源。
如图2所示,步骤S2的具体方法如下:
S2.1:设置一个振幅阈值为噪音阈值A0,从wav格式文件中随机选取多个采样点,将振幅A>A0的采样点设为非噪音采样点;
判断采样点是否噪音的依据是声波振幅,振幅过小时无法与噪音进行明确区分,因此只有振幅A>噪音阈值A0时,才能认为其是不同于噪音的声音(即语音),此时将相应的采样点设为非噪音采样点,只有非噪音采样点才能用来进行下一步的判断;
S2.2:设置一个句间时长阈值t0,并对相邻非噪音采样点之间的时间间隔t进行计算;当t>t0时,将相邻非噪音采样点中在先的非噪音采样点设为分句点,并记录分句点的时间戳;
筛选好非噪音采样点后,还需对其是否可以用来分句进行判断,此时的评判标准为句间时长,当相邻非噪音采样点时间间隔t过短时,不符合人类语言习惯,可以认为此时的两个非噪音采样点距离过近、不能用于分句;只有当t>句间时长阈值t0时,才能认为其是有效分句,相应的非噪音采样点才能认为是分句点;
S2.3:设置一个分句时长阈值T0,根据分句点将wav格式文件分成多个分句,并计算每个分句的时长T;将T<T0的分句设为有效分句,将T≥T0的分句返回步骤S2.1,重新进行分句;
初步确认分句点后,由于选择采样点时随机性较大,相邻采样点的距离可能较长,因此还需要进一步判断分句是否彻底,此时的评判标准为分句时长阈值T0;当某个分句的时长T≥T0时,说明该分句过长、实质上可能包含不止一个句子,此时需要将该分句返回步骤S2.1,重新采样、重新分句,直至新的分句时长小于T0,此时的分句才能认为是有效分句。
步骤S3中,字幕的每个分句的起始时间与对应的时间戳相同,结束时间与wav格式文件中对应的分句的最末帧的时间点相同,该方式可以使每一句字幕都与其对应的语句出现的时间完全一致,从而提高使用者的阅读体验。
实施例3
实施例3在实施例1的基础上公开了一种高性能的音视频自动断句方法,该实施例3进一步限定了采样点为一段连续的帧,并且每个采样点的帧数相等,此时为了保证数据有效可靠,振幅A为采样点中所有有效帧的最大振幅,t为在前采样点的最末帧与在后采样点的第一帧之间的时间间隔,T为在前分句点的最末帧与在后分句点的第一帧之间的时长,时间戳为分句点的最末帧的时间点。
如图3所示,基于上述前提,步骤S2.1的具体方法如下:
S2.1.1:设置一个振幅阈值为噪音阈值A0,从wav格式文件中随机选取多个采样点;
S2.1.2:从采样点中选择所有振幅超过仪器定量限的帧作为有效帧,并据此计算平均振幅A;
低于仪器定量限以下虽然能被检测到,但不能被准确定量,因此将这些帧淘汰、只保留振幅超过定量限的帧,以免平均振幅A产生误差;
S2.1.3:选出平均振幅A>A0的所有采样点,设为非噪音采样点。
步骤S2.3的具体方法如下:
S2.3.1:设置一个分句时长阈值T0,根据分句点将wav格式文件分成多个分句,每个分句从在前分句点的最末帧开始、至在后分句点的第一帧结束;
上述分句方法可以避免分句内部的帧丢失、也可以防止外部不相干的帧混入,从而保证分句时长的准确性;
S2.3.2:计算每个分句的时长T,并选出所有T<T0的分句,设为有效分句;
S2.3.3:将所有T≥T0的分句返回步骤S2.1,提高噪音阈值A0,重新进行分句;
对于未能彻底分句的过长的句子,可能是由于采样点选择不当导致,也可能是由于噪音影响所致,因此返回步骤S2.1时可以提高噪音阈值A0、再重新进行采样和分句,以便降低噪音的影响。
实施例4
如图4所示,本发明实施例4提供了一种高性能的音视频自动断句系统,包括如下部分:
消息队列管理模块1,用于对MNS消息队列中的消息进行管理,并按顺序从MNS消息队列中读取待处理的消息;
格式转换模块2,用于从下载对应的媒体文件、并转换成wav格式文件;
断句模块3,用于设置一个句间时长阈值t0,从wav格式文件中随机选取多个非噪音采样点,并对相邻非噪音采样点之间的时间间隔t进行计算;当t>t0时,即将在先的非噪音采样点设为分句点,并记录分句点的时间戳,相邻两个分句点之间即为一个独立的分句;
字幕制作模块4,用于制作与wav格式文件相配合的字幕,并按照时间戳对字幕进行断句并标记;
字幕匹配模块5,根据时间戳将经过断句的字幕与媒体文件进行匹配,完成字幕的配置。
本实施例提供了一种高性能的音视频自动断句系统,消息队列管理模块1通过MNS消息队列对待处理的信息进行统一管理,通过多线程的处理方式实现对大量任务的连续处理,从而提高了处理效率;断句模块3根据格式转换模块2提供的wav格式文件选取非噪音采样点,并进行判断和分句;字幕制作模块4和字幕匹配模块5将字幕中的分句与音视频文件中的语句一一进行匹配,从而完成字幕的配置。
通过上述系统进行自动断句,可以有效缩短断句时间、提高断句准确性,从而大大节省时间成本和人力成本。
实施例5
如图5所示,实施例5在实施例4的基础上公开了一种高性能的音视频自动断句系统,该实施例5进一步限定了断句模块3包括如下部分:
采样单元31,用于设置一个振幅阈值为噪音阈值A0,并从wav格式文件中随机选取多个采样点,将振幅A>A0的采样点设为非噪音采样点;
分句点筛选单元32,用于设置一个句间时长阈值t0,并对相邻非噪音采样点之间的时间间隔t进行计算;当t>t0时,将相邻非噪音采样点中在先的非噪音采样点设为分句点,并记录分句点的时间戳;
分句单元33,用于设置一个分句时长阈值T0,根据分句点将wav格式文件分成多个分句,并计算每个分句的时长T;将T<T0的分句设为有效分句,将T≥T0的分句返回采样单元31,提高噪音阈值A0并重新进行分句。
系统还包括如下部分:
错误信息回调模块6,用于将断句过程中的错误信息回调至相应步骤进行重新处理,同时写入日志进行备份,从而保证信息不发生丢失,同时在出现错误时也可以及时得到反馈。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种高性能的音视频自动断句方法,其特征在于,包括如下步骤:
S1:从MNS消息队列中读取待处理的消息,MNS中的工作线程根据队列任务下载对应的媒体文件、并转换成wav格式文件;
S2:设置一个句间时长阈值t0,从所述wav格式文件中随机选取多个非噪音采样点,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,即将在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳,相邻两个分句点之间即为一个独立的分句;
S3:制作与所述wav格式文件相配合的字幕,并按照所述时间戳对所述字幕进行断句并标记;根据所述时间戳将经过断句的字幕与所述媒体文件进行匹配,完成字幕的配置。
2.如权利要求1所述的高性能的音视频自动断句方法,其特征在于,所述步骤S1中,所述MNS消息队列包括一个输入通道和至少两个输出通道,所述输出通道为任务消息的消费进程或消费线程,所述消费进程==CPU的个数,所述消费线程==CPU的个数。
3.如权利要求1所述的高性能的音视频自动断句方法,其特征在于,所述步骤S2的具体方法如下:
S2.1:设置一个振幅阈值为噪音阈值A0,从所述wav格式文件中随机选取多个采样点,将振幅A>A0的所述采样点设为非噪音采样点;
S2.2:设置一个句间时长阈值t0,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,将所述相邻非噪音采样点中在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳;
S2.3:设置一个分句时长阈值T0,根据所述分句点将所述wav格式文件分成多个分句,并计算每个分句的时长T;将T<T0的分句设为有效分句,将T≥T0的分句返回步骤S2.1,重新进行分句。
4.如权利要求3所述的高性能的音视频自动断句方法,其特征在于,每个所述采样点包括多个帧且帧数相等,振幅A为所述采样点中所有有效帧的最大振幅,t为在前采样点的最末帧与在后采样点的第一帧之间的时间间隔,T为在前分句点的最末帧与在后分句点的第一帧之间的时长,所述时间戳为所述分句点的最末帧的时间点。
5.如权利要求4所述的高性能的音视频自动断句方法,其特征在于,所述步骤S2.1的具体方法如下:
S2.1.1:设置一个振幅阈值为噪音阈值A0,从所述wav格式文件中随机选取多个采样点;
S2.1.2:从所述采样点中选择所有振幅超过仪器定量限的帧作为有效帧,并据此计算平均振幅A;
S2.1.3:选出平均振幅A>A0的所有采样点,设为非噪音采样点。
6.如权利要求4所述的高性能的音视频自动断句方法,其特征在于,步骤S2.3的具体方法如下:
S2.3.1:设置一个分句时长阈值T0,根据所述分句点将所述wav格式文件分成多个分句,每个分句从在前分句点的最末帧开始、至在后分句点的第一帧结束;
S2.3.2:计算每个分句的时长T,并选出所有T<T0的分句,设为有效分句;
S2.3.3:将所有T≥T0的分句返回步骤S2.1,提高噪音阈值A0,重新进行分句。
7.如权利要求1所述的高性能的音视频自动断句方法,其特征在于,所述步骤S3中,所述字幕的每个分句的起始时间与对应的所述时间戳相同,结束时间与所述wav格式文件中对应的分句的最末帧的时间点相同。
8.一种高性能的音视频自动断句系统,其特征在于,包括如下部分:
消息队列管理模块(1),用于对MNS消息队列中的消息进行管理,并按顺序从所述MNS消息队列中读取待处理的消息;
格式转换模块(2),用于从所述下载对应的媒体文件、并转换成wav格式文件;
断句模块(3),用于设置一个句间时长阈值t0,从所述wav格式文件中随机选取多个非噪音采样点,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,即将在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳,相邻两个分句点之间即为一个独立的分句;
字幕制作模块(4),用于制作与所述wav格式文件相配合的字幕,并按照所述时间戳对所述字幕进行断句并标记;
字幕匹配模块(5),根据所述时间戳将经过断句的字幕与所述媒体文件进行匹配,完成字幕的配置。
9.如权利要求8所述的高性能的音视频自动断句系统,其特征在于,所述断句模块(3)包括如下部分:
采样单元(31),用于设置一个振幅阈值为噪音阈值A0,并从所述wav格式文件中随机选取多个采样点,将振幅A>A0的所述采样点设为非噪音采样点;
分句点筛选单元(32),用于设置一个句间时长阈值t0,并对相邻所述非噪音采样点之间的时间间隔t进行计算;当t>t0时,将所述相邻非噪音采样点中在先的所述非噪音采样点设为分句点,并记录所述分句点的时间戳;
分句单元(33),用于设置一个分句时长阈值T0,根据所述分句点将所述wav格式文件分成多个分句,并计算每个分句的时长T;将T<T0的分句设为有效分句,将T≥T0的分句返回所述采样单元(31),提高噪音阈值A0并重新进行分句。
10.如权利要求8所述的高性能的音视频自动断句系统,其特征在于,所述系统还包括如下部分:
错误信息回调模块(6),用于将断句过程中的错误信息回调至相应步骤进行重新处理,同时写入日志进行备份。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811141404.7A CN109389999B (zh) | 2018-09-28 | 2018-09-28 | 一种高性能的音视频自动断句方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811141404.7A CN109389999B (zh) | 2018-09-28 | 2018-09-28 | 一种高性能的音视频自动断句方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109389999A true CN109389999A (zh) | 2019-02-26 |
CN109389999B CN109389999B (zh) | 2020-12-11 |
Family
ID=65418394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811141404.7A Active CN109389999B (zh) | 2018-09-28 | 2018-09-28 | 一种高性能的音视频自动断句方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109389999B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887779A (zh) * | 2021-01-20 | 2021-06-01 | 杭州小众圈科技有限公司 | 基于语音节奏进行自动滚动字幕的方法、系统及装置 |
CN114648984A (zh) * | 2022-05-23 | 2022-06-21 | 深圳华策辉弘科技有限公司 | 音频断句方法、装置、计算机设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716380A (zh) * | 2005-07-26 | 2006-01-04 | 浙江大学 | 基于决策树和说话人改变检测的音频分割方法 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
CN105868400A (zh) * | 2016-04-19 | 2016-08-17 | 乐视控股(北京)有限公司 | 录音信息处理方法及装置 |
CN106373592A (zh) * | 2016-08-31 | 2017-02-01 | 北京华科飞扬科技股份公司 | 音频容噪断句处理方法及系统 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN107305774A (zh) * | 2016-04-22 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
CN108470571A (zh) * | 2018-03-08 | 2018-08-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置及存储介质 |
-
2018
- 2018-09-28 CN CN201811141404.7A patent/CN109389999B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716380A (zh) * | 2005-07-26 | 2006-01-04 | 浙江大学 | 基于决策树和说话人改变检测的音频分割方法 |
CN105704538A (zh) * | 2016-03-17 | 2016-06-22 | 广东小天才科技有限公司 | 一种音视频字幕生成方法及系统 |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
CN105868400A (zh) * | 2016-04-19 | 2016-08-17 | 乐视控股(北京)有限公司 | 录音信息处理方法及装置 |
CN107305774A (zh) * | 2016-04-22 | 2017-10-31 | 腾讯科技(深圳)有限公司 | 语音检测方法和装置 |
CN106373592A (zh) * | 2016-08-31 | 2017-02-01 | 北京华科飞扬科技股份公司 | 音频容噪断句处理方法及系统 |
CN106782506A (zh) * | 2016-11-23 | 2017-05-31 | 语联网(武汉)信息技术有限公司 | 一种将录音音频分割成段的方法 |
CN108470571A (zh) * | 2018-03-08 | 2018-08-31 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频检测方法、装置及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112887779A (zh) * | 2021-01-20 | 2021-06-01 | 杭州小众圈科技有限公司 | 基于语音节奏进行自动滚动字幕的方法、系统及装置 |
CN114648984A (zh) * | 2022-05-23 | 2022-06-21 | 深圳华策辉弘科技有限公司 | 音频断句方法、装置、计算机设备及存储介质 |
CN114648984B (zh) * | 2022-05-23 | 2022-08-19 | 深圳华策辉弘科技有限公司 | 音频断句方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109389999B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2596492B1 (en) | Efficiently reducing transcription error using hybrid voice transcription | |
CN109147765B (zh) | 音频质量综合评测方法及系统 | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
EP1787289B1 (en) | A system and method for report level confidence | |
Forbes-Riley et al. | Predicting emotion in spoken dialogue from multiple knowledge sources | |
WO2019227580A1 (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN110047481B (zh) | 用于语音识别的方法和装置 | |
CN110265001B (zh) | 用于语音识别训练的语料筛选方法、装置及计算机设备 | |
CN111489765A (zh) | 一种基于智能语音技术的话务服务质检方法 | |
EP2609588A1 (en) | Speech recognition language model | |
CN105374352A (zh) | 一种语音激活方法及系统 | |
CN108549628A (zh) | 流式自然语言信息的断句装置及方法 | |
CN107767873A (zh) | 一种快速准确的离线语音识别装置及方法 | |
WO2019119279A1 (en) | Method and apparatus for emotion recognition from speech | |
CN109389999A (zh) | 一种高性能的音视频自动断句方法和系统 | |
EP2763136B1 (en) | Method and system for obtaining relevant information from a voice communication | |
CN108877779B (zh) | 用于检测语音尾点的方法和装置 | |
CN110853627B (zh) | 用于语音标注的方法及系统 | |
CN109994129A (zh) | 语音处理系统、方法和设备 | |
CN105957517A (zh) | 基于开源api的语音数据结构化转换方法及其系统 | |
US9047872B1 (en) | Automatic speech recognition tuning management | |
Behre et al. | Streaming punctuation for long-form dictation with transformers | |
CN104202321A (zh) | 一种声音录制的方法及装置 | |
CN114548063A (zh) | 基于全链路语音识别技术的电子表单填写方法及装置 | |
CN113645364A (zh) | 面向电力调度的智能语音外呼方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20210413 Address after: 518057 Shenzhen Software Park, No.1, kejizhong 2 Road, high tech Central District, Maling community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province ( Phase 2 ) Room 301, 3 / F, building 9 Patentee after: Shenzhen million curtain Mdt InfoTech Ltd. Address before: 100007 room 312, 3 / F, building 2, 28 Andingmen East Street, Dongcheng District, Beijing Patentee before: BEIJING EASUB INFORMATION TECHNOLOGY Co.,Ltd. |