CN111310413B - 一种基于节目串联单的广播节目音频智能拆条方法及装置 - Google Patents
一种基于节目串联单的广播节目音频智能拆条方法及装置 Download PDFInfo
- Publication number
- CN111310413B CN111310413B CN202010105343.XA CN202010105343A CN111310413B CN 111310413 B CN111310413 B CN 111310413B CN 202010105343 A CN202010105343 A CN 202010105343A CN 111310413 B CN111310413 B CN 111310413B
- Authority
- CN
- China
- Prior art keywords
- alternative
- similarity
- sentences
- program
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
一种基于节目串联单的广播节目音频智能拆条方法及装置。本发明提出了一种基于语音转写文本的半监督音频拆条方法和装置,所述音频拆条方法包括:步骤一、语音转写;步骤二、构建串联单主题集合;步骤三、备选匹配;步骤五、精确匹配;以及步骤六、头尾校验,分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。本发明仅需要广播节目串联单作为模版即可完成拆条,不需要额外的标注数据,相比于基于深度学习的拆条算法人工成本比较低。
Description
技术领域
本发明所属技术领域为人工智能领域中的自然语言处理技术,特别涉及一种基于节目串联单的广播节目音频智能拆条方法及装置。
背景技术
目前音频智能拆条技术主要分为两类:一类是基于音频特征的拆条技术,利用音频分类器识别音频数据中的音乐、语音、噪声等,并根据需要进行拆分。具体而言,就是利用短时傅立叶变换将声波图转换为声谱图,再通过ReNet、DNN、CNN、RCNN等网络提取声谱图的特征,从而对不同类别的声音信号进行分类,不同类别的声音信号的转折点即可确定为拆条时间点。这一类算法不能对音频的内容进行理解,因此只能粗粒度地将音频数据切分为音乐、语音、噪声等类别,不能满足精细的音频数据拆分需求。
另一类是基于语音转写文本的拆条技术,先利用文本分类算法对由音频转写的文本数据进行拆条,再根据文本与音频的时间对齐信息实现音频拆条。随着自然语言推理技术的发展,优秀的文本分类算法(如:Bert、ERNIE等)可以从语义上理解内容,从而实现基于内容的细粒度音频拆分。然而拆条准确率仍然难以满足实际需求,难以脱离人工干预。
首先,以上两类拆条技术均属于有监督的机器学习技术,对计算机算力要求极高,并且需要大量的人工标注数据才能满足模型的训练需求,因此实施成本较高。其次,基于音频特征的拆条技术不能完成细粒度音频拆条的需求,基于转写文本的拆条技术拆条的准确度和时间精度依赖于语音转写技术,系统设计复杂,拆条准确率依然难以满足实际需求。最后,由于标注数据数量有限,造成拆条模型鲁棒性差及模型漂移问题,因此维护成本较高。
发明内容
鉴于现有技术中存在上述缺陷,本发明针对广播领域自带节目串联单的行业特点,提出了一种基于语音转写文本的半监督音频拆条方法包括以下步骤:
步骤一、语音转写;
利用语音转写算法,将广播音频转写为文本数据,利用文本数据中的标点符号将文本分割成短句集合S={s0,...,sw},并提取每个短句在音频中对应的播放点位信息;
步骤二、构建串联单主题集合;
广播节目串联单在制作的时候会将不同的主题单独编排,将这些主题对应的文字内容分别读入数组中,构建主题集合B={b0,...,bm};
步骤三、备选匹配;
利用选定的相似度计算方法,计算短句集合S与主题集合B中所有元素的字符串相似度;对于每个短句si∈S找到与其相似度最高的n(1≦n≦m)个主题,作为该主题的备选句,直到每个si都被分配到n个主题中作为备选句为止,每个主题bj∈B都对应一个备选句集合
步骤四、将备选句连接成备选段落;
按照时间连续性原则,将备选句连接成多个备选段,备选段落集合为P={p1,...,pz};
步骤五、精确匹配;
对于每个主题bj,利用选定的相似度计算方法,计算bj与P中每一个备选段落的相似度,选出相似度最大的备选段落pk;
步骤六、头尾校验;
头部校验:计算步骤五中给出的备选段落pk前y个字符与主题bj前y字符之间的字符串相似度;
尾部校验:按照同样的方法计算pk与bj尾部y个字符之间的相似度;
分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条方法,其中所述步骤四将备选句链接成备选段落的方法是:首先将Dj中所有备选句按照播出的时间先后排序,选取最早播出的备选句s1,计算此备选句的结束时间和下一句备选句s2的开始时间间隔,如果时间间隔小于T,那么继续计算s2的结束时间和s3开始时间的间隔,直到sn与sn+1之间的时间间隔大于T,那么将s1到sn之间所有短句按照播出时间顺序首尾相接组成备选段d1,接下来继续计算sn+1与sn+2之间的时间间隔,直到sk与sk+1的时间间隔大于T,连接sn+1到sk之间所有短句,组成备选段d2,以此类推,除了时间外,没有其他的判断因素。对于每个主题bj,其备选句都记录着播放点位信息,利用播放点位信息将Dj中的备选句按照播放时间顺序从小到大排列,并计算相邻备选句之间的时间间隔t,设定阈值T,找出备选句集合中所有满足条件t<T的子集,将子集中的短句顺次连接组成备选段落,得到bj的备选段落集合P={p1,...,pz}。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条方法,其中T的取值范围在0-5秒之间。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条方法,其中所述的相似度计算方法选自以下方法之一:基于jaccard系数、汉明距离、字符串编辑距离、cosin相似度、曼哈顿距离或欧式距离及其它用于衡量语义相似度的算法。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条方法,其中y的取值范围为5-50。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条方法,其中所述的标点符号包括逗号、句号、问号、感叹号。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条方法,其中所述步骤一语音转写算法选自以下算法:基于循环神经网络、卷积神经网络、深度神经网络、Transformer网络及残差网络的语音转写算法。
此外,本发明还提供了一种基于节目串联单的广播节目音频智能拆条装置,包括以下模块:
语音转写模块,用于利用语音转写算法,将广播音频转写为文本数据,利用文本数据中的标点符号将文本分割成短句集合S={s0,...,sw},并提取每个短句在音频中对应的播放点位信息;
串联单主题集合构建模块,用于广播节目串联单在制作的时候会将不同的主题单独编排,将这些主题对应的文字内容分别读入数组中,构建主题集合B={b0,...,bm};
备选匹配模块,用于利用选定的相似度计算方法,计算短句集合S与主题集合B中所有元素的字符串相似度;对于每个短句si∈S找到与其相似度最高的n(1≦n≦m)个主题,作为该主题的备选句,直到每个si都被分配到n个主题中作为备选句为止,每个主题bj∈B都对应一个备选句集合
备选段落连接模块,用于按照时间连续性原则,将备选句连接成多个备选段,建立备选段落集合P={p1,...,pz};
精确匹配模块,用于对于每个主题bj,利用选定的相似度计算方法,计算bj与P中每一个备选段落的相似度,选出相似度最大的备选段落pk;
头尾校验模块,包括头部校验模块,用于计算步骤五中给出的备选段落pk前y个字符与主题bj前y字符之间的字符串相似度;尾部校验模块:用于按照同样的方法计算pk与bj尾部y个字符之间的相似度;该头尾校验模块分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条装置,其中所述备选段落连接模块将备选句连接成备选段落,首先将Dj中所有备选句按照播出的时间先后排序,选取最早播出的备选句s1,计算此备选句的结束时间和下一句备选句s2的开始时间间隔,如果时间间隔小于T,那么继续计算s2的结束时间和s3开始时间的间隔,直到sn与sn+1之间的时间间隔大于T,那么将s1到sn之间所有短句按照播出时间顺序首尾相接组成备选段d1,接下来继续计算sn+1与sn+2之间的时间间隔,直到sk与sk+1的时间间隔大于T,连接sn+1到sk之间所有短句,组成备选段d2.以此类推,除了时间外,没有其他的判断因素,对于每个主题bj,其备选句都记录着播放点位信息,利用播放点位信息将Dj中的备选句按照播放时间顺序从小到大排列,并计算相邻备选句之间的时间间隔t,设定阈值T,找出备选句集合中所有满足条件t<T的子集,将子集中的短句顺次链接组成备选段落,得到bj的备选段落集合P={p1,...,pz}。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条装置,其中T的取值范围在0-5秒之间。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条装置,其中所述的相似度计算方法选自以下方法之一:基于jaccard系数、汉明距离、字符串编辑距离、cosin相似度、曼哈顿距离或欧式距离及其它用于衡量语义相似度的算法。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条装置,其中y的取值范围为5-50。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条装置,其中所述的标点符号包括逗号、句号、问号、感叹号。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条装置,其中所述语音转写算法选自以下算法:基于循环神经网络、卷积神经网络、深度神经网络、Transformer网络及残差网络的语音转写算法
附图说明
图1是本发明的基于节目串联单的广播节目音频智能拆条方法的流程图。
图2是本发明的基于节目串联单的广播节目音频智能拆条装置。
图3是本发明应用于上海某新闻广播节目,2019年11月1日-15日期间拆条准确率的曲线图。
具体实施方式
在详细介绍本发明一种基于节目串联单的广播节目音频智能拆条技术之前,需要说明以下内容:
本发明所称的串联单是指在广播节目正式播报之前,编辑会将需要播报的内容按照主题编排为文字材料,通过审核后形成主持人播报的正式稿件。串联单的主要内容包括节目中每一条完整报道的标题、来源、播报时间、播报档次、正文等信息。
本发明所称的拆条是指一期广播节目音频通常会包含许多板块或主题,利用技术手段将这些板块或主题从长音频中拆分出来,形成内容完整的独立短音频称为拆条。
本发明所称的相似度计算方法包括:基于jaccard系数、汉明距离、字符串编辑距离、cosin相似度、曼哈顿距离、欧式距离及其它用于衡量语义相似度的计算方法。以上相似度算法的特点在于,能够通过输出数值,定量评价两输入字符串的之间的内容相关性和语义相关性。对于jaccard系数、cosin相似度,输出数值越大,代表两段字符串相似度越高;对于汉明距离、字符串编辑距离、曼哈顿距离、欧式距离,输出数值越小,代表两段字符串相似度越高。
本发明所称的语音转写算法包括:基于循环神经网络、卷积神经网络、深度神经网络、Transformer网络及残差网络的语音转写算法。
本发明所称的分割方法中使用的标点符号包括:逗号、句号、问号、感叹号、分号等常用中文标点符号。所有方案均以标点符号进行分割,实现拆句。
本发明针对广播领域自带节目串联单的行业特点,提出了基于语音转写文本的半监督音频拆条方法和装置。半监督聚类算法是指在人为指定聚类核心的前提下进行聚类,不需要大量数据标注。在本技术中,串联单中的每个主题作为一个聚类核心。本技术通过计算音频转写文本与节目串联单的相似度,实现广播节目音频拆条,参见图1,具体步骤如下:
步骤一、语音转写;
利用语音转写算法将广播音频转写为文本数据,利用文本数据中的逗号、句号等标点符号将文本分割成短句集合S={s0,...,sw},并提取每个短句在音频中对应的播放点位信息。这里的标点符号均由语音转写算法给出,不需要技术加工。提取每个短句在音频中对应的播放点位是指转写算法给出每段转写短句或每个转写字符在原音频中对应的时间开始和结束点。
步骤二、构建串联单主题集合;
通常情况下,广播节目串联单在制作的时候会将不同的主题单独编排,将这些主题对应的文字内容分别读入数组中,构建主题集合B={b0,...,bm}。
步骤三、备选匹配;
利用选定的相似度计算方法,计算短句集合S与主题集合B中所有元素的字符串相似度。对于每个短句si∈S找到与其相似度最高的n(1≦n≦m)个主题,作为该主题的备选句。直到每个si都被分配到n个主题中作为备选句为止。此时,每个主题bj∈B都对应一个备选句集合相似度具体计算方法参考上文。由于相似度算法会给出具体数值量化两个输入字符串之间内容或者语义的相关性。值得指出的是,以上不需要对串联单或者转写文本专门去重操作,算法的设计上已经保证拆条准确度不受重复内容影响。
步骤四、将备选句链接成备选段落;
按照时间连续性原则,将备选句连接成多个备选段。连接备选段的方法是,首先将Dj中所有备选句按照播出的时间先后排序,选取最早播出的备选句s1,计算此备选句的结束时间和下一句备选句s2的开始时间间隔,如果时间间隔小于T,那么继续计算s2的结束时间和s3开始时间的间隔,直到sn与sn+1之间的时间间隔大于T,那么将s1到sn之间所有短句按照播出时间顺序首尾相接组成备选段d1。接下来继续计算sn+1与sn+2之间的时间间隔,直到sk与sk+1的时间间隔大于T,连接sn+1到sk之间所有短句,组成备选段d2.以此类推。除了时间外,没有其他的判断因素。对于每个主题bj,其备选句都记录着播放点位信息,利用播放点位信息将Dj中的备选句按照播放时间顺序从小到大排列,并计算相邻备选句之间的时间间隔t。设定阈值T,找出备选句集合中所有满足条件t<T的子集。将子集中的短句顺次链接组成备选段落,得到bj的备选段落集合P={p1,...,pz}。
在实际应用中,广播播报和语音转写环节错误都会导致转写文本与串联单不一致。选取与主题内容相似度最高的转写文本作为备选句,并不能保证不会错选或漏选。为了解决以上问题,我们假设与主题内容相似度最高的前n句中一定存在真实的备选句子,因此n越大,真实备选句被选中的概率就会越大,从而提高拆条音频的总体召回率。同时也会错误地召回一些其他主题的短句作为备选句而降低拆条音频的准确率。同理,n越小,拆条音频的召回率会降低,但准确率相应提高。具体取值一般在1-10之间,使用方要根据实际的业务需求,通过选定合适的n值平衡召回率和准确率。
通常,越短的句子,它们之间相似度差别越小,因此超短句不适合上述通过相似度召回的方法。为了解决难以召回超短句的问题,本发明提出了一个时间连续原则,即如果两个短句被召回为备选句,那么夹在它们播出时间之间的短句都应该被选入备选句。T定义了超短句的长度,即播出时长小于T的句子,即使没有通过相似度被选入备选句,也应当根据时间连续原则被强制选入备选句。增大T可以召回更多的短句,但是也会引入更多的错误,减小T可以避免错误的短句被召回,但是也有一定概率放弃正确的备选句。因此T也是平衡准确率和召回率的参数之一。通常取值在0-5秒之间,需要根据业务需求调节。按照以上选取方式,不会产生多种重复排列组合的备选段落,因为根据投递原则,每个主题不可能接收相同的转写文本。即转写文本分割出来的短句,在特定主题中最多出现一次。
步骤五、精确匹配;
对于每个主题bj,利用选定的相似度计算方法(见上文),计算bj与P中每一个备选段落的相似度。选出相似度最大的备选段落pk。
步骤六、头尾校验。
计算步骤五中给出的备选段落pk前5-50个字符与主题bj前5-50字符之间的字符串相似度称为头部校验,按照同样的方法计算pk与bj尾部5-50个字符之间的相似度称为尾部校验。根据实际需要,为头部和尾部校验设置一个阈值,不满足校验条件的主题放弃拆条。阈值高则限定转写的内容与串联单主题文本内容完全一致才能够输出,不满足条件的都会被丢弃,从而提高了拆条的准确率,而降低了召回率。此处的阈值根据业务需要和相似度算法,选取合适数值。
步骤六、音频拆分。
对于满足头部及尾部校验条件的pk,根据其对应的音频播放点位信息,将音频文件切分成短音频。
参见图2,本发明还提供了一种基于节目串联单的广播节目音频智能拆条装置,包括以下模块:
语音转写模块,用于利用语音转写服务,将广播音频转写为文本数据,利用文本数据中的标点符号将文本分割成短句集合S={s0,...,sw},并提取每个短句在音频中对应的播放点位信息;
串联单主题集合构建模块,用于广播节目串联单在制作的时候会将不同的主题单独编排,将这些主题对应的文字内容分别读入数组中,构建主题集合B={b0,...,bm};
备选匹配模块,用于利用选定的相似度计算方法,计算短句集合S与主题集合B中所有元素的字符串相似度;对于每个短句si∈S找到与其相似度最高的n(1≦n≦m)个主题,作为该主题的备选句,直到每个si都被分配到n个主题中作为备选句为止,每个主题bj∈B都对应一个备选句集合
备选段落连接模块,用于按照时间连续性原则,将备选句连接成多个备选段,建立备选段落集合P={p1,...,pz};
精确匹配模块,用于对于每个主题bj,利用选定的相似度计算方法,计算bj与P中每一个备选段落的相似度,选出相似度最大的备选段落pk;
头尾校验模块,包括头部校验模块,用于计算步骤五中给出的备选段落pk前y个字符与主题bj前y字符之间的字符串相似度以及尾部校验模块:用于按照同样的方法计算pk与bj尾部y个字符之间的相似度,其中y的取值范围为5-50;该头尾校验模块分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。
本发明进一步提供了一种基于节目串联单的广播节目音频智能拆条装置,其中所述备选段落连接模块将备选句连接成备选段落,首先将Dj中所有备选句按照播出的时间先后排序,选取最早播出的备选句s1,计算此备选句的结束时间和下一句备选句s2的开始时间间隔,如果时间间隔小于T,那么继续计算s2的结束时间和s3开始时间的间隔,直到sn与sn+1之间的时间间隔大于T,那么将s1到sn之间所有短句按照播出时间顺序首尾相接组成备选段d1,接下来继续计算sn+1与sn+2之间的时间间隔,直到sk与sk+1的时间间隔大于T,连接sn+1到sk之间所有短句,组成备选段d2.以此类推,除了时间外,没有其他的判断因素,对于每个主题bj,其备选句都记录着播放点位信息,利用播放点位信息将Dj中的备选句按照播放时间顺序从小到大排列,并计算相邻备选句之间的时间间隔t,设定阈值T,找出备选句集合中所有满足条件t<T的子集,将子集中的短句顺次链接组成备选段落,得到bj的备选段落集合P={p1,...,pz}。
与现有技术相比,本发明具有如下优点:
1、本发明仅需要广播节目串联单作为模版即可完成拆条,不需要额外的标注数据,相比于基于深度学习的拆条算法人工成本比较低。
2、本发明只需要计算转写文本与串联单之间的相似度,不需要复杂的矩阵运算即可完成拆条,从而大幅节省了算力资源。
3、本发明采用了备选匹配和精确匹配,大幅增强了算法对转写文本的容错性。在商用语音转写服务的现行转写质量下,拆条平均准确率超过85%,可满足大多数广播节目的拆条要求,无需人工干预;示例数据可以给出上海某新闻广播节目2019年11月1日-15日期间拆条准确率的曲线图。
4、本发明算法的稳定性主要取决于文本转写质量和串联单的编排质量,对于不同的音频内容,只需要微调备选匹配数n及时间阈值T,即可满足各种节目的音频拆条要求。因此算法迁移性好,维护成本比较低。如果广播音频内容与串联单完全一致,并且转写准确率100%,那么只需要用串联单中的主题内容直接匹配转写文本中的内容就可以完成拆条。
5、发明的头部和尾部校验技术可有效控制输出拆条音频的质量,从而达到无需人工干预的效果。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域技术人员而言,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (14)
1.一种基于节目串联单的广播节目音频智能拆条方法,其特征在于包括以下步骤:
步骤一、语音转写;
利用语音转写算法,将广播音频转写为文本数据,利用文本数据中的标点符号将文本分割成短句集合S={s0,...,sw},并提取每个短句在音频中对应的播放点位信息;
步骤二、构建串联单主题集合;
广播节目串联单在制作的时候会将不同的主题单独编排,将这些主题对应的文字内容分别读入数组中,构建主题集合B={b0,...,bm};
步骤三、备选匹配;
利用选定的相似度计算方法,计算短句集合S与主题集合B中所有元素的字符串相似度;对于每个短句si∈S找到与其相似度最高的n(1≦n≦m)个主题,作为该主题的备选句,直到每个si都被分配到n个主题中作为备选句为止,每个主题bj∈B都对应一个备选句集合
步骤四、将备选句连接成备选段落;
按照时间连续性原则,将备选句连接成多个备选段,备选段落集合为P={p1,...,pz};
步骤五、精确匹配;
对于每个主题bj,利用选定的相似度计算方法,计算bj与P中每一个备选段落的相似度,选出相似度最大的备选段落pk;
步骤六、头尾校验;
头部校验:计算步骤五中给出的备选段落pk前y个字符与主题bj前y字符之间的字符串相似度;
尾部校验:按照同样的方法计算pk与bj尾部y个字符之间的相似度;
分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。
2.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述步骤四将备选句连接成备选段落的方法是:首先将Dj中所有备选句按照播出的时间先后排序,选取最早播出的备选句s1,计算此备选句的结束时间和下一句备选句s2的开始时间间隔,如果时间间隔小于T,那么继续计算s2的结束时间和s3开始时间的间隔,直到sn与sn+1之间的时间间隔大于T,那么将s1到sn之间所有短句按照播出时间顺序首尾相接组成备选段d1,接下来继续计算sn+1与sn+2之间的时间间隔,直到sk与sk+1的时间间隔大于T,连接sn+1到sk之间所有短句,组成备选段d2,以此类推,除了时间外,没有其他的判断因素。对于每个主题bj,其备选句都记录着播放点位信息,利用播放点位信息将Dj中的备选句按照播放时间顺序从小到大排列,并计算相邻备选句之间的时间间隔t,设定阈值T,找出备选句集合中所有满足条件t<T的子集,将子集中的短句顺次连接组成备选段落,得到bj的备选段落集合P={p1,...,pz}。
3.一种如权利要求2所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:T的取值范围在0-5秒之间。
4.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述的相似度计算方法选自以下方法之一:基于jaccard系数、汉明距离、字符串编辑距离、cosin相似度、曼哈顿距离或欧式距离及其它用于衡量语义相似度的算法。
5.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:y的取值范围为5-50。
6.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述的标点符号包括逗号、句号、问号、感叹号。
7.一种如权利要求1所述的基于节目串联单的广播节目音频智能拆条方法,其特征在于:所述的语音转写算法包括:基于循环神经网络、卷积神经网络、深度神经网络、Transformer网络及残差网络的语音转写算法。
8.一种基于节目串联单的广播节目音频智能拆条装置,其特征在于包括以下模块:
语音转写模块,用于利用语音转写算法,将广播音频转写为文本数据,利用文本数据中的标点符号将文本分割成短句集合S={s0,...,sw},并提取每个短句在音频中对应的播放点位信息;
串联单主题集合构建模块,用于广播节目串联单在制作的时候会将不同的主题单独编排,将这些主题对应的文字内容分别读入数组中,构建主题集合B={b0,...,bm};
备选匹配模块,用于利用选定的相似度计算方法,计算短句集合S与主题集合B中所有元素的字符串相似度;对于每个短句si∈S找到与其相似度最高的n(1≦n≦m)个主题,作为该主题的备选句,直到每个si都被分配到n个主题中作为备选句为止,每个主题bj∈B都对应一个备选句集合
备选段落连接模块,用于按照时间连续性原则,将备选句连接成多个备选段,建立备选段落集合P={p1,...,pz};
精确匹配模块,用于对于每个主题bj,利用选定的相似度计算方法,计算bj与P中每一个备选段落的相似度,选出相似度最大的备选段落pk;
头尾校验模块,包括头部校验模块,用于计算步骤五中给出的备选段落pk前y个字符与主题bj前y字符之间的字符串相似度;尾部校验模块:用于按照同样的方法计算pk与bj尾部y个字符之间的相似度;该头尾校验模块分别设置相似度阈值Thh和Tht来评估拆条的准确度,当头部校验计算所得相似度大于Thh且尾部校验计算所得相似度大于Tht时,将拆条结果输出,否则放弃该主题拆条。
9.一种如权利要求8所述的基于节目串联单的广播节目音频智能拆条装置,其特征在于:所述备选段落连接模块将备选句连接成备选段落,首先将Dj中所有备选句按照播出的时间先后排序,选取最早播出的备选句s1,计算此备选句的结束时间和下一句备选句s2的开始时间间隔,如果时间间隔小于T,那么继续计算s2的结束时间和s3开始时间的间隔,直到sn与sn+1之间的时间间隔大于T,那么将s1到sn之间所有短句按照播出时间顺序首尾相接组成备选段d1,接下来继续计算sn+1与sn+2之间的时间间隔,直到sk与sk+1的时间间隔大于T,连接sn+1到sk之间所有短句,组成备选段d2.以此类推,除了时间外,没有其他的判断因素,对于每个主题bj,其备选句都记录着播放点位信息,利用播放点位信息将Dj中的备选句按照播放时间顺序从小到大排列,并计算相邻备选句之间的时间间隔t,设定阈值T,找出备选句集合中所有满足条件t<T的子集,将子集中的短句顺次连接组成备选段落,得到bj的备选段落集合P={p1,...,pz}。
10.一种如权利要求8所述的基于节目串联单的广播节目音频智能拆条装置,其特征在于:T的取值范围在0-5秒之间。
11.一种如权利要求8所述的基于节目串联单的广播节目音频智能拆条装置,其特征在于:所述的相似度计算方法选自以下方法之一:基于jaccard系数、汉明距离、字符串编辑距离、cosin相似度、曼哈顿距离或欧式距离及其它用于衡量语义相似度的算法。
12.一种如权利要求8所述的基于节目串联单的广播节目音频智能拆条装置,其特征在于:y的取值范围为5-50。
13.一种如权利要求8所述的基于节目串联单的广播节目音频智能拆条装置,其特征在于:所述的标点符号包括逗号、句号、问号、感叹号。
14.一种如权利要求8所述的基于节目串联单的广播节目音频智能拆条装置,其特征在于:所述的语音转写算法包括:基于循环神经网络、卷积神经网络、深度神经网络、Transformer网络及残差网络的语音转写算法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105343.XA CN111310413B (zh) | 2020-02-20 | 2020-02-20 | 一种基于节目串联单的广播节目音频智能拆条方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010105343.XA CN111310413B (zh) | 2020-02-20 | 2020-02-20 | 一种基于节目串联单的广播节目音频智能拆条方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111310413A CN111310413A (zh) | 2020-06-19 |
CN111310413B true CN111310413B (zh) | 2023-03-03 |
Family
ID=71161935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010105343.XA Active CN111310413B (zh) | 2020-02-20 | 2020-02-20 | 一种基于节目串联单的广播节目音频智能拆条方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310413B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651854A (zh) * | 2020-12-23 | 2021-04-13 | 讯飞智元信息科技有限公司 | 语音调度方法、装置、电子设备和存储介质 |
CN114051154A (zh) * | 2021-11-05 | 2022-02-15 | 新华智云科技有限公司 | 一种新闻视频拆条方法和系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010071112A1 (ja) * | 2008-12-15 | 2010-06-24 | 日本電気株式会社 | トピック遷移解析システム、トピック遷移解析方法およびプログラム |
WO2013097072A1 (zh) * | 2011-12-26 | 2013-07-04 | 华为技术有限公司 | 识别视频的字符的方法和装置 |
CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
CN103546667A (zh) * | 2013-10-24 | 2014-01-29 | 中国科学院自动化研究所 | 一种面向海量广播电视监管的自动新闻拆条方法 |
-
2020
- 2020-02-20 CN CN202010105343.XA patent/CN111310413B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010071112A1 (ja) * | 2008-12-15 | 2010-06-24 | 日本電気株式会社 | トピック遷移解析システム、トピック遷移解析方法およびプログラム |
WO2013097072A1 (zh) * | 2011-12-26 | 2013-07-04 | 华为技术有限公司 | 识别视频的字符的方法和装置 |
CN103345922A (zh) * | 2013-07-05 | 2013-10-09 | 张巍 | 一种长篇幅语音全自动切分方法 |
CN103546667A (zh) * | 2013-10-24 | 2014-01-29 | 中国科学院自动化研究所 | 一种面向海量广播电视监管的自动新闻拆条方法 |
Non-Patent Citations (2)
Title |
---|
基于音视频特征的新闻拆条算法;李晨杰等;《微型电脑应用》;20180220(第02期);全文 * |
新媒体视频智能拆条技术的研究与应用;周海涛;《中国传媒科技》;20151115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111310413A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107741928B (zh) | 一种基于领域识别的对语音识别后文本纠错的方法 | |
CN110717031B (zh) | 一种智能会议纪要生成方法和系统 | |
CN109670039B (zh) | 基于三部图和聚类分析的半监督电商评论情感分析方法 | |
CN109815336B (zh) | 一种文本聚合方法及系统 | |
CN111310413B (zh) | 一种基于节目串联单的广播节目音频智能拆条方法及装置 | |
Liu et al. | Speech summarization | |
Dufour et al. | Characterizing and detecting spontaneous speech: Application to speaker role recognition | |
WO2023124647A1 (zh) | 一种纪要确定方法及其相关设备 | |
CN115034218A (zh) | 一种基于多阶段训练和编辑级别投票的中文语法错误诊断方法 | |
CN113821593A (zh) | 一种语料处理的方法、相关装置及设备 | |
US20220414338A1 (en) | Topical vector-quantized variational autoencoders for extractive summarization of video transcripts | |
CN114186022A (zh) | 基于语音转录与知识图谱的调度指令质检方法及系统 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
Kang et al. | Libriheavy: a 50,000 hours asr corpus with punctuation casing and context | |
CN115794998A (zh) | 一种基于对比学习的专业领域术语挖掘方法 | |
Wray et al. | Best practices for crowdsourcing dialectal arabic speech transcription | |
CN114863914A (zh) | 构建端到端语音评测模型的深度学习方法 | |
Bhatti et al. | LSTM-based Siamese neural network for Urdu news story segmentation | |
CN115186053A (zh) | 一种搜索ppt,word文档快速引用的实现方法 | |
Dinarelli et al. | Re-ranking models based-on small training data for spoken language understanding | |
Dinarelli et al. | Re-ranking models for spoken language understanding | |
CN113407711A (zh) | 一种利用预训练模型的吉布斯受限文本摘要生成方法 | |
Lin et al. | Voxblink: A Large Scale Speaker Verification Dataset on Camera | |
CN110826343A (zh) | 基于专利数据的半自动化翻译双语模板的构建方法及系统 | |
Garofolo et al. | NIST Rich Transcription 2002 Evaluation: A Preview. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |