CN110267061A

CN110267061A - 一种新闻拆条方法及系统

Info

Publication number: CN110267061A
Application number: CN201910362409.0A
Authority: CN
Inventors: 罗媺; 陈舟锋
Original assignee: Xinhua Wisdom Cloud Technology Co Ltd
Current assignee: Xinhua Wisdom Cloud Technology Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2019-09-20
Anticipated expiration: 2039-04-30
Also published as: CN110267061B

Abstract

本发明提出一种新闻拆条方法，包括以下步骤：获取待拆条的新闻的音频帧和视频帧；预处理音频帧，获取静音时间段，并获取各静音时间段对应的断句开始时间点和断句结束时间点；预处理视频帧，获取主播特征数据；提取各断句开始时间点和断句结束时间点相对应的视频帧，获得相应的断句开始图像、断句结束图像；根据主播特征数据判断断句开始图像和断句结束图像是否存在主播切换，当存在主播切换时，根据相应静音时间段提取对应的视频帧，获得停顿段落；获取停顿段落的待拆分点，并根据各待拆分点对新闻视频进行拆条。本发明通过主播特征数据筛选出存在主播切换的停顿段落，再判断待拆分点进行新闻拆条，能够加快处理速度，提高了准确率。

Description

一种新闻拆条方法及系统

技术领域

本发明涉及视频处理领域，具体涉及一种新闻拆条方法及系统。

背景技术

新闻是人们日常接收外界信息的一大渠道，随着媒体信息的丰富，存在海量的原始新闻数据，对这些新闻节目自动拆条能够极大地节省人力成本。目前的新闻拆条技术主要利用了转场识别，语音指纹、人脸识别等方法。

利用语音指纹实现的新闻拆条方法，首先需要建立新闻节目的人声指纹库，势必造成前期工作量较大，且有新增主播时，指纹库需要不断地刷新维护。且目前市面上声纹识别技术不成熟，一般情况下，准确率为90％以上，但需要事先注册大量主播语音样本，且在有背景噪声、多人会话的场景下，算法准确率急剧下降，故该方法不能满足准确、即时拆条的要求。

利用转场识别实现的新闻拆条方法，通过图像处理的技术比较前后两帧相差程度，大于一定阈值即判断是有转场。该方法虽然能识别出画面突变的时间点，保证了拆条召回率，但其误报相当多，准确率约为23％，因为在同一条新闻当中，也会有许多画面突变的点，以该特征作为拆条点，不具有特异性。

利用人脸识别实现的新闻拆条方法，通过计算所出现的人脸在视频时间和空间上的分布，判定是否是主持人，由主持人画面作为切分点。该方法进行拆条的准确率约为93.3％，但是因为需要计算人脸在时间上是否是均匀散布的，因此对视频出现的每一张人脸都会统计，耗时长；且由于某些新闻节目，主播播报方式有多样组合，比如双人播报，单人播报同时涵盖，导播台的镜头有拉近拉远的切换，通过约束人脸在整个画面的空间位置信息过滤非主持人脸，该方法的泛化能力不是很好。

综上，现有新闻拆条的方法均需要大量的先验知识，且准确率不高、泛化能力不强，故需要对现有技术做进一步改进。

发明内容

本发明针对现有技术中的缺点，提供了一种新闻拆条方法，还提出一种新闻拆条系统。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

一种新闻拆条方法，包括以下步骤：

获取待拆条的新闻的音频帧和视频帧；

预处理所述音频帧，获取静音时间段，并获取各静音时间段对应的断句开始时间点和断句结束时间点；预处理所述视频帧，获取主播特征数据；

提取各断句开始时间点相对应的视频帧，获得相应的断句开始图像，提取各断句结束时间点相对应的视频帧，获得相应的断句结束图像；

根据所述主播特征数据判断一一对应的断句开始图像和断句结束图像是否存在主播切换，当存在主播切换时，根据相应静音时间段提取对应的视频帧，获得停顿段落；

获取所述停顿段落的待拆分点，并根据各待拆分点对新闻视频进行拆条。

作为本发明一种新闻拆条方法的改进：

所述主播特征数据包括与主播对应的原始模板图像和特征描述子，所述预处理所述音频帧，获取主播特征数据的方法为：

从第一张视频帧起，每隔K抽取一张视频帧对各人像进行骨架分析，对视频帧中属于主播的人像进行标注，获得标签图像；

采集所述标签图像中标记为主播的人像的人脸，获得模板图像，同时将所述模板图像对应的视频帧作为原始模板图像进行保存；

将模板图像根据人脸空间位置的偏移进行归类保存，直至获得N*M的主播模板图像序列，其中N为主播人数，M为模板图像数；

提取N*M的主播模板图像序列中各模板图像的特征描述子。

作为本发明一种新闻拆条方法的进一步改进，根据所述主播特征数据判断一一对应的断句开始图像和断句结束图像是否存在主播切换的方法为：

将断句开始图像、断句结束图像和原始模板图像进行匹配，匹配成功则标注为导播台，并输出导播台标签图像，否则标注为无主播，输出主播标签图像；

利用所述特征描述子对导播台标签图像中主播进行标注，输出主播标签图像；

根据主播标签图像判断一一对应的断句开始图像和断句结束图像是否存在主播切换。

作为本发明一种新闻拆条方法的进一步改进，断句开始图像、断句结束图像和原始模板图像进行匹配的方法如下：

提取断句开始图像、断句结束图像和原始模板图像的主题色特征向量；

计算断句开始图像/断句结束图像与各原始模板图像主题色特征向量的余弦距离，直至所述余弦距离大于距离阈值，标注为导播台，并输出导播台标签图像，否则标注为无主播，输出主播标签图像。

作为本发明一种新闻拆条方法的进一步改进，利用所述特征描述子对导播台标签图像中主播进行标注的具体方法为：

将导播台标签图像中各人像与特征描述子进行人脸对比，获得人脸相似度的最大评分；

将所述人脸相似度的最大评分与评分阈值相比对，当人脸相似度的最大评分大于评分阈值，则标注该人像为对应主播，输出主播标签图像。

为解决上述技术问题，本发明还提出一种新闻拆条系统，包括：

新闻获取模块，用于获取待拆条的新闻的音频帧和视频帧；

音频帧预处理模块，用于预处理所述音频帧，获取静音时间段，并获取各静音时间段对应的断句开始时间点和断句结束时间点；

视频帧预处理模块，用于预处理所述视频帧，获取主播特征数据；

断句图像提取模块，用于提取各断句开始时间点相对应的视频帧，获得相应的断句开始图像，还用于提取各断句结束时间点相对应的视频帧，获得相应的断句结束图像；

主播切换判断模块，用于根据所述主播特征数据判断一一对应的断句开始图像和断句结束图像是否存在主播切换，当存在主播切换时，根据相应静音时间段提取对应的视频帧，获得停顿段落；

新闻拆条模块，用于获取所述停顿段落的待拆分点，根据各待拆分点对新闻视频进行拆条。

作为本发明一种新闻拆条系统的改进：

所述主播特征数据包括与主播对应的原始模板图像和特征描述子，所述视频帧预处理模块被配置为：

提取N*M的主播模板图像序列中各模板图像的特征描述子。

作为本发明一种新闻拆条系统的进一步改进，所述主播切换判断模块包括：

导播台匹配单元，用于将断句开始图像、断句结束图像和原始模板图像进行匹配，匹配成功则标注为导播台，并输出导播台标签图像，否则标注为无主播，输出主播标签图像；

主播匹配单元，用于利用所述特征描述子对导播台标签图像中主播进行标注，输出主播标签图像；

主播切换判断单元，根据主播标签图像判断一一对应的断句开始图像和断句结束图像是否存在主播切换(当存在主播切换时，主播切换判断单元根据相应静音时间段提取对应的视频帧，获得停顿段落)。

作为本发明一种新闻拆条系统的进一步改进，所述导播台匹配单元被配置为：

作为本发明一种新闻拆条系统的进一步改进，所述主播匹配单元被配置为：

本发明由于采用了以上技术方案，具有显著的技术效果：

1、本发明通过主播特征数据筛选出存在主播切换的停顿段落，再利用转场识别技术实现判断待拆分点进行新闻拆条，不仅减少转场识别需要处理的视频帧，加快处理速度，还与现有转场识别进行拆条的技术方案相比，大大提高了准确率。

2、本发明对断句开始图像、断句结束图像和原始模板图像通过主题色特征向量的提取以及余弦距离计算进行匹配，从而判断断句开始图像、断句结束图像是否为导播台，还利用骨架分析和人脸识别获取主播的特征描述子，对导播台标签图像中各人像进行与特征描述子进行人脸对比，实现对导播台标签图像中对应主播的标注，提高停顿段落中是否存在主播切换判断的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种新闻拆条方法的工作流程图；

图2是实施例1中一种新闻拆条方法的工作流程图；

图3是骨架关键点的位置示意图；

图4是实际新闻中主播骨架关键点的标注示意图；

图5是发明一种新闻拆条系统的模块连接示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

实施例1、一种基于骨架分析和人脸识别的新闻拆条方法，包括以下步骤：

S1、获取待拆条的新闻的音频帧和视频帧；

S2、预处理步骤S1所得的音频帧，获取相对应的断句开始时间序列和断句结束时间序列，具体处理方法如下：

提取分贝值低于分贝阈值且持续时间大于时间阈值对应的静音时间段，该静音时间段表示语句停顿的时间段；根据静音时间段提取出相应的起止节点，即，断句开始时间点和断句结束时间点；

注：分贝阈值和时间阈值为预设值，相关领域的工作人员可根据实际需要自行设置，本实施例中，分贝阈值设为35db，时间阈值设备1s。

整理起止节点获得断句开始时间点序列和断句结束时间点序列，且两组序列中的数据一一对应。

S3、预处理步骤S1所得的视频帧，获取主播特征数据：

主播特征数据包括原始模板图像和特征描述子。

具体处理方法如下：

3.1、骨架分析：

本实施例中，从第一张视频帧开始(即S＝1)，每隔K抽取一张视频帧进行骨架分析(即，第S+K张视频帧)，直至获得N*M的主播模板图像序列停止。

注：，N为主播人数、M为对应主播的模板图像数，N≥1，M＞1。

K为预设值，可以为帧数也可以为时间，本实施例中设置k为200ms，即，提取200ms后所对应的视频帧进行骨架分析。

根据骨架分析结果对视频帧中属于主播的人像进行标注，获得标签图像，当骨架分析结果没有符合主播骨架的人像时，对抽取下一张视频帧进行骨架分析。

进行骨架分析的步骤如下：

3.1.1、提取视频帧中各人像的骨架关键点：

本实施例中提取视频帧中各人像左眼(eyeL)、右眼(eyeR)、左耳(earL)、右耳(earR)、左肩(shoulderL)、右肩(shoulderR)、左肘(elbowL)、右肘 (elbowR)、鼻子(nose)和脖子(neck)的位置作为骨架关键点；并以视频帧左下角作为坐标原点建立坐标系，视频帧中人像骨架的各关键点在坐标系中的位置如图2所示。

3.1.2、根据步骤3.1.1所得骨架关键点判断该人像是否属于主播：

因为新闻的严肃性，要求主播的坐姿、站姿满足基本正向、端正，故可以从骨架的左右对称性和上肢的端正性上，判定该骨架是否属于主播。

即，主播的骨架关键点之间满足一定的约束条件，具体为：左眼与右眼、左耳与右耳、左肩与右肩对应(x，y)坐标满足一定的对称关系；且左肘(elbowL) 与脖子(neck)连线在X轴正方向形成的夹角α、右肘(elbowR)与脖子(neck) 连线在X轴正方向形成的夹角β的角度差在一定范围内。

根据上述约束条件对视频帧中各人像进行骨架分析，判断该骨架是否属于主播的公式如下：

|x_eyeL-x_nose|-|x_eyeR-x_nose|＜Threshold₁ (1)

|x_earL-x_nose|-|x_earR-x_nose|＜Threshold₂ (2)

|x_shoulderL-x_neck|-|x_shoulderR-x_neck|＜Threshold₃ (3)

|y_eyeL-y_nose|-|y_eyeR-y_nose|＜Threshold₁ (4)

|y_erarL-y_nose|-|y_earR-y_nose|＜Threshold₂ (5)

|y_shoulderL-y_neck|-|y_shoulderR-y_neck|＜Threshold₃ (6)

上述公式中，X表示对应骨架关键点的X轴坐标，y表示对应骨架关键点的y 轴坐标，Threshold₁，Threshold₂，Threshold₃为验证阈值，

注：验证阈值为预设值，在实际使用中相关领域的技术人员可根据需要自行调节，本实施例中Threshold₁，Threshold₂，Threshold₃均设为15。

当视频帧中人像的骨架满足上述公式(1)至公式(9)时，标注其为主播，获得标签图像(同一标签图像中可标注多个主播)

当对视频帧中各人像进行骨架分析发现没有属于主播的人像时，提取下一张视频帧，重复上述步骤进行骨架分析。

3.2、采集模板图像，并保存原始模板图像：

将步骤3.1.2所得的标签图像通过人脸检测模型，获取主播的人脸图像，即，模板图像。同时，保存将各模板图像对应的视频帧作为原始模板图像进行保存。

注：人脸检测模型采用现有的人脸检测模型，能够识别并获取标签图像中标记为主播的人像人脸即可，故无需对其进行限定。

3.3、归类主播：

将步骤3.2所得模板图像按主播归类保存，获得对应的模板图像序列，每个主播对应的模板图像序列最多保存M张模板图像(因为同一个人有时候表情有扭曲，所以一个人保存多个图才能普遍代表这个人脸)，N个主播出现完毕后，形成N*M的主播模板图像序列；具体归类方法如下：

待归类的模板图像依次与各主播对应的模板图像序列中最后一张模板图像作为比较样本进行匹配，当匹配成功时，待归类的模板图像保存至与比较样本相对应的模板图像序列中，如匹配不成功，待归类的模板图像保存至新的模板图像序列。

匹配方法为通过人脸空间位置的偏移计算进行匹配，公式如下：

|top_c-top_p＜height*0.1 (10)

|left_c-left_p|＜width*0.1 (11)

其中，top_c为待归类的模板图像中人脸距离整个视频帧的上边距，left_c为左边距；top_p为比较样本中人脸距离整个视频帧的上边距，left_p为左边距；height 为视频帧的总高度、width为视频帧的总宽度。

当满足公式(10)和公式(11)，则待归类的模板图像与对应比较样本匹配成功，如待归类的模板图像与各比较样本均不匹配，则匹配不成功。

3.4、获取特征描述子：

将步骤3.3所得N*M的主播模板图像序列中每个模板图像均发送至特征提取模型中，由特征提取模型提取其特征，获得与主播相对对应的特征描述子，便于后续的人脸比对。

注：特征提取模型仅需从模板图像提取出对应特征描述子即可，故无需对其进行限定，相关领域的技术人员可利用现有人脸识别模型轻易提取相应特征描述子。

上述特征描述子及原始模板图像作为相应主播的直播特征数据。

S4、主题色分析；

4.1、主题色提取：

根据步骤S2所得断句开始时间序列和断句结束时间序列提取对应视频帧，获得断句开始图像序列和断句结束图像序列，断句开始图像序列和断句结束图像序列中各视频帧统称为断句图像。

将断句图像和步骤3.3中保存的原始模板图像进行主题色提取，获得与图像相对应的主题色特征向量T，T＝(t1，t2，……，tn)，其中tn为第n个主题色的RBG粘合值，主题色特征向量内元素根据值大小升序排序。

本实施例中采用八叉树实现对主题色提取，各断句图像和原始模板图像进行主题色提取的方法相同，故本说明书中仅对一张断句图像进行主题色提取的方法进行详细介绍，具体方法如下：

八叉树的层高表示颜色的深度，每层的节点位置表示颜色的类型。颜色有红绿蓝三个通道，每个通道可以取0，1两个值，因此每一层粘合三个通道有8 (2³)个孩子节点，每个孩子节点表示颜色在这一层的划分区域。

将颜色划分为RGB三个通道的向量之后，每个通道颜色转换为二进制，各个通道深度为h的二进制数据粘合起来即是其在八叉树h层的子节点编号。例如像素S的每个分量为R:11111111，G:00111000，B:01000000，第一位分别粘合，结果为100，十进制结果为4，根节点的第五个子节点颜色计数加一，第二位分别粘合为101，十进制结果为5，根结点的第五个子节点的第六个子节点计数加一。如此操作直到最后一位深度粘合完毕。对图像中遍历所有像素进行八叉树的插入，记录每个节点的RGB分量累加值和像素个数。

从八叉树的最底层开始合并，将叶子节点的RBG三个分量和像素总数累加到父节点上后，将叶子节点烧掉，从而去除图像中的颜色细节，剩下的叶子节点(即，烧掉叶子节点后由父节点退化形成的叶子节点)个数即是需要统计的主题颜色个数。

统计剩下的叶子节点的RGB通道值从而实现主题色提取，统计方法如下：

判断当前节点是否为叶子节点；

如当前节点是叶子节点，统计该叶子节点三个通道的平均值(各分量累加值除以像素个数)，计算出颜色索引，加入主题色序列中。

如当前节点不是叶子节点，遍历其孩子节点，重复上述步骤。

最终获得该图像的主题色特征向量。

4.2、主题色分析：

根据步骤4.1所得各断句图像的和原始模板图像的主题色特征向量相匹配，根据匹配结果标注断句图像有无主播，获得断句标签图像。

各断句图像和原始模板图像的主题色特征向量的匹配方法相同，故本实施例仅对一个断句图像与各原始模板图像的主题色特征向量进行匹配的方法进行详细介绍，本实施例中利用余弦距离进行匹配，具体方法如下：

断句图像依次与各原始模板图像的主题色特征向量的余弦距离进行计算，直至d大于距离阈值，此时标注断句图像为导播台，输出导播台标签图像，否则标注断句图像无主播，输出主播标签图像。

余弦距离公式如下：

其中，n为特征向量的维数，本专利取64。p为模板背景图像帧的特征向量， q为当前图像帧特征向量。d大于0.65则认为断句图像匹配上该原始模板图像。

4.3、人脸比对：利用特征描述子与导播台标签图像中主播进行人脸对比，从而对主播的进行标注。

将步骤4.2所得的导播台标签图像与步骤4.2中匹配成功的原始模板图像对应的模板图像序列进行人脸比对，具体方法为：

利用人脸对比模型将导播台标签图像中各人像与特征描述子进行人脸对比，各人像均获得与各主播人脸相似度的评分，取各人像人脸相似度的最大评分并与评分阈值相比对，当最大评分大于评分阈值，则标注相应的人像为对应的主播，输出主播标签图像。

注：当导播台标签图像中无一个可标注为主播的人像，则标注无主播，输出主播标签图像。

人脸对比模型进行进行人脸对比并输出人脸相似度的评分，故无需对人脸对比模型进行限定相关领域的技术人员也能轻易实现，且相关领域的技术人员可根据实际情况对评分阈值自行调整，本实施例中采用现有的百度人脸对比模型，评分阈值设置为0.7。

4.4、主播切换判断：

按照步骤4.3所得主播标签图像判断是否存在主播人物切换，主播人物切换包括主播从有到无、从无到有、以及主播个数和人物的变化。

具体为：

根据主播标签图像判断一一对应的断句开始图像和断句结束图像是否存在主播人物切换，当判断结果为存在主播人物切换时，即表示对应时间段内存在待拆分点。提取对应时间段的视频帧获得停顿段落。

4.5、新闻拆条：

利用转场识别技术处理所得停顿段落获取对应待拆分点。

注：转场识别获取待拆分点属于现有技术，利用现有的转场识别技术可以识别出短暂的停顿段落中镜头突变的一帧时间戳，以该时间戳作为待拆分点进行记录。

将所得拆分点进行排序、去重、汇总获得待拆分序列，根据待拆分序列对新闻视频进行拆条。

按照上述方法对央视新闻联播进行拆条，所得准确率(平均值)为：96％。

本发明通过骨架分析、人脸识别、主题色提取及匹配、转场识别等多种方法结合，实现对新闻的检测，与现有单纯转场识别相比能够有效减少处理时间并提高准确率；与现有单纯人脸识别相比，从新闻视频第一帧开始分析，实时注册人脸，避免了需要获取到待分析新闻的主持人先验知识。

实施例2、一种新闻拆条系统，如图5所示包括：

新闻获取模块1，用于获取待拆条的新闻的音频帧和视频帧；

音频帧预处理模块2，用于预处理音频帧，获取静音时间段，并获取各静音时间段对应的断句开始时间点和断句结束时间点；

视频帧预处理模块3，用于预处理视频帧，获取主播特征数据；

主播特征数据包括与主播对应的原始模板图像和特征描述子，视频帧预处理模块3被配置为：

采集标签图像中标记为主播的人像的人脸，获得模板图像，同时将模板图像对应的视频帧作为原始模板图像进行保存；

提取N*M的主播模板图像序列中各模板图像的特征描述子。

断句图像提取模块4，用于提取各断句开始时间点相对应的视频帧，获得相应的断句开始图像，还用于提取各断句结束时间点相对应的视频帧，获得相应的断句结束图像；

主播切换判断模块5，用于根据主播特征数据判断一一对应的断句开始图像和断句结束图像是否存在主播切换，当存在主播切换时，根据相应静音时间段提取对应的视频帧，获得停顿段落；

主播切换判断模块5包括：

导播台匹配单元被配置为：

计算断句开始图像/断句结束图像与各原始模板图像主题色特征向量的余弦距离，直至余弦距离大于距离阈值，标注为导播台，并输出导播台标签图像，否则标注为无主播，输出主播标签图像；

主播匹配单元被配置为：

将人脸相似度的评分与评分阈值相比对，当人脸相似度的评分大于评分阈值，则确定该断句标签图像中的主播，否则将标注更正为无主播。

主播切换判断单元，根据主播标签图像判断一一对应的断句开始图像和断句结束图像是否存在主播切换，当存在主播切换时，主播切换判断单元根据相应静音时间段提取对应的视频帧，获得停顿段落。

新闻拆条模块6，用于获取停顿段落的待拆分点，根据各待拆分点对新闻视频进行拆条。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.一种新闻拆条方法，其特征在于，包括以下步骤：

获取待拆条的新闻的音频帧和视频帧；

2.根据权利要求1所述的一种新闻拆条方法，其特征在于：

提取N*M的主播模板图像序列中各模板图像的特征描述子。

3.根据权利要求2所述的一种新闻拆条方法，其特征在于，根据所述主播特征数据判断一一对应的断句开始图像和断句结束图像是否存在主播切换的方法为：

4.根据权利要求3所述的一种新闻拆条方法，其特征在于，断句开始图像、断句结束图像和原始模板图像进行匹配的方法如下：

5.根据权利要求4所述的一种新闻拆条方法，其特征在于，利用所述特征描述子对导播台标签图像中主播进行标注的具体方法为：

6.一种新闻拆条系统，其特征在于，包括：

新闻获取模块，用于获取待拆条的新闻的音频帧和视频帧；

7.根据权利要求6所述的一种新闻拆条系统，其特征在于：

提取N*M的主播模板图像序列中各模板图像的特征描述子。

8.根据权利要求7所述的一种新闻拆条系统，其特征在于，所述主播切换判断模块包括：

主播切换判断单元，根据主播标签图像判断一一对应的断句开始图像和断句结束图像是否存在主播切换。

9.根据权利要求8所述的一种新闻拆条系统，其特征在于，所述导播台匹配单元被配置为：

10.根据权利要求9所述的一种新闻拆条系统，其特征在于，所述主播匹配单元被配置为：