CN111222499A

CN111222499A - 新闻自动拆条的条件随机场算法预测结果回流训练方法

Info

Publication number: CN111222499A
Application number: CN202010321198.9A
Authority: CN
Inventors: 张�诚; 王炜; 温序铭; 杨瀚
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-04-22
Filing date: 2020-04-22
Publication date: 2020-06-02
Anticipated expiration: 2040-04-22
Also published as: CN111222499B

Abstract

本发明公开了一种新闻自动拆条的条件随机场算法预测结果回流训练方法，包括：步骤一，新闻节目视频数据化；步骤二，训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测，得到该新闻节目视频的新闻故事；步骤三，收集该新闻节目视频的新闻故事的入出点信息；步骤四，周期性利用收集到的新闻故事的入出点信息，结合启发式规则，自动修正旧场景层特征数据表中的场景层特征数据，并将修正后的场景层特征数据保存到CRF训练数据表中；步骤五，根据距离上次训练时间以及CRF训练数据表中的数据量大小，重新训练条件随机场模型。本发明的方法可以提升条件随机场算法的准确率，并节约后续人工修正场景层算法预测标签时间。

Description

新闻自动拆条的条件随机场算法预测结果回流训练方法

技术领域

本发明属于广播电视新闻自动拆条领域，尤其是一种新闻自动拆条的条件随机场算法预测结果回流训练方法，以自动修正标注预测结果数据标签进行回流训练，适用于广播电视新闻自动拆条。

背景技术

近年来，随着电视新闻类节目的迅速发展，电视新闻类节目受到的关注也逐渐增多。电视新闻作为一种重要的信息承载方式，有着及时报道、舆论引导等非常重要的作用。电视新闻通常是作为一整档的节目播出，但是随着观众、视频编辑人员对于快速检索到视频报道某些内容的需求逐渐增多，广播电视新闻自动拆条的功能也相应出现。

条件随机场（Condition Random Field, CRF）算法目前已经广泛的应用在广播电视新闻自动拆条领域。条件随机场算法是一种有监督学习算法，用于标注序列数据。电视新闻的自动拆条，其实就是对电视新闻的众多拆条进行顺序标注，然后根据标注的结果组合成新闻故事。该算法首先需要电视新闻拆分成许多小片段，然后将这些小片段作为训练数据。首先根据真实新闻故事的分段人工标记为SS（Single Scene）、BS（Begin Scene）、MS（Middle Scene）、ES（End Scene），再提取这些小片段的特征数据（如：是否出现有主持人的演播室，临近片段间的实体相似度等）。根据人工标注的标签以及自动提取出的特征数据，组成训练数据供条件随机场算法学习。最后，利用学习的模型进行标签预测，从而将广播电视新闻自动拆条。

然而，在实际工程应用中，条件随机场算法的应用受到了一定的挑战。主要是因为条件随机场算法是一种有监督学习算法，其训练数据的标签需要进行人工标注。若将大量训练数据完全进行人工标注（人为标注SS、BS、MS、ES标签），将会耗费大量时间，而且也可能出现新闻理解不正确而错误标注的现象。但是，如果不使用大量训练数据进行训练，又会因为训练集不够而出现欠拟合现象。

因此，发明一种条件随机场算法预测结果自动回流方案，根据入出点信息，自动修正预测结果数据标签并整合回流后加入训练集进行再训练，不断增加数据集的数量，从而进一步强化条件随机场算法的训练，对于提升条件随机场算法的准确率，节约后续修正时人工标注标签时间，具有十分重要的意义。

发明内容

本发明所要解决的技术问题是：针对上述存在的问题，提供一种新闻自动拆条的条件随机场算法预测结果回流训练方法，该方法利用从用户处回流的入出点信息，自动修正预测结果数据标签并整合回流后加入训练集，强化条件随机场算法的训练。

本发明采用的技术方案为：一种新闻自动拆条的条件随机场算法预测结果回流训练方法，包括：

步骤一，新闻节目视频数据化；

步骤二，训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测，得到该新闻节目视频的新闻故事；

步骤三，收集该新闻节目视频的新闻故事的入出点信息；

步骤四，周期性利用收集到的新闻故事的入出点信息，结合启发式规则，自动修正旧场景层特征数据表中的场景层特征数据，并将修正后的场景层特征数据保存到CRF训练数据表中；

步骤五，根据距离上次训练时间以及CRF训练数据表中的数据量大小，重新训练条件随机场模型。

进一步地，步骤一包括如下子步骤：

步骤101，根据新闻节目视频中的音频停顿点，对该新闻节目视频进行初步切割得到场景层片段；

步骤102，根据每个场景层片段的视频信息，提取该场景层片段是否含演播室画面，以及在根据当前场景层片段和下一个场景层片段的演播室画面，提取演播室画面转化信息；

步骤103，根据每个场景层片段的音频信息，提取每个场景层片段的语音信息，再根据所有场景层片段的语音信息，提取每个场景层片段的主题分布与关键词；针对当前场景层片段和下一场景层片段的主题分布，利用余弦距离，计算相邻两个场景层片段的主题相似度，并根据所有场景层片段的主题相似度值，计算分位数以便将主题相似度值离散化；根据当前场景层片段和下一场景层片段的关键词，利用word2vect，计算关键词相似度，并根据所有场景层片段的关键词相似度值，计算分位数以便将关键词相似度值离散化；

步骤104，根据所有场景层片段的语音信息，提取每个场景层片段的实体，包括人物、时间、地点及组织机构；根据当前条场景层片段和下一场景层片段相应的实体类别，计算两者之间的Jaccard距离；最后根据所有场景层片段的不同实体类别，计算Jaccard距离的分位数，并根据分位数将连续的实体相似度离散化；

步骤105，根据真实新闻故事的结构，人工初始化对经过步骤101～104得到的场景层特征数据打上BS/MS/ES/SS标签。

进一步地，所述演播室画面转化信息包括两个演播室间转换、两个非演播室间转换、演播室与非演播室间转换3类。

进一步地，步骤二包括如下子步骤：

步骤201，利用步骤一得到的初始化数据，训练条件随机场模型；

步骤202，将需要进行标签预测的新闻节目视频根据步骤101～104数据化，并将数据化后得到的场景层特征数据保存到旧场景层特征数据表中；

步骤203，对旧场景层特征数据表中的场景层特征数据，利用训练好的条件随机场模型进行标签预测；

步骤204，将步骤203预测的标签组合成该需要进行标签预测的新闻节目视频的新闻故事。

进一步地，步骤三的方法为：若该新闻节目视频的新闻故事完全正确，则无需记录新闻故事的入出点信息；若该新闻节目视频的新闻故事有误，则收集所有有误的新闻故事的入出点信息记录并保存到修正新闻数据表ID_list中，且将该新闻节目视频是否进行回流训练的标记is_check置0。通过收集有误的新闻故事的入出点信息，可以利用步骤四自动为场景层打上BS/MS/ES/SS四种标签中的一种，从而节约在场景层人工修正标签的时间。

进一步地，步骤四包括如下子步骤：

步骤401，周期性统计修正新闻数据表ID_list中未进行回流训练的新闻节目视频数量，若存在未进行回流训练的新闻节目视频，则执行步骤402；否则该周期不回流数据；

步骤402，获取修正新闻数据表中所有未进行回流训练的新闻节目视频，并取第一个新闻节目视频作为当前的新闻节目视频；

步骤403，根据当前新闻节目视频的ID，查询旧场景层特征数据表中对应ID的场景层特征数据：若查询到，则执行步骤404；若查询不到，则删除该ID的新闻节目视频后再执行步骤402；

步骤404，检查步骤403查询到的场景层特征数据是否有缺失场景；

循环取出该新闻节目视频的所有新闻故事的入点，对该新闻节目视频的每个新闻故事入点，与旧场景层特征数据表中对应ID的场景层特征数据的场景入点比对：

若该新闻故事入点在场景层特征数据的场景入点中被找到，则说明该新闻故事入点正确，直接执行步骤405；

若该新闻故事入点在场景层特征数据的场景入点中没有被找到，则说明场景层特征数据存在缺失，需要新加一行到场景层特征数据中，且新加行的场景入点等于该新闻故事入点；

循环完该新闻节目视频的所有新闻故事的入点后，则利用场景入点对该新闻节目视频的场景层特征数据重新排序，并使用每个场景层特征数据的场景入点作为上一个场景层特征数据的场景出点，然后再执行步骤405；

步骤405，检查经过步骤404处理后的场景层特征数据是否存在演播室漏检与误检；

循环取出该新闻节目视频的所有的新闻故事的入点与出点，根据每个新闻故事的入点与出点，以及用户对该新闻故事是否进行修正操作，根据启发式规则，重新确定该新闻故事对应的场景层特征数据的演播室特征：

若没有修正该新闻故事的入出点，则沿用该新闻故事以前的演播室信息；

若修正该新闻故事的入出点，且明确该新闻是演播室开头，则将该新闻故事对应的场景层特征数据的第一个场景演播室特征修正为“演播室”，其余场景演播室特征修正为“其他”；

若修正该新闻故事的入出点，且用户明确该新闻是非演播室开头，则将该新闻故事对应的场景层特征数据的演播室特征全部修正为“其他”；

最后，根据场景层特征数据的修正后演播室特征，生成修生后演播室变换特征；

步骤406，检查经过步骤405处理后场景层特征数据中是否存在主题、关键字、实体离散相似度值为空：若步骤404中没有新增场景，则跳过步骤406；若步骤404中有新增场景，则提取新增场景的主题、关键字、实体，并计算前后临近场景相似度，再利用步骤103和104中的方法离散化；

步骤407，基于经过步骤406得到的该新闻节目视频的场景层特征数据，推理正确的场景层特征数据标签，并保存到CRF训练数据表中；

步骤408，将该新闻节目视频是否进行回流训练的标记is_check置1，代表已经对该新闻数据处理回流，并从所有未进行回流训练的新闻节目视频中删除，若删除后的修正新闻数据表ID_list中仍存在未进行回流训练的新闻节目视频，则执行步骤402；否则结束步骤四。

进一步地，步骤407的方法为：循环取出该新闻节目视频的所有新闻故事的入点与出点，根据每个新闻故事的入点与出点，找到对应的场景层特征数据：

若该新闻故事对应1个场景层特征数据，则该场景层特征数据的标签为SS；

若该新闻故事对应2个场景层特征数据，则第一个场景层特征数据的标签为BS，最后一个场景层特征数据的标签为ES；

若该新闻故事对应大于等于3个场景层特征数据，则第一个场景层特征数据的标签为BS，最后一个场景层特征数据的标签为ES，其余中间的场景层特征数据的标签全为MS。

进一步地，步骤五的方法为：若距离上次训练时间超过N天，N为设定的时间阈值，或CRF训练数据表中的数据量大小超过M，M为设定的数据量阈值，则利用CRF训练数据表中的数据训练新的条件随机场模型；否则不训练新的条件随机场模型。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

本发明的方法利用从用户处回流的入出点信息，自动修正预测结果数据标签并整合回流后加入训练集进行再训练，不断增加数据集的数量，从而进一步强化条件随机场算法的训练，对于提升条件随机场算法的准确率，节约后续修正人工标注标签时间，具有十分重要的意义。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明的新闻自动拆条的条件随机场算法预测结果回流训练方法的流程示意图。

图2为本发明中收集新闻节目视频的新闻故事的入出点信息操作示意图。

图3为本发明中修正场景层特征数据的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合实施例对本发明的特征和性能作进一步的详细描述。

如图1所示，本实施例提供的一种新闻自动拆条的条件随机场算法预测结果回流训练方法，包括：

步骤一，新闻节目视频数据化；

所述新闻节目视频为从某个电视频道的新闻节目中获取的历史视频。由于不同的新闻故事在进行切换时，都会有短暂的音频停顿，所以本实施例中使用音频停顿点进行视频初始切割，分成一个个小片段。新闻故事拆条的本质就是利用条件随机场算法，给这些小片段打上标签，再根据标签将这些小片段组合成新闻故事。根据该考虑，步骤一包括如下子步骤：

步骤101，根据新闻节目视频中的音频停顿点，首先对该新闻节目视频进行初步切割得到场景层片段；所有的场景层片段就是组成新闻故事的基础片段；

步骤102，根据每个场景层片段的视频信息，提取该场景层片段是否含演播室画面，以及在根据当前场景层片段和下一个场景层片段的演播室画面，提取演播室画面转化信息。其中，所述演播室画面转化信息包括两个演播室间转换、两个非演播室间转换、演播室与非演播室间转换3类。

步骤103，根据每个场景层片段的音频信息，提取每个场景层片段的语音信息，再根据所有场景层片段的语音信息，提取每个场景层片段的主题分布与关键词；

针对当前场景层片段和下一场景层片段的主题分布，利用余弦距离，计算相邻两个场景层片段的主题相似度，并根据所有场景层片段的主题相似度值，计算分位数以便将主题相似度值离散化；

根据当前场景层片段和下一场景层片段的关键词，利用word2vect，计算关键词相似度，并根据所有场景层片段的关键词相似度值，计算分位数以便将关键词相似度值离散化。

步骤104，根据所有场景层片段的语音信息，提取每个场景层片段的实体，包括人物、时间、地点及组织机构；根据当前条场景层片段和下一场景层片段相应的实体类别，计算两者之间的Jaccard距离；最后根据所有场景层片段的不同实体类别，计算Jaccard距离的分位数，并根据分位数将连续的实体相似度离散化。

步骤二：训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测，得到该新闻节目视频的新闻故事。

具体地：

步骤201，利用步骤一得到的初始化数据（即人工初始化打上标签的场景层特征数据），训练条件随机场模型；

步骤三：收集该新闻节目视频的新闻故事的入出点信息（即新闻故事的入点和出点）。

如图2所示，具体地：若该新闻节目视频的新闻故事完全正确，则无需记录新闻故事的入出点信息；若该新闻节目视频的新闻故事有误（包含提前结束错误和滞后结束错误两类），则收集所有有误的新闻故事的入出点信息记录并保存到修正新闻数据表ID_list中，且将该新闻节目视频是否进行回流训练的标记is_check置0。通过收集有误的新闻故事的入出点信息，可以利用步骤四自动为场景层打上BS/MS/ES/SS四种标签中的一种，从而节约在场景层人工修正标签的时间。

步骤四：周期性利用收集到的新闻故事的入出点信息，结合启发式规则，自动修正旧场景层特征数据表中的场景层特征数据，并将修正后的场景层特征数据保存到CRF训练数据表中。

如图3所示，具体地：

步骤401，周期性（如：每天一次，可根据需要进行设定）统计修正新闻数据表ID_list中未进行回流训练的新闻节目视频数量（即：is_check=0的数据量），若存在未进行回流训练的新闻节目视频，则执行步骤402；否则该周期不回流数据；

步骤404，检查步骤403查询到的场景层特征数据是否有缺失场景；循环取出该新闻节目视频的所有新闻故事的入点，对该新闻节目视频的每个新闻故事入点，与旧场景层特征数据表中对应ID的场景层特征数据的场景入点比对：

若该新闻故事入点在场景层特征数据的场景入点中没有被找到，则说明场景层特征数据存在缺失，需要新加一行到场景层特征数据中，且新加行的场景入点等于该新闻故事入点；循环完该新闻节目视频的所有新闻故事的入点后，则利用场景入点对该新闻节目视频的场景层特征数据重新排序，并使用每个场景层特征数据的场景入点作为上一个场景层特征数据的场景出点，然后再执行步骤405；

步骤405，检查经过步骤404处理后的场景层特征数据是否存在演播室漏检与误检；循环取出该新闻节目视频的所有的新闻故事的入点与出点，根据每个新闻故事的入点与出点，以及用户对该新闻故事是否进行修正操作，根据启发式规则，重新确定该新闻故事对应的场景层特征数据的演播室特征：

最后，根据场景层特征数据的修正后演播室特征，生成修生后演播室变换特征，可参考步骤102。

步骤406，检查经过步骤405处理后的场景层特征数据中是否存在主题、关键字、实体离散相似度值为空。若步骤404中没有新增场景（即步骤404中判断该新闻故事入点在场景层特征数据的场景入点中被找到，也即该新闻故事入点正确），则跳过步骤406；若步骤404中有新增场景（即步骤404中判断该新闻故事入点在场景层特征数据的场景入点中没有被找到，也即场景层特征数据存在缺失），则提取新增场景的主题、关键字、实体，并计算前后临近场景相似度，再利用步骤103和104中的方法离散化；

循环取出该新闻节目视频的所有新闻故事的入点与出点，根据每个新闻故事的入点与出点，找到对应的场景层特征数据：

步骤五：根据距离上次训练时间以及CRF训练数据表中的数据量大小，重新训练条件随机场模型：若距离上次训练时间超过N天，N为设定的时间阈值，或CRF训练数据表中的数据量大小超过M，M为设定的数据量阈值，则利用CRF训练数据表中的数据训练新的条件随机场模型；否则不训练新的条件随机场模型。

综上步骤一～步骤五，即可从新闻节目视频的新闻故事入出点信息，重新自动标注场景层特征数据的标签，并回流训练得到新的条件随机场模型。随后，可利用该新的条件随机场模型对未知标签的新闻节目视频进行标签预测，从而强化条件随机场模型，提升标注准确率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，包括：

步骤一，新闻节目视频数据化；

步骤三，收集该新闻节目视频的新闻故事的入出点信息；

2.根据权利要求1所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤一包括如下子步骤：

3.根据权利要求2所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，所述演播室画面转化信息包括两个演播室间转换、两个非演播室间转换、演播室与非演播室间转换3类。

4.根据权利要求2或3所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤二包括如下子步骤：

5.根据权利要求4所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤三的方法为：若该新闻节目视频的新闻故事完全正确，则无需记录新闻故事的入出点信息；若该新闻节目视频的新闻故事有误，则收集所有有误的新闻故事的入出点信息记录并保存到修正新闻数据表ID_list中，且将该新闻节目视频是否进行回流训练的标记is_check置0。

6.根据权利要求5所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤四包括如下子步骤：

7.根据权利要求6所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤407的方法为：循环取出该新闻节目视频的所有新闻故事的入点与出点，根据每个新闻故事的入点与出点，找到对应的场景层特征数据：

8.根据权利要求7所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤五的方法为：若距离上次训练时间超过N天，N为设定的时间阈值，或CRF训练数据表中的数据量大小超过M，M为设定的数据量阈值，则利用CRF训练数据表中的数据训练新的条件随机场模型；否则不训练新的条件随机场模型。