CN111931775B

CN111931775B - 自动获取新闻标题方法、系统、计算机设备及存储介质

Info

Publication number: CN111931775B
Application number: CN202011036604.3A
Authority: CN
Inventors: 温序铭; 牟骏杰; 谢超平
Original assignee: Chengdu Sobey Digital Technology Co Ltd
Current assignee: Chengdu Sobey Digital Technology Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-08
Anticipated expiration: 2040-09-28
Also published as: CN111931775A

Abstract

本发明公开了一种自动获取新闻标题方法、系统、计算机设备及存储介质，利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息，最后根据单条新闻入出点信息确定新闻标题。本发明对于提取不同类型的新闻标题都有很好的效果，同时不用进行人工标记制作模板等人工辅助操作，因此可以大大节约人工成本，在新闻标题提取的工作中具有较为深远的意义。

Description

自动获取新闻标题方法、系统、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种自动获取新闻标题方法、系统、计算机设备及存储介质。

背景技术

近年来，电视新闻类节目在快速发展和扩大，电视新闻类也随着电视的普及逐渐替代纸质类新闻成为人们获取新闻的第一途径。其中新闻标题作为新闻的高度概括和主题精华可以作为视频片断的内容标识和索引，对于理解新闻的内容具有重要的意义，而人工识别新闻标题费时费力，因此新闻标题自动定位、提取和识别为相应视频流进行高级语义标注、建立视频数据库和智能检索，提供了一种切实可行和有效的途径。也成为新闻检索和新闻自动拆条任务的主要工具。

新闻场景OCR（Optical Character Recognition，光学字符识别）识别方法采用了分两步完成文本识别：

第一步为利用PSENET（Progressive Scale Expansion Network，渐进式规模扩张网络）实现新闻画面中文本检测工作，利用渐进式尺度扩展网络的形状鲁棒文本检测。

第二步在文本检测结果的基础上利用CRNN（Convolutional Recurrent NeuralNetwork，卷积递归神经网络）算法实现文本框中的文本识别工作。

然而，在实际工程应用中，光是得到新闻场景中OCR识别结果还无法准确的区分出新闻的标题。主要原因是新闻中存在滚动字幕，以及新闻标题等多种类别的文字，单是使用位置信息和文本信息无法做到，对标题做到很好的提取，若是粗暴的利用模板和位置信息确定标题，则更换一条新闻就需要更换一次模板和位置阈值，这样的方法反而增加了人力成本依然是不可取的。

发明内容

为了解决上述问题，本发明提出一种自动获取新闻标题方法、系统、计算机设备及存储介质，利用OCR技术获取新闻字符框和字符框中的文字，再利用字符框和字符框中文字，配合BERT实体抽取中文字特征去除非标题文本，从而自动获取新闻标题，该方法适用于广播电视新闻自动拆条、新闻检索等任务。

本发明的一种自动获取新闻标题方法，利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息，最后根据单条新闻入出点信息确定新闻标题。

进一步的，包括以下步骤：

步骤1：对整档新闻进行OCR识别工作，利用PSENET对新闻单帧图片进行文本检测，得到文本框后利用CRNN对文本框中文本进行识别，识别完成后记录文本框信息以及文本信息；

步骤2：根据整档新闻的OCR结果，以及新闻标题具有多帧在同样位置且文本信息相同的特点，先对单行的文本位置进行聚类工作，利用每个文本框相近位置文本框的出现与消失，将整档新闻切割成多个文本框组成的文本shot；

步骤3：利用CRNN识别的文字信息，根据每个文本shot中文本信息是否相同，将每个文本shot分为是否为标题待选文本，其中文本信息相同的为标题待选文本，文本信息不同的列为非标题文本；

步骤4：利用BERT和LSTM配合CRF对标题待选文本进行实体识别，当抽取到文本实体中有非标题信息时，判断该文本信息为非标题文本将其筛出，最后利用每条新闻的入出点与文本的入出点进行匹配确定最后的新闻标题。

进一步的，步骤1包括以下子步骤：

首先从某个电视频道的新闻节目中获取视频，将视频按照每隔预设帧数解码一次，解码成图片；对解码后图片中新闻字幕位置进行OCR识别，先用PSENET对图片进行文本检测，然后根据PSENET得到的文本框，利用CRNN对单行文本框中的文本进行识别，得到结果存储到列表或数据库中，存储为文本框以及对应的文本内容和帧号；重复此步骤，直到整个视频识别完毕。

进一步的，步骤2包括以下子步骤：

步骤201：先根据文本框的坐标信息，求出每个文本框的高度和宽度，然后计算出所有文本框的均值和方差，然后通过式（1）和式（2），利用高度和宽度滤除掉不符合规范的文本框；然后计算每个文本框的面积，若是大于所有文本框的面积的均值与方差的差值，则留下该文本框；否则滤除该文本框，同时滤除掉空的文本检测框；

log2(w*h)>filter_threshold 式（1）

log2(w)>width_mean 式（2）

其中，w为文本框的宽度，h为文本框的高度，filter_threshold为文本框面积阈值，width_mean为所有文本框宽度的均值；

步骤202：将同一位置文本框会再出现和消失所在的帧号作为一个文本shot的入出点，并将文本框坐标点以及宽高的误差设置在预设像素内，然后利用聚类，将所有文本框聚类为多个文本shot，每一个文本shot作为一个标题备选；

步骤203：步骤202中得到的文本shot中，若只有1帧图像，则删除该文本shot。

进一步的，步骤3包括以下子步骤：

步骤301：将每个文本shot中，每帧图片相近位置的文本框进行聚类，聚类依据为文本框的左上角坐标以及文本框的高度和宽度；

步骤302：利用CRNN识别文本框中的文字，然后利用字符串相似性比较，设置相似性阈值；若文本shot中同一类文本框中每一帧文本shot之间相似性均大于相似性阈值，且此类文本框的帧个数等于整个文本shot中帧数量时，取此时对应的文本为标题待选文本；

步骤303：将生成的标题待选文本根据文本框的左上角坐标，按照顺序将多行文本排序，组成标题；

步骤304：采用语言模型中的困惑度来判断组成的标题是否通顺，困惑度越小，标题是通顺的概率越大，困惑度的计算方法如下：

其中，PP(W)为困惑度，ω ₁ ω ₂...ω _N为单个字，P(ω ₁ ω ₂...ω _N)为整句困惑度，N为单字下标；

设置困惑度的阈值，并筛除困惑度低于阈值的标题，得到待选标题以及标题的文本shot入出点帧号。

进一步的，步骤4包括以下子步骤：

步骤401：将待选标题通过BERT转换为向量形式，作为LSTM输入；

步骤402：利用新闻文本数据及训练实体识别模型，将向量形式的待选标题输入LSTM网络中，预测出每个字嵌入是非标题信息实体的概率，将结果保存；

步骤403：将步骤401生成的字词向量作为CRF模型的输入，输出待选标题中每个单元的标签，结合步骤402的结果给出每个字的标签；

步骤405：根据生成的标签，若句中出现非标题信息实体，将对应待选标题删除，得到最终待选标题；

步骤406：根据每条新闻的入出点信息与文本shot的入出点信息，当文本shot的入出点所在时间点为新闻入出点所在时间点的子集时，判断此时待选标题为当前新闻的标题。

进一步的，所述非标题信息包括人名、地名、职务和机构。

本发明的一种自动获取新闻标题系统，包括：

识别及预选模块，用于利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；

筛除及确定模块，用于利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息，最后根据单条新闻入出点信息确定新闻标题。

本发明的一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述自动获取新闻标题方法的步骤。

本发明的一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现上述自动获取新闻标题方法的步骤。

本发明的有益效果在于：

本发明了基于OCR位置信息和文本信息配合文本变化以及实体抽取筛查，可实现自动获取新闻标题。本发明先对新闻进行OCR识别，通过对文本框位置和内容进行聚类，确定标题候选，再利用BERT实体抽取技术对OCR文本进行实体抽取，将人名、地名和职务等非标题信息进行筛除，最后利用每条新闻入出点信息得到最终标题结果。本发明对于提取不同类型的新闻标题都有很好的效果，同时不用进行人工标记制作模板等人工辅助操作，因此可以大大节约人工成本，在新闻标题提取的工作中具有较为深远的意义。

本发明可从新闻节目入出点信息，获得新闻标题，并且得到标题的出入点信息；可以利用标题以及标题的出入点信息，确定新闻在整档新闻的位置，以及新闻的重要性，同时本发明不用人为标记模板等参数，对于体育、娱乐和政治等多档新闻均可以很好的做到自动提取标题的效果。自动获取标题后可以将标题信息进行归档，在后期检索和查询时，可以快速定位新闻的位置，了解新闻内容。

附图说明

图1为本发明的自动获取新闻标题方法流程示意图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现说明本发明的具体实施方式。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明，即所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明涉及的相关术语说明如下：

OCR：Optical Character Recognition，光学字符识别；

PSENET：Progressive Scale Expansion Network，渐进式规模扩张网络；

CRNN：Convolutional Recurrent Neural Network，卷积递归神经网络；

BERT：Bidirectional Encoder Representation from Transformers，一种预训练的语言表征模型；

LSTM：Long Short-Term Memory，长短时记忆网络；

CRF：Conditional Random Field，条件随机场。

如图1所示，本发明提供了一种自动获取新闻标题方法，利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息（例如：人名、地名、职务和机构），最后根据单条新闻入出点信息确定新闻标题。具体的，包括以下步骤：

在本发明的一个优选实施例中，步骤1包括以下子步骤：

首先从某个电视频道的新闻节目中获取视频，将视频按照每隔预设帧数（例如10帧）解码一次，解码成图片。由于新闻字幕均出现在视频的下三分之二以下的位置，因此为了减少干扰以及提高识别速度，可选择仅对解码后图片的下三分之二位置进行OCR识别，先用PSENET对图片进行文本检测（PSENET检测的都是横向单行文本），然后根据PSENET得到的文本框，利用CRNN对单行文本框中的文本进行识别，得到结果存储到列表或数据库中，存储为文本框以及对应的文本内容和帧号；重复上述操作，直到整个视频识别完毕。

在本发明的一个优选实施例中，步骤2包括以下子步骤：

步骤201：由于标题字幕具有字本身滚动字幕字体大的特点，且PSENET生成的文本框中会有一些冗余样本，因此需要去掉较小和冗余文本框，先根据文本框的坐标信息，求出每个文本框的高度和宽度，然后计算出所有文本框的均值和方差，然后通过式（1）和式（2），利用高度和宽度滤除掉不符合规范的文本框；然后计算每个文本框的面积，若是大于所有文本框的面积的均值与方差的差值，则留下该文本框；否则滤除该文本框，同时滤除掉空的文本检测框；

log2(w*h)>filter_threshold 式（1）

log2(w)>width_mean 式（2）

步骤202：步骤201中滤除掉了不符合规范的文本框后得到新的文本框，由于标题文本有连续出现且位置不变的特点，其对应文本框也会连续帧中连续出现，当同一位置文本框消失时，标题也就随之消失，因此将同一位置文本框会再出现和消失所在的帧号作为一个文本shot的入出点，由于文本检测框每个之间有偏差，因此将文本框坐标点以及宽高的误差设置在预设像素（例如5个像素）内，然后利用聚类，将所有文本框聚类为多个文本shot，每一个文本shot作为一个标题备选；

在本发明的一个优选实施例中，步骤3包括以下子步骤：

步骤301：在步骤2中生成的文本shot，存在只有单个文本框和多个文本框的情况，而标题位置，只会出现在同一位置文本框中，因此将每个文本shot中，每帧图片相近位置的文本框进行聚类，聚类依据为文本框的左上角坐标以及文本框的高度和宽度；

步骤302：步骤301中将每个文本shot中各个位置的文本框完成了聚类，由于标题文字具有同一文本shot，同一位置的内容具有一致性，因此利用CRNN识别文本框中的文字，然后利用字符串相似性比较，设置相似性阈值（例如将相似性阈值设置为0.8）；若文本shot中同一类文本框中每一帧文本shot之间相似性均大于相似性阈值，且此类文本框的帧个数等于整个文本shot中帧数量时，取此时对应的文本为标题待选文本；

步骤303：由于步骤302中生成的文本标题待选文本为单行文本，但是部分新闻标题会为多行，将生成的标题待选文本根据文本框的左上角坐标，按照顺序（例如从左至右，从上到下的顺序）将多行文本排序，组成标题；

步骤304：采用语言模型中的困惑度（perplexity）来判断组成的标题是否通顺，困惑度的基本思想是：给测试集的句子赋予较高概率值的语言模型较好：当语言模型训练完之后，测试集中的句子都是正常的句子，那么训练好的模型就是在测试集上的概率越高越好，语言模型越好，困惑度越小，标题是通顺的概率越大，困惑度的计算方法如下：

在本发明的一个优选实施例中，步骤4包括以下子步骤：

步骤401：在步骤3中，生成了待选标题，待选标题中的每一个字单元都代表着由字嵌入的向量；其中，字嵌入是随机初始化的，所有的嵌入在训练过程中都会调整到最优，因此将待选标题通过BERT转换为向量形式，作为LSTM输入；

步骤403：将步骤401生成的字词向量作为CRF模型的输入，输出的是待选标题中每个单元的标签，结合步骤402的结果给出每个字的标签；

步骤405：根据生成的标签，若该句中出现非标题信息实体，将对应待选标题删除，得到最终待选标题；

相应的，本发明提供了一种自动获取新闻标题系统，包括：

此外，本发明提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述自动获取新闻标题方法的步骤。

本发明还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述自动获取新闻标题方法的步骤。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种自动获取新闻标题方法，其特征在于，利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息，最后根据单条新闻入出点信息确定新闻标题；包括以下步骤：

2.根据权利要求1所述的一种自动获取新闻标题方法，其特征在于，步骤1包括以下子步骤：

3.根据权利要求2所述的一种自动获取新闻标题方法，其特征在于，步骤2包括以下子步骤：

log2(w*h)>filter_threshold 式（1）

log2(w)>width_mean 式（2）

4.根据权利要求3所述的一种自动获取新闻标题方法，其特征在于，步骤3包括以下子步骤：

5.根据权利要求4所述的一种自动获取新闻标题方法，其特征在于，步骤4包括以下子步骤：

步骤403：将步骤401生成的字词向量结果作为CRF模型的输入，输出待选标题中每个单元的标签，结合步骤402的结果给出每个字的标签；

6.根据权利要求1-5任一项所述的一种自动获取新闻标题方法，其特征在于，所述非标题信息包括人名、地名、职务和机构。

7.一种基于权利要求1所述的自动获取新闻标题方法的系统，其特征在于，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-5任一项所述方法的步骤。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-5任一项所述的方法的步骤。