CN112468877B

CN112468877B - 一种基于ai内容分析和ocr识别的智能新闻编目方法

Info

Publication number: CN112468877B
Application number: CN202110133211.2A
Authority: CN
Inventors: 李永葆; 陈美玲; 严佳; 王彦斌
Original assignee: Beijing Dayang Technology Development Inc
Current assignee: Beijing Dayang Technology Development Inc
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-05-04
Anticipated expiration: 2041-02-01
Also published as: CN112468877A

Abstract

本发明涉及一种基于AI内容分析和OCR识别的智能新闻编目方法，包括：解码处理；提取视频关键帧；提取镜头；提取高价值关键帧；分区处理；提炼节目内容摘要；提炼片段标题；自然语言分析；输出完整的片段信息。本发明基于内容分析、OCR文字识别结果分区处理、匹配正则表达式等多种方式，可以对新闻片段的标题、摘要以及精彩镜头进行提取，并达到符合业务上编目的要求。本发明在基于常规的内容分析的基础上，增加了逻辑上的处理方法，处理速度快，不影响整体处理耗时。但却极大地满足了用户的业务要求，使用户的工作效率得到了提升，真正的使智能的数据处理应用到实际应用中，最终提升了编目人员的工作效率。

Description

一种基于AI内容分析和OCR识别的智能新闻编目方法

技术领域

本发明涉及一种基于AI内容分析和OCR识别的智能新闻编目方法，是一种计算机处理方法，是一种对数字视频信号进行加工处理的方法。

背景技术

对于新闻类节目，传统的人工编目方法需要编目人员对整个新闻节目进行浏览查看，逐一找到每个新闻片段的入出点，由人工切分出多个片段。并需要编目人员对视频内容进行仔细的查看，才能结合实际的画面内容定义切分出片段的标题，同时才能对片段内的内容进行关键词的描述著录等操作。整个过程完全依赖编目人员的人工行为，耗时长，编目著录工作效率低。现有的一些方案包括基于音视频分离的智能拆条方法等。其基本原理为：先对视音频文件拆分为视频流和音频流，根据音频流信息进行片段拆分，再结合视频流的视频画面内容，进行视频理解得到描述内容的标签数据；这种方式主要是基于音频语义的拆分出片段，对新闻片段的准确性较低，除此之外，对于编目业务关注的片段名称、摘要等有效信息没有进行提炼。在实际使用中，通过视频的内容分析的方法，得到的片段内容，可能存在以下的问题：受语音分析模块的影响，拆分的片段和实际的有差别，有漏掉或者拆分过细的情况存在；拆分出来的片段，没有有效的标题，可读性差；拆分出来的片段，提取的摘要内容和实际差别较大，不能准确的对新闻片段进行概述。最终使得智能拆分出来的新闻片段，不能对编目人员形成有效的工作效率的提升，要么需要编目人员重新输入片段名称，要么需要编目人员浏览每个片段后自己提炼片段摘要并记录。因此，如何提取更多有用的信息并高效的进行编目仍是一个需要解决的问题。

发明内容

为了克服现有技术的问题，本发明提出了一种基于AI内容分析和OCR识别的智能新闻编目方法。所述的方法通过的视频关键帧的提取和分析结合OCR识别十分有效的提高编目的准确性和效率。

本发明的目的是这样实现的：一种基于AI内容分析和OCR识别的智能新闻编目方法，所述的方法包括如下步骤：

步骤1，解码处理：对获得的视音频文件进行解码处理，获得视频流和音频流；

以下步骤按视频流和音频流分别平行处理：

视频流处理：

步骤2，提取视频关键帧：对从步骤1获得视频流进行关键帧提取，并对关键帧进行画面内容信息提取，得到标签数据；

步骤3，提取镜头：通过内容分析，并结合基于topic的数据分析模型，提取镜头；

步骤4，提取高价值关键帧：对保留的关键帧进行OCR文字识别处理以及整个视频的人脸识别处理，反向查找镜头内精彩帧，即含有内容信息最全面的画面，作为镜头内的最优画面，并增补关键帧；

步骤5，分区处理：对OCR文字识别数据进行分区计算和处理，结合新闻业务特点，分区提炼标题、台标、频道信息；

步骤6，提炼节目内容摘要：结合新闻特点，在指定OCR区域，筛选标题信息，提炼节目内容摘要；

音频流处理：

步骤7，提炼片段标题：使用片段的入出点，反向查找这个时间段内OCR的标题内容，提炼片段标题；

步骤8，自然语言分析：对视频文件的音频流进行分析，通过语音分析，提取标签；

步骤9，输出完整的片段信息：将步骤6和步骤8输出的视音频信息结合，形成完整的片段信息，输出并保存。

进一步的，步骤4所述的提取高价值关键帧是：通过内容分析的结果进行打分处理，对识别出的片段内提炼出具有高业务价值的精彩镜头。

进一步的，步骤5所述的分区处理是：将视频关键帧分为16个区域，以识别台标、标题、logo、频道信息。

进一步的，步骤6所述的提炼节目内容摘的方式是：通过匹配正则表达式的方法，对识别出的片段，提炼出新闻片段的摘要。

进一步的，步骤7所述的提炼片段标题的方式为：通过音频的语义分析和OCR的识别结果，对识别出的片段提炼出新闻片段的标题。

本发明的优点和有益效果是：本发明基于内容分析、OCR文字识别结果分区处理、匹配正则表达式等多种方式，可以对新闻片段的标题、摘要以及精彩镜头进行提取，并达到符合业务上编目的要求。本发明在基于常规的内容分析的基础上，增加了逻辑上的处理方法，处理速度快，不影响整体处理耗时。但却极大地满足了用户的业务要求，使用户的工作效率得到了提升，真正的使智能的数据处理应用到实际应用中，最终提升了编目人员的工作效率。

附图说明

下面结合附图和实施例对本发明作进一步说明。

图1是本发明实施例一所述方法的流程图；

图2是本发明实施例二所述提取高价值关键帧的示意图；

图3是本发明实施例三所述将一帧画面分割为16个区域的示意图。

具体实施方式

实施例一：

本实施例是一种基于AI内容分析和OCR识别的智能新闻编目方法，所述的方法包括如下步骤，流程如图1所示：

步骤1，解码处理：对获得的视音频文件进行解码处理，获得视频流和音频流。

对将要进行处理的视音频文件进行常规的解码处理，得到视频流和音频流，为对视音频和音频流分别处理做好准备。以下步骤按视频流和音频流分别平行进行。

对视频流的处理：

步骤2，提取视频关键帧：对从步骤1获得视频流进行关键帧提取，并对关键帧进行画面内容信息提取，得到标签数据。

首先对视频流采用常规的视频聚类的方法，提取视频关键帧，并对视频关键帧画面进行视频内容分析，通过神经网络方法对视频画面进行结构化分析。通过的内容分析，得到了时间、地点、人物、组织结构、关键字、景别等泛性的标签数据。

步骤3，提取镜头：通过内容分析，并结合基于topic的数据分析模型，提取镜头。

将得到的标签数据输入到基于Topic的数据分析模型中，根据关联度以及内容的相似度，提炼出镜头数据，并对步骤1中获取的关键帧冗余数据丢弃，保留一个镜头下一个关键帧，该关键帧代表该镜头内容的最优画面。

步骤4，提取高价值关键帧：对保留的关键帧进行OCR文字识别处理以及整个视频的人脸识别处理，反向查找镜头内精彩帧，即含有内容信息最全面的画面，作为镜头内的最优画面，并增补关键帧。

结合联播新闻的业务特点，一个镜头内具有标题、主持人入出镜湖面、地标、敏感人物等信息的画面，这些画面作为关键画面提取出来后，会很直观的让编目人员在最短的时间内获取到镜头的内容信息。

步骤5，分区处理：对OCR文字识别数据进行分区计算和处理，结合新闻业务特点，分区提炼标题、台标、频道信息。

对视频进行内容分析中，其中有基于关键帧的OCR文字识别处理，可以对整个图片的所有区域的文字进行识别，把通过OCR文字识别的数据单独存放。

步骤6，提炼节目内容摘要：结合新闻特点，在指定OCR区域，筛选标题信息，提炼节目内容摘要。

提炼节目内容摘要有多种方式，如采用压缩内容的方式，也可以采用正则匹配的方式。

音频流处理：

步骤7，提炼片段标题：使用片段的入出点，反向查找这个时间段内OCR的标题内容，提炼片段标题。

语音识别有多种方式，本实施例将语音识别与OCR结合提炼片段标题，使识别更加准确，效率更高。

步骤8，自然语言分析：对视频文件的音频流进行分析，通过语音分析，提取标签。

所述的自然语言分析是一种计算处理技术，通过一些算法，对文本类的非结构化内容进行数据分析，提炼出结构化的实体词、分类、关键词、摘要等信息，当然能够提炼出标签。

将视频流和音频流中分析出的信息进行结合，形成一个完整的片段信息，成为一个输出结果，用于该段视音频文件的保存和应用。

实施例二：

本实施例是实施例一的改进，是实施例一关于步骤4的细化。本实施例步骤4所述的提取高价值关键帧的方式是：通过内容分析的结果进行打分处理，对识别出的片段内提炼出具有高业务价值的精彩镜头。

结合联播新闻的业务特点，一个镜头内具有标题、主持人入出镜湖面、地标、敏感人物等信息的画面，这些画面作为关键画面提取出来后，会很直观的让编目人员在最短的时间内获取到镜头的内容信息，基于这个目标，在本实施例中，分别通过OCR技术，以及人脸识别技术，对前面提到的几个业务要素进行针对性的分析，对每一种命中业务特点要求的结构化数据进行打分，比如有敏感人物加3分，有标题加2分，有特殊场景比如鼓掌等加2分，有主持人加2分；综合分值，对分值最多的入出点时间内取关键帧，依次作为该镜头内的最优画面，并替换掉镜头内原有的关键帧画面，如图2所示。

实施例三：

本实施例是上述实施例的改进，是上述实施例关于步骤5的细化。本实施例步骤5所述的分区处理是：将视频关键帧分为16个区域，以识别台标、标题、logo、频道信息。

对视频帧的OCR文字识别结果进行16区的处理方法，可以结合业务识别到台标、标题等内容。

经过对新闻视频画面的分析，对整帧画面分成4×4的16个区域，如图3所示，结合业务特点，对不同的区域赋予业务属性分割，进而得到期望的台标、logo、及新闻标题等信息。经过该数据处理，使镜头的结构化数据更加富有业务特点，极大的为后面的片段内容的提出提供了丰富数据基础。

实施例四：

本实施例是上述实施例的改进，是上述实施例关于步骤6的细化。本实施例步骤6所述的提炼节目内容摘的方式是：通过匹配正则表达式的方法，对识别出的片段，提炼出新闻片段的摘要。

现有的内容摘要的提取方式是，通过音频的分析对内容进行按照不同的百分比进行压缩处理，得到压缩比50%、30%的内容作为摘要。该方式在实际的新闻编目时业务价值很小，摘要不能实际反映新闻片段的内容，基于此，本实施例着重分析新闻片段编目的业务特点，提出匹配正则表达式的方式进行片段摘要的提取。例如：对于不同的联播新闻，都具有一定的播报规范，比如“本次某某新闻的主要内容有……”、“下面是某某的新闻，……”。以这些播报规范并结合具体的新闻设定正则表达式，利用这些正则表达式提炼新闻片段的摘要。本实施例所述的这种使用匹配表达式的方式能够非常精准的提取到新闻片段的内容摘要，并且效率很好。

实施例五：

本实施例是上述实施例的改进，是上述实施例关于步骤7的细化。本实施例步骤7所述的提炼片段标题的方式为：通过音频的语义分析和OCR的识别结果，对识别出的片段提炼出新闻片段的标题。

通过语音分析，提取新闻片段是目前常用的新闻节目的片段提取方式，该方式目前较为成熟，但准确率还有提高的空间。为此，本实施例在语音分析的基础上，结合OCR分区数据，进一步提炼片段的标题，在片段入出点范围内，查找第一个OCR文字识别数据中标题内容，作为该片段的标题，极大的提升自动拆分片段的可读性和可理解性。

最后应说明的是，以上仅用以说明本发明的技术方案而非限制，尽管参照较佳布置方案对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案（比如识别系统环境、新闻视频的形式、步骤的先后顺序等）进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种基于AI内容分析和OCR识别的智能新闻编目方法，其特征在于，所述的方法包括如下步骤：

以下步骤按视频流和音频流分别平行处理：

视频流处理：

音频流处理：

步骤9，输出完整的片段信息：将步骤6和步骤8输出的信息结合，形成完整的片段信息，输出并保存。

2.根据权利要求1所述的方法，其特征在于，步骤4所述的提取高价值关键帧包括：通过对内容分析的结果进行打分处理，对识别出的片段内提炼出具有高业务价值的精彩镜头。

3.根据权利要求2所述的方法，其特征在于，步骤5所述的分区处理是：将视频关键帧分为16个区域，以识别台标、标题、logo、频道信息。

4.根据权利要求3所述的方法，其特征在于，步骤6所述的提炼节目内容摘要的方式是：通过匹配正则表达式的方法，对识别出的片段，提炼出新闻片段的摘要。

5.根据权利要求4所述的方法，其特征在于，步骤7所述的提炼片段标题的方式为：通过音频的语义分析和OCR的识别结果，对识别出的片段提炼出新闻片段的标题。