CN117998145A

CN117998145A - 一种字幕实时监测方法、系统和设备

Info

Publication number: CN117998145A
Application number: CN202410396178.6A
Authority: CN
Inventors: 赵儒祥; 邓强; 朱政; 李克磊; 王光耀; 李东
Original assignee: Haikan Network Technology Shandong Co ltd
Current assignee: Haikan Network Technology Shandong Co ltd
Priority date: 2024-04-03
Filing date: 2024-04-03
Publication date: 2024-05-07
Anticipated expiration: 2044-04-03
Also published as: CN117998145B

Abstract

本发明提出了一种字幕实时监测方法、系统和设备，属于视频信号处理技术领域，该方法包括：获取待监测视频流，并将视频流预处理为与屏幕适应的图像帧；对图像帧中的文本区域检测确定图像帧中的第一待检测字幕文本；在第一待检测字幕文本的当前字符串内查找另一个字符串的出现位置，用于剔除第一待检测字幕文字中的重复字幕文字得到第二待检测字幕文本；将第二待检测字幕文本分别进行敏感词检测和语义语法纠错，监测到存在敏感词或者字幕违规时均对违规字幕进行语法语义纠错。基于该方法，还提出了一种字幕实时监测系统和设备。本发明通过监测字幕是否含有敏感词以及字幕的语义语法来判断字幕的合法性，有助于提高直播视频播出的安全性和可靠性。

Description

一种字幕实时监测方法、系统和设备

技术领域

本发明属于视频信号处理技术领域，特别涉及一种字幕实时监测方法、系统和设备。

背景技术

随着互联网技术的发展，利用宽带网，集互联网、多媒体、通讯等技术于一体的新媒体出现了。比如交互式网络电视、抖音、直播和短视频等。在新媒体技术领域，对于节目字幕进行监测与告警是至关重要的。新媒体作为重要的信息传播媒介，具有广泛的影响力，新媒体节目的字幕规范与正确是保障观众权益的基石，任何节目字幕的出错与被篡改都可能导致社会公众的误解、舆情的恐慌。特别是对于新闻直播节目，如果字幕出错或含有敏感词，可能对社会稳定和公共秩序造成严重影响。

新媒体领域中，对安全播放的要求非常高，不允许出现播放的直播流被篡改的情况，因此对播放直播流的实时监测就变得非常重要。当监测到直播流异常时可以马上采取应急策略进行处置。在中国专利202111214131.6公开了界面显示方法、装置、电子设备和存储介质，通过显示用户界面，所述用户界面包括至少两个播放窗口以及直播视频流中音频流对应的一条或多条第一字幕；响应于直播视频流播放指令，在所述至少两个播放窗口中的第一播放窗口播放已录制的直播视频流；在播放所述已录制的直播视频流的过程中，响应于第一字幕修改指令，对所述第一字幕修改指令指向的第一字幕进行修改，如此可使用户一边观看直播一边对第一字幕进行校对，可提高校对效率和精度，并且通过观看直播视频流可对直播视频流的质量进行监控。但是如果在看直播的过程中同时对字幕校正，将会大大降低看直播的体验。用户可反复观看某一段视频提升校对精度，对用户来讲也非常不易实现，会使用户产生厌倦。

发明内容

为了解决上述技术问题，本发明提出了一种字幕实时监测方法、系统和设备，通过监测字幕是否含有敏感词以及字幕的语义语法来判断字幕的合法性以及是否被篡改，有助于提高直播视频播出的安全性和可靠性。

为实现上述目的，本发明采用以下技术方案：

一种字幕实时监测方法，包括以下步骤：

获取待监测视频流，并将所述视频流预处理为与屏幕大小适应的图像帧；对所述图像帧中的文本区域检测确定图像帧中的第一待检测字幕文本；

在所述第一待检测字幕文本的当前字符串内查找另一个字符串的出现位置，用于剔除掉第一待检测字幕文字中的重复字幕文字得到第二待检测字幕文本；

将所述第二待检测字幕文本分别进行敏感词检测和AI语义语法纠错，在监测到存在敏感词或者字幕违规时，均对违规字幕进行语法语义纠错。

进一步的，所述方法还包括：将纠错后的字幕与第二待检测字幕文本和第一待检测字幕文本组合成告警信息，使用构建的告警信息触发告警机制。

进一步的，所述获取待监测视频流，并将所述视频流预处理为与屏幕大小适应的图像帧的过程包括：

建立与待监测设备之间的网络连接，设置组播地实时接收数据包，使用ffprobe获取待监测视频流；

通过ffmpeg将所述待监测视频流预处理为与屏幕大小适应的图像帧。

进一步的，所述对所述图像帧中的文本区域检测确定图像帧中的第一待检测字幕文字的过程包括：

对所述图像帧中的文本区域检测确定图像帧中的文本区域；

对文本区域中的每个字符特征提取之后再对提取的字符特征识别为相应的字符类别；

对识别出的不同类别的字符合成最终的第一待检测字幕文字。

进一步的，所述对提取的字符特征识别为相应的字符类别的方法为：对提取的字符特征采用朴素贝叶斯算法计算字符属于某个类别的可能性，并标记为相应的字符类别。

进一步的，所述在所述第一待检测字幕文字的当前字符串内查找另一个字符串的出现位置的过程包括：

其中，代表字符串的序号；/>代表第/>个字符串的回归位置数据；/>表示其中的某个字符，其中/>。

进一步的，将所述第二待检测字幕文字分别进行敏感词检测的过程包括：

获取历史字幕文字所在节目类型领域的敏感词，使用敏感词和各个敏感词对应的权重构建有限状态自动机；

将所述第二待检测字幕文字输入至构建的有限状态自动机中，使用敏感词检测函数检测句子中包含的敏感词，将权重相加得到总权重，并将总权重归一化处理。

进一步的，所述将所述第二待检测字幕文本进行语义语法纠错的过程包括：

将所述第二待检测字幕文本输入至自编码器模型中，用于检测第二待检测字幕文本的输入顺序；

将自编码器模型中输出的向量特征输入自回归解码器模型，所述自回归解码器模型通过预测下一个单词来生成第二待检测字幕文本的正确序列。

本发明还提出了一种字幕实时监测系统，包括预处理模块、查找模块和监测模块；

所述预处理模块用于获取待监测视频流，并将所述视频流预处理为与屏幕大小适应的图像帧；对所述图像帧中的文本区域检测确定图像帧中的第一待检测字幕文字；

所述查找模块用于在所述第一待检测字幕文字的当前字符串内查找另一个字符串的出现位置，用于剔除掉第一待检测字幕文字中的重复字幕文字得到第二待检测字幕文字；

所述监测模块用于将所述第二待检测字幕文本分别进行敏感词检测和AI语义语法纠错，在监测到存在敏感词或者字幕违规时，均对违规字幕进行语法语义纠错。

本发明还提出了一种字幕实时监测设备，包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现一种字幕实时监测方法。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明提出了一种字幕实时监测方法、系统和设备，属于视频信号处理技术领域，该方法包括以下步骤：获取待监测视频流，并将所述视频流预处理为与屏幕大小适应的图像帧；对所述图像帧中的文本区域检测确定图像帧中的第一待检测字幕文本；在所述第一待检测字幕文本的当前字符串内查找另一个字符串的出现位置，用于剔除掉第一待检测字幕文字中的重复字幕文字得到第二待检测字幕文本；将所述第二待检测字幕文本分别进行敏感词检测和AI语义语法纠错，在监测到存在敏感词或者字幕违规时，均对违规字幕进行语法语义纠错。基于一种字幕实时监测方法，还提出了一种字幕实时监测系统和设备。本发明通过监测字幕是否含有敏感词以及字幕的语义语法来判断字幕的合法性以及是否被篡改，有助于提高直播视频播出的安全性和可靠性。本发明在直播字幕被篡改的情况下，能紧急处理，以免用户观看到不合法的画面，发生重大的播出事故。

本发明在进行敏感词监测和语义语法监测之前对待监测视频流转换的图像帧进行抽帧处理，大幅减少逐帧处理的计算量。

附图说明

图1为本发明实施例1提出的一种字幕实时监测方法流程图；

图2为本发明实施例1提出的一种字幕实时监测方法中带权重敏感词树示意图；

图3为本发明实施例1提出的一种字幕实时监测方法中KMP算法匹配过程；

图4为本发明实施例1提出的一种字幕实时监测方法中AI语义语法纠错模型示意图；

图5为本发明实施例1提出的一种字幕实时监测方法中字幕审核流程图；

图6为本发明实施例2提出的一种字幕实时监测系统示意图；

图7为本发明实施例3提出的一种字幕实时监测设备连接示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

实施例1

本发明实施例1提出了一种字幕实时监测方法，用于监测现有技术中字幕实时监测存在的技术问题。本发明实施例1提出的一种字幕实时监测方法适用于抖音直播、短视频和交互式网络电视（IPTV）等。IPTV是一种采用IP协议在公共互联网上传输视频点播节目和电视直播节目的多媒体视频业务。然而，互联网为IPTV业务带来了丰富的内容和应用，也带来了安全播出的风险。

图1为本发明实施例1提出的一种字幕实时监测方法流程图；

在步骤S100中，获取待监测视频流，并将视频流预处理为与屏幕大小适应的图像帧；对图像帧中的文本区域检测确定图像帧中的第一待检测字幕文本；

在本申请中，以IPTV节目字幕实时审核监测为例进行说明。因为在电视直播节目的监测领域，对于节目字幕进行监测与告警是至关重要的。电视台作为重要的信息传播媒介，具有广泛的影响力，直播节目字幕的规范与正确是保障观众权益的基石，任何节目字幕的出错与被篡改都可能导致社会公众的误解、舆情的恐慌。特别是对于新闻直播节目，如果字幕出错或含有敏感词，可能对社会稳定和公共秩序造成严重影响。

获取待监测视频流时，获取IPTV直播和点播的TS视频流，将视频流解码为视频帧，具体为：建立与待监测设备之间的网络连接，设置组播地实时接收数据包，使用ffprobe获取待监测视频流；通过ffmpeg将所述待监测视频流预处理为与屏幕大小适应的图像帧。

本申请中创建UDP网络连接，设置组播地址（如udp://@237.1.1.100:1234）实时接收数据包，使用ffprobe获取视频信息，视频传输协议为H.264，分辨率为1080P，码率为8.0Mbps，帧率为25fps。通过ffmpeg将视频流拆分成图像帧序列。对图像帧进行预处理，获取图片的宽度w（width）和高度h（height）根据IPTV节目字幕的屏位一般多在荧屏的边缘或下三分之一的区位计算出帧图片裁剪的区域为w*h-w*1/3h；裁剪图片并保存裁剪后的字幕文本区域w*1/3h。

对图像帧中的文本区域检测确定图像帧中的第一待检测字幕文本。对图像帧中的文本区域检测确定图像帧中的文本区域；对文本区域中的每个字符特征提取之后再对提取的字符特征识别为相应的字符类别；对识别出的不同类别的字符合成最终的第一待检测字幕文字。

在本申请中，预处理后的视频帧图像减少了三分之二的像素区域，因此OCR的识别速度增加了三倍。针对每一帧关键帧图像，OCR使用图像处理技术（如边缘检测、轮廓分析等）进行文本区域检测，找到图像中包含文本的区域。这些区域通常是字幕的边界。

对于字幕区域中的每个字符进行特征提取，常见的特征包括形状、角度、纹理等。特征提取有助于将字符转化为可供分类器处理的数值表示。

使用分类器对提取的字符特征进行分类，将其识别为相应的字符类别。对提取的字符特征采用朴素贝叶斯算法计算字符属于某个类别的可能性，并标记为相应的字符类别。

将识别的字符组合成最终的文本输出，可以是单个字符、单词或完整的文本。当获取到该帧图像的字幕文本后，即认为得到了字幕文字识别内容。

在步骤S110中，在第一待检测字幕文本的当前字符串内查找另一个字符串的出现位置，用于剔除掉第一待检测字幕文字中的重复字幕文字得到第二待检测字幕文本；

利用KMP算法对当前视频帧识别到的字幕文字与上一视频帧识别到的字幕文字进行字符串匹配，过滤掉相同字幕的视频帧，筛选出不重复字幕的关键帧存入消息队列：

在第一待检测字幕文字的当前字符串内查找另一个字符串的出现位置的过程包括：

通过计算t时刻字幕文本的回归位置数组next[]，当t+1时刻字幕文本在与t时刻字幕文本"失配"时，向右滑动更远的距离，减少t+1与t时刻字幕不一致时不必要的匹配次数，从而提高效率。

KMP算法可以在O(m+n)的时间量级上完成文本的模式匹配算法，其中m为t时刻字幕文本的长度，n为t+1时刻字幕文本的长度，图3为本发明实施例1提出的一种字幕实时监测方法中KMP算法匹配过程；图3中的字母A~F分别代表的是字幕文字。

在步骤S120中，将第二待检测字幕文本分别进行敏感词检测和AI语义语法纠错，在监测到存在敏感词或者字幕违规时，均对违规字幕进行语法语义纠错。

将第二待检测字幕文字分别进行敏感词检测的过程包括：获取历史字幕文字所在节目类型领域的敏感词，使用敏感词和各个敏感词对应的权重构建有限状态自动机；将第二待检测字幕文字输入至构建的有限状态自动机中，使用敏感词检测函数检测句子中包含的敏感词，将权重相加得到总权重，并将总权重归一化处理。

首先构建有限状态自动机DFA：获取待检测字幕文本所在节目类型领域的敏感词；根据已有的IPTV业务经验，人工预先为每个敏感词赋予一个权重。该权重表征该敏感词违规的可能性，权重越高表示违规的可能性越大，反之则越小。例如，权重设置在1~10之间，权重1表示违规存疑，权重10表示肯定违规，其他权重违规可能性逐步递增。在确定了敏感词和各个敏感词对应的权重之后，使用敏感词和各个敏感词对应的权重构建有限状态自动机。其中，有限状态自动机拥有有限数量的状态，每个状态可以迁移到零个或多个状态，输入字串决定执行哪个状态的迁移，有限状态自动机可以表示为一个有向图。图2为本发明实施例1提出的一种字幕实时监测方法中带权重敏感词树示意图；图2中的字母A~E分别代表的是字，虚线所指为该单词为敏感词的权重。

然后将待检测字幕文本输入到有限状态自动机中，使用DFA检测句子中包含的敏感词，并且将权重相加，得到总的权重。使用sigmoid函数将相加后的权重归一化到0到1之间，得到分数score，并设置一个阈值t1，t1为0.5到0.9之间，分数超过规定阈值则判定该词为敏感词。

图4为本发明实施例1提出的一种字幕实时监测方法中AI语义语法纠错模型示意图；将第二待检测字幕文本输入至自编码器模型中，用于检测第二待检测字幕文本的输入顺序；将自编码器模型中输出的向量特征输入自回归解码器模型，自回归解码器模型通过预测下一个单词来生成第二待检测字幕文本的正确序列。

AI语义语法纠错模型主要是通过微调大规模Seq2Seq预训练语言模型--中文BART模型得到的。其自身结合了自编码和自回归模型，吸收了自编码器模型和自回归解码器模型各自的特点，主要用于中文的语法纠错任务。输入一句中文文本，模型对句子中存在拼写、语法、语义等错误进行自动纠正，输出纠正后的文本。如果输入的文本不存在错误则正常输出。

对于错误的字幕文本内容首先输入至自编码器模型，自编码器模型通过将输入序列映射到隐藏空间，然后再从隐藏空间重建输入序列。这种自编码器模型方式使得自编码器模型能够学习到输入序列的表示，并捕捉输入序列中的重要特征。然后将字幕文本编码后的向量特征输入自回归解码器模型，模型通过预测下一个单词来生成序列。它以逐个位置地生成输出，并且每个位置的预测都依赖于之前已生成的单词。例如通过生成的前文“<s>汉字的排”预测出下一个字符“列”，以此类推直到自回归解码器模型生成<e>，其中<s>、<e>分别为起始与终止字符。

AI语义语法纠错模型依托AI训练平台实现对算法模型的持续迭代和自动化发布更新。

在步骤S130中，将纠错后的字幕与第二待检测字幕文本和第一待检测字幕文本组合成告警信息，使用构建的告警信息触发告警机制。图5为本发明实施例1提出的一种字幕实时监测方法中字幕审核流程图。

监测过程中一旦出现敏感词或者错误字幕，记录敏感词、错误的字幕、纠错后的正确字幕和对应的视频帧。将敏感词、错误字幕、纠错后的正确字幕和对应的视频帧封装成一个数据结构，比如使用JSON格式，包含以下字段：包含的敏感词、错误字幕内容、纠错后的正确字幕内容、对应的视频帧的ID等信息。将封装好的数据结构发送到接收方。接收方（例如一个告警系统）获取消息，并解析出其中的敏感词、错误字幕、纠错后的正确字幕和对应的视频帧等信息。告警系统根据获取到的数据，生成相应的告警信息。

本发明实施例1提出的一种字幕实时监测方法，通过对视频帧图像进行图像预处理，裁去了无字幕画面区域的部分，提高了OCR识别效率。

本发明实施例1提出的一种字幕实时监测方法，通过监测字幕是否含有敏感词以及字幕的语义语法来判断字幕的合法性以及是否被篡改，有助于提高直播视频播出的安全性和可靠性。本发明在直播字幕被篡改的情况下，能紧急处理，以免用户观看到不合法的画面，发生重大的播出事故。

实施例2

基于本发明实施例1提出的一种字幕实时监测方法，还提出了一种字幕实时监测系统，图6为本发明实施例2提出的一种字幕实时监测系统示意图，该系统包括：预处理模块、查找模块和监测模块；

预处理模块用于获取待监测视频流，并将视频流预处理为与屏幕大小适应的图像帧；对所述图像帧中的文本区域检测确定图像帧中的第一待检测字幕文字；

查找模块用于在第一待检测字幕文字的当前字符串内查找另一个字符串的出现位置，用于剔除掉第一待检测字幕文字中的重复字幕文字得到第二待检测字幕文字；

监测模块用于将第二待检测字幕文本分别进行敏感词检测和AI语义语法纠错，在监测到存在敏感词或者字幕违规时，均对违规字幕进行语法语义纠错。

预处理模块中，所述获取待监测视频流，并将所述视频流预处理为与屏幕大小适应的图像帧的过程包括：建立与待监测设备之间的网络连接，设置组播地实时接收数据包，使用ffprobe获取待监测视频流；通过ffmpeg将所述待监测视频流预处理为与屏幕大小适应的图像帧。

对图像帧中的文本区域检测确定图像帧中的第一待检测字幕文字的过程包括：对图像帧中的文本区域检测确定图像帧中的文本区域；对文本区域中的每个字符特征提取之后再对提取的字符特征识别为相应的字符类别；对识别出的不同类别的字符合成最终的第一待检测字幕文字。

其中，对提取的字符特征识别为相应的字符类别的方法为：对提取的字符特征采用朴素贝叶斯算法计算字符属于某个类别的可能性，并标记为相应的字符类别。

查找模块中，在第一待检测字幕文字的当前字符串内查找另一个字符串的出现位置的过程包括：

监测模块中，将第二待检测字幕文字分别进行敏感词检测的过程包括：获取历史字幕文字所在节目类型领域的敏感词，使用敏感词和各个敏感词对应的权重构建有限状态自动机；将所述第二待检测字幕文字输入至构建的有限状态自动机中，使用敏感词检测函数检测句子中包含的敏感词，将权重相加得到总权重，并将总权重归一化处理。

将第二待检测字幕文本进行语义语法纠错的过程包括：将第二待检测字幕文本输入至自编码器模型中，用于检测第二待检测字幕文本的输入顺序；将自编码器模型中输出的向量特征输入自回归解码器模型，所述自回归解码器模型通过预测下一个单词来生成第二待检测字幕文本的正确序列。

系统还包括告警模块；告警模块执行的过程包括：纠错后的字幕与第二待检测字幕文本和第一待检测字幕文本组合成告警信息，使用构建的告警信息触发告警机制。

本发明实施例2提出的一种字幕实时监测系统，通过对视频帧图像进行图像预处理，裁去了无字幕画面区域的部分，提高了OCR识别效率。

本发明实施例2提出的一种字幕实时监测系统，通过监测字幕是否含有敏感词以及字幕的语义语法来判断字幕的合法性以及是否被篡改，有助于提高直播视频播出的安全性和可靠性。本发明在直播字幕被篡改的情况下，能紧急处理，以免用户观看到不合法的画面，发生重大的播出事故。

实施例3

本发明还提出了一种设备，图7为本发明实施例3提出的一种字幕实时监测设备连接示意图，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现方法步骤如下：

在步骤S120中，将第二待检测字幕文本分别进行敏感词检测和AI语义语法纠错，在监测到存在敏感词或者字幕违规时，均对违规字幕进行语法语义纠错；

在步骤S130中，将纠错后的字幕与第二待检测字幕文本和第一待检测字幕文本组合成告警信息，使用构建的告警信息触发告警机制。

本发明实施例3提出的一种字幕实时监测设备，通过对视频帧图像进行图像预处理，裁去了无字幕画面区域的部分，提高了OCR识别效率。

本发明实施例3提出的一种字幕实时监测设备，通过监测字幕是否含有敏感词以及字幕的语义语法来判断字幕的合法性以及是否被篡改，有助于提高直播视频播出的安全性和可靠性。本发明在直播字幕被篡改的情况下，能紧急处理，以免用户观看到不合法的画面，发生重大的播出事故。

需要说明：本发明技术方案还提供了一种电子设备，包括：通信接口，能够与其它设备比如网络设备等进行信息交互；处理器，与通信接口连接，以实现与其它设备进行信息交互，用于运行计算机程序时，执行上述一个或多个技术方案提供的一种字幕实时监测方法，而所述计算机程序存储在存储器上。当然，实际应用时，电子设备中的各个组件通过总线系统耦合在一起。可理解，总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。本申请实施例中的存储器用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括：用于在电子设备上操作的任何计算机程序。可以理解，存储器可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read OnlyMemory)、可编程只读存储器(PROM，Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM，Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM，ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-Only Memory)；磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM，RandomAccessMemory)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(SRAM，Static Random Access Memory)、同步静态随机存取存储器(SSRAM，Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM，Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM，SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM，Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM，Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM，SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM，Direct Rambus Random Access Memory)。本申请实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。上述本申请实施例揭示的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、DSP（Digital Signal Processing，即指能够实现数字信号处理技术的芯片），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤，可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中，该存储介质位于存储器，处理器读取存储器中的程序，结合其硬件完成前述方法的步骤。处理器执行所述程序时实现本申请实施例的各个方法中的相应流程，为了简洁，在此不再赘述。

本申请实施例提供的一种字幕实时监测系统和设备中相关部分的说明可以参见本申请实施例1提供的一种字幕实时监测方法中对应部分的详细说明，在此不再赘述。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制。对于所属领域的技术人员来说，在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种字幕实时监测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种字幕实时监测方法，其特征在于，所述方法还包括：将纠错后的字幕与第二待检测字幕文本和第一待检测字幕文本组合成告警信息，使用组合的告警信息触发告警机制。

3.根据权利要求1所述的一种字幕实时监测方法，其特征在于，所述获取待监测视频流，并将所述视频流预处理为与屏幕大小适应的图像帧的过程包括：

4.根据权利要求1所述的一种字幕实时监测方法，其特征在于，所述对所述图像帧中的文本区域检测确定图像帧中的第一待检测字幕文字的过程包括：

对所述图像帧中的文本区域检测确定图像帧中的文本区域；

对识别出的不同类别的字符组合成最终的第一待检测字幕文字。

5.根据权利要求4所述的一种字幕实时监测方法，其特征在于，所述对提取的字符特征识别为相应的字符类别的方法为：对提取的字符特征采用朴素贝叶斯算法计算字符属于某个类别的可能性，并标记为相应的字符类别。

6.根据权利要求1所述的一种字幕实时监测方法，其特征在于，所述在所述第一待检测字幕文字的当前字符串内查找另一个字符串的出现位置的过程包括：

7.根据权利要求1所述的一种字幕实时监测方法，其特征在于，将所述第二待检测字幕文字分别进行敏感词检测的过程包括：

8.根据权利要求1所述的一种字幕实时监测方法，其特征在于，所述将所述第二待检测字幕文本进行语义语法纠错的过程包括：

9.一种字幕实时监测系统，其特征在于，包括预处理模块、查找模块和监测模块；

10.一种字幕实时监测设备，其特征在于，包括：存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述程序时可实现权利要求1至8任一项所述的一种字幕实时监测方法。