CN105930836A

CN105930836A - 一种视频文字的识别方法和装置

Info

Publication number: CN105930836A
Application number: CN201610245068.5A
Authority: CN
Inventors: 许�鹏
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2016-04-19
Filing date: 2016-04-19
Publication date: 2016-09-07
Anticipated expiration: 2036-04-19
Also published as: CN105930836B

Abstract

本申请实施例提供了一种视频文字的识别方法和装置，所述方法包括：获取多帧视频图像；分别从所述多帧视频图像中提取出多条待识别文字；计算所述多条待识别文字之间的编辑距离；依据所述编辑距离，获得一个或多个候选项；从所述一个或多个候选项中识别出当前文字，能够获得准确的识别结果；并可以避免对语料库的依赖，实现对多领域的视频文字的识别。

Description

一种视频文字的识别方法和装置

技术领域

本申请涉及文字识别技术领域，特别是涉及一种视频文字的识别方法和一种视频文字的识别装置。

背景技术

OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。其中，利用OCR技术对视频图像进行识别便是它的一个重要应用方面。

视频OCR识别主要包括前端视频信息的采集以及传输、中间的视频检测和后端的分析处理三个环节。视频识别需要前端视频采集摄像机提供清晰稳定的视频信号，视频信号质量将直接影响到视频识别的效果；再通过中间嵌入的智能分析模块，利用OCR技术，对视频画面进行识别、检测、分析、滤除干扰，对视频画面中的异常情况做目标和轨迹标记。在视频OCR识别中，又以视频文字识别最为常见。

在利用OCR技术对视频文字进行识别时，传统的方法主要是用投票法或者用语言模型进行纠正。通常，投票法会选取出现次数最多的一条作为最终识别结果，例如，同一条标题出现在视频的10帧图像里，其中7帧图像的识别结果是“abc”，另有3帧图像的识别结果为“abd”，那么，“abc”的投票就是7，“abd”的投票就是3，因此选择“abc”作为最终结果。但是，出现次数最多的候选项并不一定是正确的，从而可能导致基于投票的方法获得的识别结果也不准确。另外，采用语言模型进行纠正的方式则严重依赖于语料库的构成，想要获得准确的纠正效果和识别结果，必须要有跟目标领域较一致的语料库；如果按照不同领域分别设置语料库，则会形成数量庞大的语料库，造成管理和使用的不便。

发明内容

鉴于上述问题，提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种视频文字的识别方法和相应的一种视频文字的识别装置。

为了解决上述问题，本申请实施例公开了一种视频文字的识别方法，包括：

获取多帧视频图像；

分别从所述多帧视频图像中提取出多条待识别文字；

计算所述多条待识别文字之间的编辑距离；

依据所述编辑距离，获得一个或多个候选项；

从所述一个或多个候选项中识别出当前文字。

可选地，所述获取多帧视频图像的步骤包括：

获取在时间上连续的多帧视频图像。

可选地，所述计算所述多条待识别文字之间的编辑距离的步骤包括：

分别计算在时间上连续的两帧视频图像中的待识别文字之间的编辑距离。

可选地，所述依据所述编辑距离，获得一个或多个候选项的步骤包括：

判断在时间上连续的两个编辑距离之间的差值是否在预设阈值范围内；

若是，则对所述多条待识别文字进行两两对齐，获得一组或多组待识别文字对；

交换所述一组或多组待识别文字对的不同部分，获得扩展候选项；

将所述多条待识别文字和扩展候选项组成所述一个或多个候选项。

可选地，所述从所述一个或多个候选项中识别出当前文字的步骤包括：

计算所述一个或多个候选项的困惑度值ppl；

将所述困惑度值ppl最小的候选项识别为当前文字。

可选地，采用如下公式计算所述一个或多个候选项的困惑度值ppl：

p p l = \frac{1}{N} Σ_{1}^{N} l o g [p (S_{i})]

其中，N为各候选项中词的个数，p(S_i)为第i个词在预设的新闻语料库中出现的概率。

为了解决上述问题，本申请实施例还公开了一种视频文字的识别装置，包括：

视频图像获取模块，用于获取多帧视频图像；

待识别文字提取模块，用于分别从所述多帧视频图像中提取出多条待识别文字；

编辑距离计算模块，用于计算所述多条待识别文字之间的编辑距离；

候选项获取模块，用于依据所述编辑距离，获得一个或多个候选项；

文字识别模块，用于从所述一个或多个候选项中识别出当前文字。

可选地，所述视频图像获取模块包括：

视频图像获取子模块，用于获取在时间上连续的多帧视频图像。

可选地，所述编辑距离计算模块包括：

编辑距离计算子模块，用于分别计算在时间上连续的两帧视频图像中的待识别文字之间的编辑距离。

可选地，所述候选项获取模块包括：

编辑距离判断子模块，用于判断在时间上连续的两个编辑距离之间的差值是否在预设阈值范围内；

待识别文字对获取子模块，用于在时间上连续的两个编辑距离之间的差值在预设阈值范围内时，对所述多条待识别文字进行两两对齐，获得一组或多组待识别文字对；

扩展候选项获取子模块，用于交换所述一组或多组待识别文字对的不同部分，获得扩展候选项；

候选项组成子模块，用于将所述多条待识别文字和扩展候选项组成所述一个或多个候选项。

可选地，所述文字识别模块包括：

困惑度值计算子模块，用于计算所述一个或多个候选项的困惑度值ppl；

文字识别子模块，用于将所述困惑度值ppl最小的候选项识别为当前文字。

p p l = \frac{1}{N} Σ_{1}^{N} l o g [p (S_{i})]

与背景技术相比，本申请实施例包括以下优点：

在本申请实施例中，通过获取多帧视频图像中的待识别文字，并计算所述待识别文字相互之间的编辑距离，从而得到一个或多个候选项，然后从所述一个或多个候选项中对当前文字进行识别，能够获得准确的识别结果。而且，通过选择候选项，而不是直接用语言模型进行矫正，可以避免对语料库的依赖，实现对多领域的视频文字的识别。

附图说明

图1是本申请的一种视频文字的识别方法实施例一的步骤流程图；

图2是本申请的在时间上连续的多帧视频图像中的待识别文字之间的编辑距离的计算结果示意图；

图3是本申请的一种视频文字的识别方法实施例二的步骤流程图；

图4是本申请的一种将待识别文字进行两两对齐的示意图；

图5是本申请的一种视频文字的识别装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请的一种视频文字的识别方法实施例一的步骤流程图，具体可以包括如下步骤：

步骤101，获取多帧视频图像；

通常，在视频播放过程中，同一条文字可能出现在多帧视频图像中，OCR会对每一帧视频图像中的文字分别进行识别，因此，在本申请实施例中，可以通过获取多帧视频图像来获得同一条文字的多个显示结果。

在本申请的一种优选实施例中，所述获取多帧视频图像的步骤具体可以包括如下子步骤：

子步骤1011，获取在时间上连续的多帧视频图像。

一般地，同一条文字基本出现在时间上连续的多帧视频图像中，因此，在具体实现中，可以通过获取在时间上连续的多帧视频图像来获得同一条文字的多个显示结果。

步骤102，分别从所述多帧视频图像中提取出多条待识别文字；

在本申请实施例中，可以从每帧图像中各提取出一条待识别文字，从而组成多条待识别文字。

步骤103，计算所述多条待识别文字之间的编辑距离；

在本申请实施例中，在获得多帧视频图像后，可以分别从每一帧图像中提取出待识别文字，通过计算多条待识别文字之间的编辑距离(edit distance)来判断多条待识别文字是否属于同一条文字。

编辑距离又称Levenshtein距离，是指两个字符串之间，由一个转换成另一个所需要的最少编辑操作次数。一般地，许可的编辑操作可以包括将一个字符替换成另一个字符、插入一个字符、删除一个字符等操作。通常认为，编辑距离越小，两个字符串的相似度越大。因此，通过判断多条待识别文字之间的编辑距离在数值上是否相近，可以确定所述多条待识别文字是否属于同一条文字。

作为本申请实施例的一种示例，编辑距离可以通过如下方式计算得到：

首先可以定义这样一个函数：edit(i,j)，它表示第一个字符串的长度为i的子串到第二个字符串的长度为j的子串的编辑距离。

然后可以按照如下动态规划公式进行计算，得到两个字符串之间的编辑距离：

ifi＝＝0且j＝＝0，edit(i,j)＝0

ifi＝＝0且j>0，edit(i,j)＝j

ifi>0且j＝＝0，edit(i,j)＝i

ifi≥1且j≥1，edit(i,j)＝＝min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)}，当第一个字符串的第i个字符不等于第二个字符串的第j个字符时，f(i,j)＝1；否则，f(i,j)＝0。

在本申请的一种优选实施例中，所述计算所述多条待识别文字之间的编辑距离的步骤具体可以包括如下子步骤：

子步骤1031，分别计算在时间上连续的两帧视频图像中的待识别文字之间的编辑距离。

参照图2，是本申请的在时间上连续的多帧视频图像中的待识别文字之间的编辑距离的计算结果示意图。其中，OCR识别出的连续四帧视频图像中的文字分别为：

第1帧：第68届戛纳国际电影节拉开唯幕

第2帧：第68届崑纳国际电影节拉开帷幕

第3帧：第6、届崑a内国际电影节拉开帷幕

第4帧：戛纳红毯秀颜值爆表

通过计算可知，第1帧与第2帧视频图像中的文字之间的编辑距离为8；第2帧与第3帧视频图像中的文字之间的编辑距离为7；而第3帧与第4帧视频图像中的文字之间的编辑距离为41。

步骤104，依据所述编辑距离，获得一个或多个候选项；

在本申请实施例中，当分别获得在时间上连续的两帧视频图像中的文字之间的编辑距离后，可以根据编辑距离的数值是否相近，确定所述多条待识别文字是否属于同一条文字。若是，则可以进一步通过交换待识别文字的不同部分，获得扩展候选项，连同原有的多条待识别文字作为一条OCR结果的全部候选项。如上示例，编辑距离7与8在数值上相近，则可以认为第1、2、3帧视频图像中的文字属于同一条文字。

在本申请的一种优选实施例中，所述依据所述编辑距离，获得一个或多个候选项的步骤具体可以包括如下子步骤：

子步骤1041，判断在时间上连续的两个编辑距离之间的差值是否在预设阈值范围内；

子步骤1042，若是，则对所述多条待识别文字进行两两对齐，获得一组或多组待识别文字对；

子步骤1043，交换所述一组或多组待识别文字对的不同部分，获得扩展候选项；

子步骤1044，将所述多条待识别文字和扩展候选项组成所述一个或多个候选项。

在具体实现中，通过判断在时间上连续的两个编辑距离之间的差值是否在预设阈值范围内可以确定多条待识别文字是否为同一条文字，一般地，可以将预设阈值设置得较小，例如3。对于图2中编辑距离分别为8和7的三条待识别文字，其差值为1，小于预设阈值，则可以认为第1、2、3帧视频图像中的文字为同一条文字，而第3、4帧图像中的编辑距离为41，其与其他编辑距离之间的差值远远大于预设阈值，则可以认为第4帧图像中的文字与前三帧图像中的文字不同。

在确定出同一条待识别文字后，可以对所述多条待识别文字进行两两对齐，获得一组或多组待识别文字对，然后分别交换所述一组或多组待识别文字对的不同部分，得到扩展的候选项，连同原有的多条待识别文字共同作为一条OCR结果的全部候选项。

步骤105，从所述一个或多个候选项中识别出当前文字。

在本申请实施例中，在获得一个或多个候选项后，可以分别计算每个候选项的困惑度值困惑度值ppl。

通常用于评价聚类算法好坏的方法有两种，其一是使用带分类标签的测试数据集，然后使用一些算法，比如Normalized Mutual Information，Variationof Information distance来判断聚类结果与真实结果的差距。其二是使用无分类标签的测试数据集，用训练出来的模型来执行测试数据集，然后计算在测试数据集上的perplexity指标，这个指标也就是困惑度值ppl。它可以直观理解为用于生成测试数据集的词表大小的期望值，而这个词表中所有词汇符合平均分布。

在具体实现中，可以采用如下公式计算所述一个或多个候选项的困惑度值ppl：

p p l = \frac{1}{N} Σ_{1}^{N} l o g [p (S_{i})]

当分别计算出每个候选项的困惑度值ppl后，可以将困惑度值ppl最小的候选项识别为当前文字。

在本申请实施例中，通过获取多帧视频图像中的待识别文字，计算相互之间的编辑距离，从而得到一个或多个候选项，然后从所述一个或多个候选项中对当前文字进行识别，能够获得准确的识别结果，而且，通过选择候选项，而不是直接用语言模型进行矫正，可以避免对语料库的依赖，实现对多领域的视频文字的识别。

参照图3，示出了本申请的一种视频文字的识别方法实施例二的步骤流程图，具体可以包括如下步骤：

步骤301，获取在时间上连续的多帧视频图像；

通常，在视频播放过程中，同一条文字基本出现在时间上连续的多帧视频图像中，OCR会对每一帧视频图像中的文字分别进行识别。因此，在本申请实施例中，可以通过获取在时间上连续的多帧视频图像来获得同一条文字的多个显示结果。

步骤302，分别从所述多帧视频图像中提取出多条待识别文字；

步骤303，分别计算在时间上连续的两帧视频图像中的待识别文字之间的编辑距离；

在本申请实施例中，在获得在时间上连续的多帧视频图像后，可以分别从每一帧图像中提取出待识别文字，通过计算在时间上连续的多条待识别文字之间的编辑距离来判断多条待识别文字是否属于同一条文字。

步骤304，判断在时间上连续的两个编辑距离之间的差值是否在预设阈值范围内；

在具体实现中，通过判断在时间上连续的两个编辑距离之间的差值是否在预设阈值范围内可以确定多条待识别文字是否为同一条文字，一般地，可以将预设阈值设置得较小，例如3。对于图2中编辑距离分别为8和7的三条待识别文字，其差值为1，小于预设阈值，则可以认为第1、2、3帧视频图像中的文字为同一条文字，而第3、4帧图像中的编辑距离为41，其与其他编辑距离之间的差值远远大于预设阈值，则可以认为第4帧图像中的文字与前三帧图像中的文字不同。当确定所述多条文字属于同一条文字后，可以进一步执行步骤305，对多条待识别文字进行两两对齐。

步骤305，对所述多条待识别文字进行两两对齐，获得一组或多组待识别文字对；

步骤306，交换所述一组或多组待识别文字对的不同部分，获得扩展候选项；

在具体实现中，可以采用基于动态规划的smith-warterman算法将多条待识别文字两两对齐，通过交换不同部分，获得扩展候选项。

smith-warterman算法是一种用来寻找并比较具有局部相似性区域的动态规划算法，很多后来的算法都是在该算法的基础上发展的。这是一种两序列局部比对算法，通过把两条未知的序列进行排列，对字符串进行匹配，删除和插入操作，使得两条序列达到同样长度。其算法过程可简单描述如下：

1)为每个字符赋值。相同或类似的赋予正值，对于不同的或有空位的赋予负值；

2)用0对矩阵边缘单元初始化；

3)将矩阵中的分值相加，任何小于0的分值均用0代替；

4)通过动态规划的方法，从矩阵中的最大分值单元开始回溯寻找；

5)继续，一直到分值为0的单元停止，此回溯路径的单元即为最优对齐序列。

参照图4，是本申请的一种将待识别文字进行两两对齐的示意图，通过交换不同部分，可以获得如下8条扩展候选项：

1、第68届戛纳国际电影节拉开唯幕

2、第68届戛纳国际电影节拉开帷幕

3、第68届崑a内国际电影节拉开唯幕

4、第68届崑a内国际电影节拉开帷幕

5、第6、届戛纳国际电影节拉开唯幕

6、第6、届戛纳国际电影节拉开帷幕

7、第6、届崑a内国际电影节拉开唯幕

8、第6、届崑a内国际电影节拉开帷幕

步骤307，将所述多条待识别文字和扩展候选项组成所述一个或多个候选项；

在具体实现中，可以将OCR原本识别出的多条待识别文字和由上述步骤获得的扩展候选项一起，共同组成多个候选项，通过对多个候选项进行识别，得到当前文字的识别结果。

步骤308，计算所述一个或多个候选项的困惑度值ppl；

p p l = \frac{1}{N} Σ_{1}^{N} l o g [p (S_{i})]

步骤309，将所述困惑度值ppl最小的候选项识别为当前文字。

作为一种示例，按照上述公式可以计算获得如下候选项的困惑度值ppl：

1、第68届戛纳国际电影节拉开唯幕：41.93

2、第68届戛纳国际电影节拉开帷幕：35.65

3、第68届崑a内国际电影节拉开唯幕：58.71

4、第68届崑a内国际电影节拉开帷幕：49.66

5、第6、届戛纳国际电影节拉开唯幕：43.98

6、第6、届戛纳国际电影节拉开帷幕：40.30

7、第6、届崑a内国际电影节拉开唯幕：57.01

8、第6、届崑a内国际电影节拉开帷幕：56.32

从而可以将困惑度值ppl最小的第2条候选项“第68届戛纳国际电影节拉开帷幕”识别为当前文字。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请实施例并不受所描述的动作顺序的限制，因为依据本申请实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本申请实施例所必须的。

参照图5，示出了本申请的一种视频文字的识别装置实施例的结构框图，具体可以包括如下模块：

视频图像获取模块501，用于获取多帧视频图像；

待识别文字提取模块502，用于分别从所述多帧视频图像中提取出多条待识别文字；

编辑距离计算模块503，用于计算所述多条待识别文字之间的编辑距离；

候选项获取模块504，用于依据所述编辑距离，获得一个或多个候选项；

文字识别模块505，用于从所述一个或多个候选项中识别出当前文字。

在本申请实施例中，所述视频图像获取模块501具体可以包括如下子模块：

视频图像获取子模块5011，用于获取在时间上连续的多帧视频图像。

在本申请实施例中，所述编辑距离计算模块503具体可以包括如下子模块：

编辑距离计算子模块5031，用于分别计算在时间上连续的两帧视频图像中的待识别文字之间的编辑距离。

在本申请实施例中，所述候选项获取模块504具体可以包括如下子模块：

编辑距离判断子模块5041，用于判断在时间上连续的两个编辑距离之间的差值是否在预设阈值范围内；

待识别文字对获取子模块5042，用于在时间上连续的两个编辑距离之间的差值在预设阈值范围内时，对所述多条待识别文字进行两两对齐，获得一组或多组待识别文字对；

扩展候选项获取子模块5043，用于交换所述一组或多组待识别文字对的不同部分，获得扩展候选项；

候选项组成子模块5044，用于将所述多条待识别文字和扩展候选项组成所述一个或多个候选项。

在本申请实施例中，所述文字识别模块505具体可以包括如下子模块：

困惑度值计算子模块5051，用于计算所述一个或多个候选项的困惑度值ppl；

文字识别子模块5052，用于将所述困惑度值ppl最小的候选项识别为当前文字。

在本申请实施例中，可以采用如下公式计算所述一个或多个候选项的困惑度值ppl：

p p l = \frac{1}{N} Σ_{1}^{N} l o g [p (S_{i})]

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种视频文字的识别方法和一种视频文字的识别装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种视频文字的识别方法，其特征在于，包括：

获取多帧视频图像；

分别从所述多帧视频图像中提取出多条待识别文字；

计算所述多条待识别文字之间的编辑距离；

依据所述编辑距离，获得一个或多个候选项；

从所述一个或多个候选项中识别出当前文字。

2.根据权利要求1所述的方法，其特征在于，所述获取多帧视频图像的步骤包括：

获取在时间上连续的多帧视频图像。

3.根据权利要求1或2所述的方法，其特征在于，所述计算所述多条待识别文字之间的编辑距离的步骤包括：

4.根据权利要求3所述的方法，其特征在于，所述依据所述编辑距离，获得一个或多个候选项的步骤包括：

5.根据权利要求4所述的方法，其特征在于，所述从所述一个或多个候选项中识别出当前文字的步骤包括：

计算所述一个或多个候选项的困惑度值ppl；

将所述困惑度值ppl最小的候选项识别为当前文字。

6.根据权利要求5所述的方法，其特征在于，采用如下公式计算所述一个或多个候选项的困惑度值ppl：

p p l = \frac{1}{N} Σ_{1}^{N} l o g [p (S_{i})]

7.一种视频文字的识别装置，其特征在于，包括：

视频图像获取模块，用于获取多帧视频图像；

8.根据权利要求7所述的装置，其特征在于，所述视频图像获取模块包括：

9.根据权利要求7或8所述的装置，其特征在于，所述编辑距离计算模块包括：

10.根据权利要求9所述的装置，其特征在于，所述候选项获取模块包括：

11.根据权利要求10所述的装置，其特征在于，所述文字识别模块包括：

12.根据权利要求11所述的装置，其特征在于，采用如下公式计算所述一个或多个候选项的困惑度值ppl：

p p l = \frac{1}{N} Σ_{1}^{N} l o g [p (S_{i})]