CN114241471B

CN114241471B - 视频文本识别方法、装置、电子设备及可读存储介质

Info

Publication number: CN114241471B
Application number: CN202210165002.0A
Authority: CN
Inventors: 王章成; 唐铭谦; 王莽; 赵永飞; 马傲; 徐良鹏
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-02-23
Filing date: 2022-02-23
Publication date: 2022-06-21
Anticipated expiration: 2042-02-23
Also published as: CN114241471A

Abstract

本公开实施例提出了一种视频文本识别方法、装置、电子设备及可读存储介质。该方法包括：获取待识别视频的轨迹信息；轨迹信息包括待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；对每个轨迹信息，根据识别置信度最高的第一文本识别内容，对识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个视频帧的第二文本识别结果；根据第二文本识别结果，经过第一纠错处理后的识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容；根据第二文本识别内容和经过第一纠错处理后的识别置信度符合所述置信度阈值的第一文本识别内容，确定待识别视频的文本识别结果。

Description

视频文本识别方法、装置、电子设备及可读存储介质

技术领域

本公开实施例涉及视频识别技术领域，更具体的，涉及一种视频文本识别方法、装置、电子设备及可读存储介质。

背景技术

视频文本识别可以识别视频中的文字信息，可应用于各类视频场景中，有效区分文字内容是否合规，降低违规风险。

相关技术中，视频文字识别的实现，通常先通过文本检测模型识别出视频帧中可能存在文本的区域，再利用文本识别模型对该可能存在文本的区域进行识别，获取到文本识别结果。

但是，在视频的清晰度不足、背景复杂等的情况下，文本检测模型容易出现漏检误检的情况，从而导致文本识别模型出现误识别，使得视频文字识别结果的准确度较低。

发明内容

本公开实施例提供一种视频文本识别方法，可以提高视频文字识别结果的准确度。

根据本公开的第一方面，提供了一种视频文本识别方法，包括：

获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度；

对每个所述轨迹信息，根据所述识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果；所述第二文本识别结果包括经过第一纠错处理后的第一文本识别内容和对应的识别置信度；

根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表；

根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、所述识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容；

根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果。

可选地，所述获取待识别视频的轨迹信息，包括：

以设定帧率对所述待识别视频进行解帧，得到多个视频帧；

对每个所述视频帧，根据文本检测跟踪算法，得到所述视频帧的至少一个文本检测区域的位置信息；

根据文本识别算法对各所述文本检测区域的内容进行识别，得到所述第一文本识别内容及对应的识别置信度；

将所述第一文本识别内容和所述识别置信度确定为所述文本检测区域对应的第一文本识别结果；

将所述文本检测区域的位置信息相同的所述多个视频帧对应的第一文本识别结果确定为所述文本检测区域的轨迹信息。

可选地，所述根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表，包括：

筛选出至少一个所述视频帧中经过第一纠错处理后的、所述识别置信度高于所述第二置信度阈值的第一文本识别内容；

根据筛选后的所述第一文本识别内容和对应的文本检测区域，生成所述关键词表。

可选地，所述筛选出至少一个所述视频帧中经过第一纠错处理后的、所述识别置信度高于所述第二置信度阈值的第一文本识别内容之后，所述方法还包括：

获取至少一个所述视频帧中经过第一纠错处理后的、与筛选后的所述第一文本识别内容对应的文本检测区域；

根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并；

根据合并后的所述文本检测区域，以及对应的筛选后的所述第一文本识别内容，生成所述关键词表。

可选地，所述根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并之后，所述方法还包括：

统计所述文本检测区域中相同第一文本识别内容出现的次数；

根据出现的次数高于频次阈值的第一文本识别内容及对应的文本检测区域，生成所述关键词表。

可选地，所述根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并，包括：

将各所述视频帧中交并比高于交并比阈值的文本检测区域进行合并。

可选地，所述根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容，包括：

根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度低于所述第二置信度阈值的第一文本识别内容进行匹配，在所述第一文本识别内容与所述关键词表的内容不一致的情况下，使用所述关键词表的内容替换所述第一文本识别内容，得到所述第二文本识别内容。

可选地，所述根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果，包括：

将所述第二文本识别内容，以及经过第一纠错处理后的、所述识别置信度高于所述第二置信度阈值的第一文本识别内容进行合并，得到所述待识别视频的文本识别结果。

根据本公开的第二方面，提供了一种视频文本识别方法，包括：

接收用户在视频播放界面的第一输入；

响应于所述第一输入，显示所述视频的文本识别结果；

其中，所述文本识别结果是在获取所述视频的轨迹信息，对每个所述轨迹信息，根据识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果，根据视频中至少一个视频帧的所述第二文本识别结果，获取所述视频的关键词表，根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容后，根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容确定的。

根据本公开的第三方面，提供了一种视频文本识别装置，包括：

第一获取模块，用于获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度；

第一纠错处理模块，用于对每个所述轨迹信息，根据所述识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果；所述第二文本识别结果包括经过第一纠错处理后的第一文本识别内容和对应的识别置信度；

第二获取模块，用于根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表；

第二纠错处理模块，用于根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、所述识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容；

确定模块，根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果。

根据本公开的第四方面，还提供一种视频文本识别装置，包括：

接收模块，用于接收用户在视频播放界面的第一输入；

响应模块，用于响应于所述第一输入，显示所述视频的文本识别结果；

根据本公开的第五方面，还提供了一种电子设备，其中，包括：如本公开的第三方面中所述的视频文本识别装置；或者，处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行根据本公开的第一方面中任一项所述的方法。

根据本公开的第六方面，还提供一种电子设备，包括：如本公开的第四方面中所述的视频文本识别装置；或者，处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行根据本公开的第二方面中所述的方法。

根据本公开的第七方面，还提供一种可读存储介质，存储介质存储有可执行指令，所述可执行指令被处理器执行时，执行如本公开的第一方面中任一项所述的方法；或者，执行如本公开第二方面中所述的方法。

在一个实施例中，通过获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度；对每个所述轨迹信息，根据所述识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果；所述第二文本识别结果包括经过第一纠错处理后的第一文本识别内容和对应的识别置信度；根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表；根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容；根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果。本公开实施例中，可以利用视频的轨迹信息筛选出该视频的关键词表，并基于该关键词表实现对置信度低的文本识别内容进行第二纠错处理，从而提升了视频文本识别的准确度。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在公开中并构成公开的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本公开实施例一的视频文本识别方法的流程示意图；

图2本公开实施例中一帧视频帧的文本识别结果的内部信息结构示意图；

图3是根据本公开实施例经过非极大值抑制处理前的文本检测区域的示意图；

图4根据本公开实施例经过非极大值抑制处理后的文本检测区域的示意图；

图5是根据本公开实施例二的视频文本识别方法的流程示意图；

图6是可用于本公开实施例一的视频文本识别装置的原理框图；

图7是可用于本公开实施例二的视频文本识别装置的原理框图；

图8是可用于实施本公开实施例的电子设备的原理框图；

图9是用于实现本公开实施例的一种电子设备的硬件结构示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为公开的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

<术语解释>

视频文本识别（Video-OCR）：对视频中出现的文字进行检测定位和识别输出。

轨迹信息（Tracklet）：通过文本跟踪生成的数据格式，主要包含文本识别内容，识别置信度，文本检测区域的位置，时间戳等信息。

非极大值抑制：其思想是搜索局部区域，对非极大值元素进行抑制，保留局部极大值。

<方法实施例>

视频文本识别可以识别视频中的文字信息，可应用于各类视频场景中，有效区分文字内容是否合规，降低违规风险。由于现实的视频场景中存在着清晰度不足、艺术字体、复杂背景、场景多样的限制，视频文本识别容易出现误识别的问题，为了改进这一问题，本实施例提供一种视频文本识别方法，能够在不改变现有的视频文本识别模型的基础性能的前提下，利用视频内部的上下文信息，通过轨迹信息和基于非极大值筛选的关键词表纠错的方式，实现整体识别性能的快速提升。下面结合附图对本实施例的视频文本识别方法进行详细说明。

图1是根据本公开实施例一的视频文本识别方法的流程示意图，该方法可以由电子设备实施，该电子设备例如可以是智能手机、电脑等设备。

如图1所示，本实施例的视频文本识别方法可以包括如下步骤1100~步骤1400：

步骤1100，获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度。

本步骤中，可以以设定帧率对所述待识别视频进行解帧，得到多个视频帧。例如，可以以每秒三帧的帧率对待识别视频进行解帧，具体的帧率可以根据实际需求进行设定，在此不作具体限定。

在得到多个视频帧后，对每个所述视频帧，执行如下操作：根据文本检测跟踪算法，得到所述视频帧的至少一个文本检测区域的位置信息；根据文本识别算法对各所述文本检测区域的内容进行识别，得到所述第一文本识别内容及对应的识别置信度；将所述第一文本识别内容和所述识别置信度确定为所述文本检测区域对应的第一文本识别结果。

在得到所述待识别视频的至少一个帧视频帧中至少一个文本检测区域对应的第一文本识别内容后，将所述文本检测区域的位置信息相同的所述多个视频帧对应的第一文本识别结果确定为所述文本检测区域的轨迹信息。也就是说，一个轨迹信息中包含同一区域内多帧视频帧的文本检测区域的第一文本识别结果。

步骤1200，对每个所述轨迹信息，根据所述识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果；所述第二文本识别结果包括经过第一纠错处理后的第一文本识别内容和对应的识别置信度。

本步骤中，第一纠错处理例如可以是使用识别置信度最高的第一文本识别内容，对识别置信度低于第一置信度阈值的第一文本识别内容进行替换，从而得到至少一个所述视频帧的第二文本识别结果。

示例性的，一帧视频帧的一个文本检测区域的第二文本识别结果包含的信息如图2所示。result为该文本检测区域的识别结果，score为整体识别结果的识别置信度，由单字符的识别置信度计算得到，bbox为文本检测区域的位置信息，不同位置的文本检测区域不属于同个轨迹信息，char_probs为每个字符的识别置信度，frame_index表示该文本检测区域位于待识别视频的第几帧，timestamp表示该文本检测区域对应时间戳。

在获取到待识别视频的轨迹信息后，执行步骤1300：

步骤1300，根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表。

可以理解的是，由于轨迹信息是利用文本跟踪算法生成的，同个轨迹信息包含的文本检测区域都是同一位置的，理想情况下包含的文本也都是一致的。因此，本实施例中利用轨迹信息中的识别置信度最高的文本识别内容对整个轨迹信息内的文本识别内容进行第二纠错处理，可以很好地解决背景变化、文字遮挡造成单帧视频帧的文本误识别的问题。

在本步骤中，筛选出至少一个所述视频帧中，经过第一纠错处理后的第二文本识别结果中，所述识别置信度高于所述第二置信度阈值的第一文本识别内容；根据筛选后的所述第一文本识别内容和对应的文本检测区域，生成所述关键词表。

示例性的，可以将第二置信度阈值设置为0.9，将识别置信度高于0.9的第一文本识别内容和对应的文本检测区域作为关键词表生成模型的输入，生成所述关键词表。

在实际应用中，如图3所示，将每个文本检测区域都标注出来，可以看到文本检测区域的数目非常多，如果将这些文本检测区域都作为关键词表生成模型的输入，将会得到很多重复的关键词，而且对于噪声的鲁棒性较低，容易造成后续误纠错。

基于此，在本实施例中，在筛选出至少一个所述视频帧中所述识别置信度高于所述第二置信度阈值的第一文本识别内容之后，还可以获取至少一个所述视频帧中与筛选后的所述第一文本识别内容对应的文本检测区域；根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并；根据合并后的所述文本检测区域，以及对应的筛选后的所述第一文本识别内容，生成所述关键词表。

示例性的，在对各所述视频帧的所述文本检测区域进行合并时，具体可以将各所述视频帧中交并比高于交并比阈值的文本检测区域进行合并。也就是说，只保留具有代表性的文本框，如图4所示，可以看出，在对文本检测区域进行合并后，文本检测区域的数目明显减少。

在实际应用中，考虑到若待识别视频中存在滚动字幕区域，该滚动字幕区域很难通过非极大值抑制算法得到一个单独的文本监测区域，这部分的数据变化大，如果该区域生成对应的关键词并使用该关键词进行纠错，会导致很多误纠错的问题。

为了避免这种情况出现，在本实施例中，在生成关键词表的过程中还引入了出现频次的统计。具体的，在根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并之后，统计所述文本检测区域中相同第一文本识别内容出现的次数；根据出现的次数高于频次阈值的第一文本识别内容及对应的文本检测区域，生成所述关键词表。即，出现的次数高于频次阈值的第一文本识别内容才会作为关键词表生成模型的输入。

在获取所述待识别视频的关键词表后，执行步骤1400：

步骤1400，根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、所述识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容。

具体的，在进行第二纠错处理时，基于第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容及对应的文本检测区域与关键词表的匹配结果，对第一文本识别内容进行第二纠错处理，从而得到第二文本识别结果。

示例性的，对于经过第一纠错处理后的识别置信度低于所述第二置信度阈值的第一文本识别内容与关键词表的内容进行匹配，在匹配结果为不一致的情况下，使用所述关键词表的内容替换所述第一文本识别内容，得到所述第二文本识别内容。

可以理解的是，对识别置信度低于第二置信度阈值的第一文本识别内容进行第二纠错处理，是本实施例的一种实现方式，在一些其他的实现方式中，还可以通过识别置信度取反等方式确定需要进行第二纠错处理的第一文本识别内容，在此不作具体限定。

步骤1500，根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果。

示例性的，可以将所述第二文本识别内容，以及经过第一纠错处理后的、所述识别置信度高于所述第二置信度阈值的第一文本识别内容进行合并，得到所述待识别视频的文本识别结果。

应用本实施例的视频文本识别方法对测评视频进行视频文本识别，根据数值结果可以看出，平均编辑距离下降了0.5002，句准确率提高了10.22%，字准确率提高了4.44%，识别准确度的提升明显。另外，一个好的纠错模块应该是在维持一定的激活率的前提下尽可能提升纠对比例，减少纠错比例，同时避免无法修正的错误的产生，本实施例从纠错性能来看，对于总共约13%的错误，纠错激活率为3.98%，其中纠对比例达到56.98%，纠错比例为5.04%。可以看出，本实施例的视频文本识别方法的纠错性能优越。

以上已结合附图对本公开实施例的视频文本识别方法进行了说明，在本实施例中，通过获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度；对每个所述轨迹信息，根据所述识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果；所述第二文本识别结果包括经过第一纠错处理后的第一文本识别内容和对应的识别置信度；根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表；根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容；根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果。本公开实施例中，可以利用经过第一纠错处理的视频的轨迹信息筛选出该视频的关键词表，并基于该关键词表实现对置信度低的文本识别内容进行第二纠错处理，从而提升了视频文本识别的准确度。

图5是根据本公开实施例二的视频文本识别方法的流程示意图，该方法可以由电子设备实施，该电子设备例如可以是智能手机、电脑等设备。

如图5所示，本实施例的视频文本识别方法可以包括如下步骤5100~步骤5200：

步骤5100，接收用户在视频播放界面的第一输入。

在本实施例中，该视频文本识别的功能可以基于用户的操作来触发。具体的，可以在视频播放界面提供开启视频文本识别功能的入口，当用户需要开启该视频文本识别功能时，通过该入口获取用户的视频播放界面的第一输入。该第一输入可以为：用户对该入口的点击输入，或者为用户输入的语音指令，或者为用户输入的特定手势，具体的可以根据实际使用需求确定，本申请实施例对此不作限定。

本实施例中的特定手势可以为单击手势、滑动手势、拖动手势、压力识别手势、长按手势、面积变化手势、双按手势、双击手势中的任意一种；本申请实施例中的点击输入可以为单击输入、双击输入或任意次数的点击输入等，还可以为长按输入或短按输入。

步骤5200，响应于所述第一输入，显示所述视频的文本识别结果。

所述文本识别结果是在获取所述视频的轨迹信息，对每个所述轨迹信息，根据识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果，根据视频中至少一个视频帧的所述第二文本识别结果，获取所述视频的关键词表，根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容后，根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容确定的。

具体的识别过程可以参照上述实施例一中的描述，在此不再赘述。

以上已结合附图对本公开实施例的视频文本识别方法进行了说明，在本实施例中，通过接收用户在视频播放界面的第一输入；响应于所述第一输入，显示所述视频的文本识别结果。本公开实施例中，可以利用经过第一纠错处理的视频的轨迹信息筛选出该视频的关键词表，并基于该关键词表实现对置信度低的文本识别内容进行第二纠错处理，从而提升了视频文本识别的准确度。

<装置实施例>

在本实施例中，还提供一种视频文本识别装置。如图6所示，该视频文本识别装置6000包括：第一获取模块6100，第一纠错处理模块6200，第二获取模块6,300，第二纠错处理模块6400和确定模块6500。

其中，第一获取模块6100，用于获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度。

第一纠错处理模块6200，用于对每个所述轨迹信息，根据所述识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果；所述第二文本识别结果包括经过第一纠错处理后的第一文本识别内容和对应的识别置信度。

第二获取模块6300，用于根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表。

第二纠错处理模块6400，用于根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容。

确定模块6500，用于根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果。

在一个实施例中，所述第一获取模块6100具体用于：以设定帧率对所述待识别视频进行解帧，得到多个视频帧；对每个所述视频帧，根据文本检测跟踪算法，得到所述视频帧的至少一个文本检测区域的位置信息；根据文本识别算法对各所述文本检测区域的内容进行识别，得到所述第一文本识别内容及对应的识别置信度；将所述第一文本识别内容、所述识别置信度和所述文本检测区域的位置信息确定为所述文本检测区域对应的第一文本识别结果；将所述多个视频帧同一文本检测区域对应的第一文本识别结果确定为所述文本检测区域的轨迹信息。

在一个实施例中，所述第二获取模块6300具体用于：筛选出至少一个所述视频帧中经过第一纠错处理后的、所述识别置信度高于所述第二置信度阈值的第一文本识别内容；根据筛选后的所述第一文本识别内容和对应的文本检测区域，生成所述关键词表。

在一个实施例中，所述第二获取模块6300还用于：获取至少一个所述视频帧中经过第一纠错处理后的、与筛选后的所述第一文本识别内容对应的文本检测区域；根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并；根据合并后的所述文本检测区域，以及对应的筛选后的所述第一文本识别内容，生成所述关键词表。

在一个实施例中，所述第二获取模块6300还用于：统计所述文本检测区域中相同第一文本识别内容出现的次数；根据出现的次数高于频次阈值的第一文本识别内容及对应的文本检测区域，生成所述关键词表。

在一个实施例中，所述装置6000还可以包括合并模块，用于将各所述视频帧中交并比高于交并比阈值的文本检测区域进行合并。

在一个实施例中，所述第二纠错处理模块6400具体用于：根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度低于所述第二置信度阈值的第一文本识别内容进行匹配，在所述第一文本识别内容与所述关键词表的内容不一致的情况下，使用所述关键词表的内容替换所述第一文本识别内容，得到所述第二文本识别内容。

在一个实施例中，所述确定模块6500具体用于将所述第二文本识别内容，以及经过第一纠错处理后的、所述识别置信度高于所述第二置信度阈值的第一文本识别内容进行合并，得到所述待识别视频的文本识别结果。

本实施例的视频文本识别装置，可用于执行上述方法实施例一的技术方案，其实现原理和技术效果类似，此处不再赘述。

在本实施例中，还提供一种视频文本识别装置。如图7所示，该视频文本识别装置7000包括：接收模块7100和响应模块7200。

其中，接收模块7100，用于接收用户在视频播放界面的第一输入。

响应模块7200，用于响应于所述第一输入，显示所述视频的文本识别结果。

本实施例的视频文本识别装置，可用于执行上述方法实施例二的技术方案，其实现原理和技术效果类似，此处不再赘述。

<设备实施例>

本实施例中，还提供一种电子设备，该电子设备包括本公开装置实施例中描述的视频文本识别装置6000；或者，该电子设备为图8所示的电子设备8000，包括：

存储器8100，用于存储可执行命令。

处理器8200，用于在存储器8100存储的可执行命令的控制下，执行本公开任意方法实施例中描述的方法。

在电子设备根据所执行的方法实施例的实施主体，可以是服务器，也可以是电子设备。

该电子设备9000可以包括处理器9100、存储器9200、接口装置9300、通信装置9400、显示装置9500、输入装置9600、扬声器9700、麦克风9800，等等。

其中，处理器9100用于执行程序指令，该程序指令可以采用比如x86、Arm、RISC、MIPS、SSE等架构的指令集。存储器9200例如包括ROM（只读存储器）、RAM（随机存取存储器）、诸如硬盘的非易失性存储器等。接口装置9300例如包括USB接口、耳机接口等。通信装置9400例如能够进行有线或无线通信。显示装置9500例如是液晶显示屏、触摸显示屏等。输入装置9600例如可以包括触摸屏、键盘等。扬声器9700用于输出语音信息。麦克风9800用于采集语音信息。

电子设备9000可以是智能手机、便携式电脑、台式计算机、平板电脑等任意设备。

本实施例中，电子设备9000的存储器9200用于存储指令，所述指令用于控制所述处理器9100进行操作以支持实现根据本公开任意实施例的视频文本识别方法。技术人员可以根据本公开所公开方案设计指令。指令如何控制处理器进行操作，这是本领域公知，故在此不再详细描述。

本领域技术人员应当理解，尽管在图9中示出了电子设备9000的多个装置，但是，本公开实施例的电子设备9000可以仅涉及其中的部分装置，例如，只涉及处理器9100、存储器9200、输入装置9600等。

图9所示的电子设备9000仅是解释性的，并且决不是为了要限制本说明书、其应用或用途。

<计算机可读存储介质实施例>

本实施例提供一种计算机可读存储介质，该存储介质中存储有可执行命令，该可执行命令被处理器执行时，执行本公开任意方法实施例中描述的方法。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

1.一种视频文本识别方法，其特征在于，包括：

获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；将所述文本检测区域的位置信息相同的多个视频帧对应的第一文本识别结果确定为所述文本检测区域的轨迹信息；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度；

根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容；

根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述获取待识别视频的轨迹信息，包括：

以设定帧率对所述待识别视频进行解帧，得到多个视频帧；

3.根据权利要求1所述的方法，其特征在于，所述根据至少一个所述视频帧的所述第二文本识别结果，获取所述待识别视频的关键词表，包括：

4.根据权利要求3所述的方法，其特征在于，所述筛选出至少一个所述视频帧中经过第一纠错处理后的、所述识别置信度高于所述第二置信度阈值的第一文本识别内容之后，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并之后，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述根据非极大值抑制算法对各所述视频帧的所述文本检测区域进行合并，包括：

7.根据权利要求1所述的方法，其特征在于，所述根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容，确定所述待识别视频的文本识别结果，包括：

9.一种视频文本识别方法，其特征在于，包括：

接收用户在视频播放界面的第一输入；

响应于所述第一输入，显示所述视频的文本识别结果；

其中，所述文本识别结果是在获取所述视频的轨迹信息，对每个所述轨迹信息，根据识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果，根据视频中至少一个视频帧的所述第二文本识别结果，获取所述视频的关键词表，根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容后，根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容确定的；

其中，所述轨迹信息包括待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；将所述文本检测区域的位置信息相同的多个视频帧对应的第一文本识别结果确定为所述文本检测区域的轨迹信息。

10.一种视频文本识别装置，其特征在于，包括：

第一获取模块，用于获取待识别视频的轨迹信息；所述轨迹信息包括所述待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果，将所述文本检测区域的位置信息相同的多个视频帧对应的第一文本识别结果确定为所述文本检测区域的轨迹信息；所述第一文本识别结果中至少包括第一文本识别内容和识别置信度；

11.一种视频文本识别装置，其特征在于，包括：

接收模块，用于接收用户在视频播放界面的第一输入；

其中，所述文本识别结果是在获取所述视频的轨迹信息，对每个所述轨迹信息，根据识别置信度最高的第一文本识别内容，对所述识别置信度低于第一置信度阈值的第一文本识别内容进行第一纠错处理，得到至少一个所述视频帧的第二文本识别结果，根据视频中至少一个视频帧的所述第二文本识别结果，获取所述视频的关键词表，根据所述关键词表，对至少一个所述视频帧中，经过第一纠错处理后的、识别置信度不符合第二置信度阈值的第一文本识别内容进行第二纠错处理，得到第二文本识别内容后，根据所述第二文本识别内容和经过第一纠错处理后的、所述识别置信度符合所述第二置信度阈值的第一文本识别内容确定的；其中，所述轨迹信息包括待识别视频中至少一个视频帧的同一文本检测区域对应的第一文本识别结果；将所述文本检测区域的位置信息相同的多个视频帧对应的第一文本识别结果确定为所述文本检测区域的轨迹信息。

12.一种电子设备，其特征在于，包括：

如权利要求10中所述的视频文本识别装置；或者，

处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行根据权利要求1至8中任一项所述的方法。

13.一种电子设备，其特征在于，包括：

如权利要求11中所述的视频文本识别装置；或者，

处理器和存储器，所述存储器用于存储指令，所述指令用于控制所述处理器执行根据权利要求9中所述的方法。

14.一种可读存储介质，存储介质存储有可执行指令，所述可执行指令被处理器执行时，执行如权利要求1至8中任一项所述的方法；或者，执行如权利要求9中所述的方法。