CN112287916B

CN112287916B - 视频图文课件文本提取方法、装置、设备及介质

Info

Publication number: CN112287916B
Application number: CN202011579954.4A
Authority: CN
Inventors: 王异秀
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-30
Anticipated expiration: 2040-12-28
Also published as: CN112287916A

Abstract

本发明涉及人工智能，揭露一种视频图文课件文本提取方法，包括：对视频图文课件进行分类,采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框，获得图片的结构化信息；对所述图片进行正则化处理，以更新所述图片上每个所述文本框的坐标；构建神经网络语言模型进行训练，所述神经网络语言模型的输入为多个文字字段，输出为所述多个文字字段拼接的合理性；对所述文本框进行拼接，并采用训练后的神经网络语言模型对拼接进行合理性判断，若所述合理性符合预设值，则提取所述文本框拼接后的文本。此外，本发明还涉及区块链技术，所述视频图文课件可存储于区块链中。本发明可从图像、视频中提供完整可读性、可处理性、结构化的文本。

Description

视频图文课件文本提取方法、装置、设备及介质

技术领域

本发明涉及人工智能，尤其涉及一种视频图文课件文本提取方法、装置、电子设备及计算机可读存储介质。

背景技术

随着人工智能技术和移动网络的高速发展，在线教育变得越来越普及。在线教育的教学通常以视频、ppt、或图文html的方式来展开，存在大量以图片形式存放的课程知识。然而，想对这些知识进行利用时，往往需要有效、准确、结构化的文本信息。因此，对这些视频图文数据进行文字的结构化提取有着迫切的需求。

现有技术视频、图文的文本提取是基于OCR(Optical Character Recognition,光学字符识别)识别的，但无论是什么OCR识别算法，都是通过识别文本框后，进一步识别文本框中的文本来完成的。识别出来的文本是短小的句子碎片，通常用标点符号进行切分，而非完整的文本。另外，用于识别的视频文件、ppt文件通常含有大量不规范的文本，如斜着的文字，竖着的文字，动画效果也会造成识别的失效。因此，现有的OCR技术虽然可以识别出视频、ppt、图文中含有的文本，但是提取出的文本是碎片化的、不完整的、缺失结构信息的文本片段，并无法进行进一步的提取使用。

发明内容

本发明提供一种视频图文课件文本提取方法、装置、电子设备及计算机可读存储介质，其主要目的在于从图像、视频中提供完整可读性、可处理性、结构化的文本。

为实现上述目的，本发明提供一种视频图文课件文本提取方法，包括：

对视频图文课件进行分类,采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框，获得图片的结构化信息；

对所述图片进行正则化处理，以更新所述图片上每个所述文本框的坐标；

构建神经网络语言模型，所述神经网络语言模型的输入为多个文字字段，输出为所述多个文字字段拼接的合理性；

对所述文本框进行拼接，并采用训练后的神经网络语言模型对拼接进行合理性判断，若所述合理性符合预设值，则提取所述文本框拼接后的文本。

可选地，所述对视频图文课件进行分类，采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框的步骤包括：

将视频图文课件分为图文课件和视频课件；

利用文本识别方法对图文课件进行文本识别，获取图文课件中所有存在的文本框及文本框内的文本信息；

对视频课件进行切帧处理，形成多个图文课件，利用文本识别方法对所述多个图文课件进行文本识别，获取图文课件中所有存在的文本框及文本框内的文本信息，去除所述多个图文课件中内容重复的图文课件。

可选地，所述对视频课件进行切帧处理，形成多个图文课件，利用文本识别方法对所述多个图文课件进行文本识别，去除所述多个图文课件中内容重复的图文课件的步骤包括：

对视频课件进行切帧处理，每秒保存设定帧数的图像，每个图像作为一个图文课件，使所述视频课件形成按帧排序的多个图文课件；

将第一个图文课件的图像作为先帧图像，先帧图像的后一帧图像作为对应的后帧图像，依次执行以下去重步骤：

提取先帧图像和后帧图像的全部文本信息；

通过词袋算法计算所述先帧图像的文本信息和所述后帧图像的文本信息的余弦相似度；

若所述余弦相似度不小于预设相似度阈值，则判定所述后帧图像与所述先帧图像为重复帧，删掉所述后帧图像；

若所述余弦相似度小于预设相似度阈值，则判定所述后帧图像与所述先帧图像不是重复帧；

若所述后帧图像与所述先帧图像不是重复帧，判断所述后帧图像与所述先帧图像是否为动画效果的渐进或消失；

如果所述后帧图像是所述先帧图像的动画效果的渐进图像，删除所述先帧图像；

如果所述后帧图像是所述先帧图像的动画效果的消失图像，删除所述后帧图像；

对所述多个图文课件依次执行上述图片去重步骤，直至所述视频课件切帧形成的所有图像的重复帧被删除，得到图片去重后的多个图文课件。

可选地，所述判断所述后帧图像与所述先帧图像是否为动画效果的渐进或消失的方法为：

若所述后帧图像的文本信息包含所述先帧图像的全部文本信息，且所述后帧图像的超出所述先帧图像的文本信息占所述先帧图像的全部文本信息的比值不超过5%，则所述后帧图像为所述先帧图像的动画效果的渐进图像；

若所述先帧图像的文本信息包含所述后帧图像的全部文本信息，且所述先帧图像的超出所述后帧图像的文本信息占所述后帧图像的全部文本信息的比值不超过5%，则所述后帧图像为所述先帧图像的动画效果的消失图像。

可选地，所述对所述图片进行正则化处理的步骤包括：

通过每个坐标点所在文本框的高度设定X方向上每个坐标点的第一有效误差范围；

根据所述第一有效误差范围，在X方向上对所有的坐标点进行分组，分组规则如下：

如果第一坐标点的相邻坐标点的第一有效误差范围的最小值，不大于所述第一坐标点的第一有效误差范围的最大值，将所述相邻坐标点和所述第一坐标点分为一组，否则将所述第一坐标点和所述第一坐标点的相邻坐标点分为不同组，所述第一坐标点为所述X方向上的任意坐标点；

对每个分组中的所有坐标点的第一有效误差范围取交集，并将交集内的任一值作为本组内的所有坐标点的X值；

通过每个坐标点所在文本框的高度设定Y方向上每个坐标点的第二有效误差范围；

根据所述第二有效误差范围，在Y方向上对所有的坐标点进行分组，分组规则如下：

如果第二坐标点的相邻坐标点的第二有效误差范围的最小值，不大于所述第二坐标点的第二有效误差范围的最大值，将所述第二坐标点的相邻坐标点和所述第二坐标点分为一组，将所述第二坐标点的相邻坐标点和所述第二坐标点分为不同组，所述第二坐标点为所述Y方向上的任意坐标点；

对每个分组中的所有坐标点的第二有效误差范围取交集，并将交集内的任一值作为本组内的所有坐标点的Y值；

可选地，所述对所述文本框进行拼接，并采用训练后的神经网络语言模型对拼接进行合理性判断的步骤包括：

对所述文本框进行横向拼接预测，并采用所述神经网络语言模型对所述横向拼接预测进行合理性判断，对符合合理性判断的所述文本框进行横向拼接；

对完成横向拼接的文本框进行纵向拼接预测，并采用所述神经网络语言模型对所述纵向拼接预测进行合理性判断。

可选地，所述对所述文本框进行横向拼接预测，并采用所述神经网络语言模型对所述横向拼接预测进行合理性判断，对符合合理性判断的所述文本框进行横向拼接的步骤包括：

对单张图片中所有文本框按照左上顶点的x值进行升序排序，将文本框的左上角坐标y值相近的文本框作为同一组文本框，使所述单张图片中的所有文本框分为多组文本框；

对于同一组文本框中的各个文本框，计算第一文本框与同一组内的其它文本框之间的距离，所述第一文本框为所述同一组文本框中的任一个文本框；

将距离不大于所述第一文本框的高度的文本框和所述第一文本框的文本信息按照升序的顺序输入训练后的神经网络语言模型，获得所述距离不大于所述第一文本框的高度的文本框和所述第一文本框拼接的合理性；

将合理性不小于预设拼接阈值的第一文本框与所述距离不大于所述第一文本框的高度的文本框进行拼接。

为实现上述目的，本发明还提供一种视频图文课件文本提取装置，所述装置包括：

结构化模块，对视频图文课件进行分类,采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框，获得图片的结构化信息；

识别更新模块，对结构化模块获得的图片进行正则化处理，更新图片上每个文本框的坐标；

拼接判断模块，构建神经网络语言模型进行训练，计算多个文本之间拼接的合理性；

文本拼接模块，对图片中的文本框进行拼接处理。

为实现上述目的，本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的视频图文课件文本提取方法。

为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个指令，所述至少一个指令被电子设备中的处理器执行以实现上述所述的视频图文课件文本提取方法。

本发明所述视频图文课件文本提取方法、装置、电子设备及计算机可读存储介质，对视频图文课件中的文本框进行合理地拼接处理，引入一个能够对文本进行拼接的神经网络语言模型，通过前期训练，在对文本识别过程中产生的碎片化的文本，以准确的顺序进行拼接，形成完整顺畅的语句，通过该模型可以判断文本框拼接的合理性。该方法可以从图像、视频中提供完整的具有可读性、可处理性、结构化的文本，并具有良好的可迁移性，能够识别各种各样的艺术字，艺术排版的结构，也可以处理视频中的各种动画、移动的效果，提取出完整的文字。

附图说明

图1是本发明所述视频图文课件文本提取方法的流程图；

图2为本发明一实施例提供的视频图文课件文本提取装置的模块示意图；

图3为本发明一实施例提供的实现视频图文课件文本提取方法的电子设备的内部结构示意图；

图4为本发明一实施例提供的对第一有效误差范围取交集的示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1是本发明所述视频图文课件文本提取的流程图，如图1所示，所述文本提取方法包括：

步骤S1,对视频图文课件进行分类,采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框，获得图片的结构化信息；

步骤S2,对所述图片进行正则化处理，更新所述图片上每个所述文本框的坐标；

步骤S3，构建神经网络语言模型，所述神经网络语言模型的输入为多个文字字段，输出为所述多个文字字段拼接的合理性；

步骤S4，对所述文本框进行拼接，并采用训练后的神经网络语言模型对拼接进行合理性判断，若所述合理性符合预设值，则提取所述文本框拼接后的文本。

在一个实施例中，在步骤S1中，将视频图文课件分为图文课件和视频课件，对图文课件直接利用文本识别方法进行文本识别，对视频课件进行图片去重，形成多个图文课件，然后在利用文本识别方法进行文本识别，例如，对视频图文课件进行分类，对于图文课件可直接利用OCR识别算法进行文本识别；对于视频课件需要进行图片去重处理，形成多个图文课件，然后利用OCR识别算法进行文本识别。利用OCR识别算法进行识别后，可识别出图片中所有存在的文本框，并保留每个文本框左上角、右上角、左下角、右下角的坐标（x,y），以及识别出每个文本框中的文本和文本的置信度（作为所识别的文本的一个参数，供后续其他数据处理参考使用）。使图片形成结构化的信息。

优选地，所述对视频课件进行图片去重的步骤包括：

对于视频文件，对视频进行切帧处理，每秒保存设定帧数的图像，形成按帧排序的多个图像；

提取在先帧图像的全部文本信息A_i，i为帧数索引，提取先帧图像的后一帧的图像的全部文本信息A_i+1；

通过词袋算法获得先帧图像的文本信息A_i及其后一帧图像的文本信息A_i+1的余弦相似度，

若二者的相似度不小于设定相似度阈值，则判定后一帧图像与先帧图像为重复帧，此时删掉后一帧图像；

若二者的相似度小于设定相似度阈值，则判定后一帧图像与先帧图像不是重复帧；

若后一帧图像与先帧图像不是重复帧，判断后一帧图像与先帧图像是否为动画效果的渐进或消失；

如果后一帧图像是先帧图像的动画效果渐进图像，删除先帧图像；

如果后一帧图像是先帧图像的动画效果消失图像，删除后一帧图像；

对切帧处理后的图像依次进行上述先帧图像或后一帧图像的删除。

进一步，优选地，所述判断后一帧图像与先帧图像是否为动画效果的渐进或消失的步骤包括：

判断先帧图像的文本信息A_i是否属于后一帧图像的文本信息A_i+1；

如果先帧图像的文本信息A_i是否属于后一帧图像的文本信息A_i+1（A_i∈A_i+1），判断后一帧的图像的文本信息A_i+1与先帧图像的文本信息A_i的差值与所述后一帧图像的文本信息A_i+1的比值（（A_i+1-A_i）/A_i+1）是否不超过设定值；

如果（A_i+1-A_i）/A_i+1不超过设定值，则后一帧图像是先帧图像的动画效果渐进图像，删除先帧图像，并用后一帧图像替换先帧图像；

如果（A_i+1-A_i）/A_i+1超过设定值，所述先帧图像和后一帧图像不是重复帧；

如果先帧图像的文本信息A_i不属于后一帧图像的文本信息A_i+1，判断后一帧图像的文本信息A_i+1是否属于先帧图像的文本信息A_i；

如果后一帧图像的文本信息A_i+1属于先帧图像的文本信息A_i（A_i+1∈A_i），判断先帧图像的文本信息A_i与后一帧图像的文本信息A_i+1的差值与所述先帧图像的全部文本信息A_i的比值（（A_i-A_i+1）/A_i）是否不超过设定值；

如果（A_i-A_i+1）/A_i不超过设定值，后一帧图像是先帧图像的动画效果消失图像，删除后一帧图像；

如果（A_i-A_i+1）/A_i超过设定值，则所述先帧图像和后一帧图像不是重复帧。

在一个具体实施例中，图片去重处理的方法包括：

1),对于视频文件，对视频进行切帧处理，每秒保存4帧图像。对于每一帧图像，都使用步骤S1中的OCR识别算法，对当前帧的图像进行识别。由于视频帧与帧之间存在大量重复，并存在大量动画转场效果等，需要对算法进行去重。

2）,提取在先帧图像（第i帧）的全部文本信息A_i，和该帧图像的后一帧的图像（第i+1帧）的全部文本信息A_i+1，i为（1，n）的自然数，n为上述视频切帧处理后的图像的总帧数。

首先，通过词袋算法计算A_i与A_i+1的余弦相似度，

若二者的相似度不小于0.95，则判定第i+1帧图像与第i帧图像为重复帧，此时删掉第i+1帧图像；

若二者的相似度小于0.95则判定第i+1帧图像与第i帧图像不是重复帧，此时，判断第i+1帧图像和第i帧图像是否为动画效果的渐进或消失，具体判断方法是：若A_i∈A_i+1，且（A_i+1-A_i）/A_i+1的值不超过0.05，则判定第i+1帧图像为第i帧图像的动画效果渐进图像，此时删除第i帧图像，并用第i+1帧替换第i帧的图像，作为后续重复帧图像判断的基础帧图像；若A_i+1∈A_i，且（A_i-A_i+1）/A_i的值不超过0.05，则A_i完全包含A_i+1，即第i+1帧为动画效果的消失，此时删除第i+1帧图像。反之，则第i+1帧图像与第i帧图像之间没有包含关系，也即二者不是重复帧图像。

将i从1至n依次取值，重复上述步骤2），直至将n帧图像中所有的重复帧删除。

在一个实施例中，步骤S2中，所述对上述图片进行正则化处理的步骤包括：

对每个分组中的所有坐标点的第二有效误差范围取交集，并将交集内的任一值作为本组内的所有坐标点的Y值。

在一个具体实施例中，由于OCR识别对于同样大小的字符，圈出的文本框的大小差距较大，并可能有轻微的扭动，因此对其坐标的x，y值进行一次正则化处理，这里将左上角、右上角、右下角、左下角的坐标分别记为（x₁，y₁）、（x₂，y₂）、（x₃，y₃）、（x₄，y₄）。步骤S2包括：

首先，做x方向上的坐标正则化，假设每个坐标点的x值的第一有效误差范围为[x- (height)/2，x+(height)/2],height为该坐标点所在文本框的高度，计算公式为：

（文本框左上角的坐标Y值减去左下角的坐标Y 值）。

根据上述第一有效误差范围对所有的坐标点进行分组，具体方法是：

1）、依照x值升序排列各个坐标点，取第一个坐标点作为第一组的起点，依次比对在后的坐标点的x值的第一有效误差范围的最小值与该组的起点坐标的x值的第一有效误差范围的最大值，若小于或等于，则将该坐标点纳入该组，若大于则将该坐标点作为下一组的起点；重复上述步骤直至将所有的坐标点均进行分组。

2）、取各组中所有坐标点的x值的第一有效误差范围的交集，在该交集范围内任取一值作为改组中所有坐标点的x值，即完成x值的正则化处理。

如图4所示，给出了a、b、c、d四个点，四个点在x轴上的坐标值分别是2.25、3.05、3.95、5.25。其中a的第一有效误差范围为[1.0,3.5]，如长虚线所示；b的第一有效误差范围为[1.8,4.3]，如点虚线所示；c的第一有效误差范围为[2.7,5.2]，如点划线所示；d的第一有效误差范围为[4.0,6.5]，如双点划线所示。参照上述对x值正则化的方法，则a、b、c三个点为同一组，d在另一组中；a、b、c三个点的第一有效误差范围的交集为[2.7,3.5]，参照上述对x值正则化的方法，则a、b、c三个点的x值可正则为[2.7,3.5]之间的任意值,例如选取3.0，则将a、b、c三个点的x值均正则为3.0。之后做y方向的正则化处理，假设每个坐标点的y值的第二有效误差范围为[y-(height)/2，y+(height)/2],height为该坐标点所在文本框的高度。

根据上述第二有效误差范围对所有的坐标点进行分组，具体方法是：

1）、依照y值升序排列各个坐标点，取第一个坐标点作为第一组的起点，依次比对在后的坐标点的y值的第二有效误差范围的最小值与该组的起点坐标的y值的第二有效误差范围的最大值，若小于或等于，则将该坐标点纳入该组，若大于则将该坐标点作为下一组的起点；重复上述步骤直至将所有的坐标点均进行分组。

2）、取各组中所有坐标点的y值的第二有效误差范围的交集，在该交集范围内任取一值作为改组中所有坐标点的y值，即完成y值的正则化处理。

在一个实施例中，在步骤S3中，构建神经网络语言模型，所述神经网络语言模型的输入为多个文字字段，输出为所述多个文字字段拼接的合理性；用于判断两个文本之间进行拼接是否合理。

优选地，使用双层LSTM模型，训练一个回归模型，来判断两个文本拼接起来是否顺畅。训练模型的数据来自自然文本的片段，片段包括正常的句子，句子的片段，跨两个句子的片段，这三种都视为正例。负例来自人工构造，即将上述构造的正例进行随机拼接，作为负例，共选取100w条数据，50w条正例，负例每轮训练中随机进行构造。利用双层LSTM模型训练一个回归模型的方法为现有技术，在此不再赘述。

在一个实施例中，步骤S4，对所述文本框进行拼接，并采用训练后的神经网络语言模型对拼接进行合理性判断的步骤包括：

对完成横向拼接的文本框进行纵向拼接预测，并采用所述神经网络语言模型对所述横纵向拼接预测进行合理性判断。

在一个实施例中，所述对文本框进行横向拼接的步骤包括：

在一个具体实施例中，对文本框进行横向拼接的方法包括：

步骤1，对单张图片中所有文本框按照左上顶点的x值进行升序排序，筛选与第i个文本框的左上角坐标y值相近的文本框，筛选条件为：

abs(left_top_y(a+b)–left_top_y(a))<height(a)（第a+b个文本框左上顶点的y值与第a个文本框左上顶点的y值的差值的绝对值小于第a个文本框的高度）,a和b为（1，n）的自然数，且a+b≤n，n为单张图片中文本框的数量，height(a)为第a个文本框的高度，计算公式同上。

步骤2，假设筛选出的文本框的数量为m，选定该m个文本框进行下述操作：

计算第p+q个文本框与第p个文本框之间的距离函数，计算方法为：[left_top_x(p+q)–right_top_x(p)]*min(height(p),height(p+q))/max(height(p),height(p+q))，也就是说，left_top_x(p+q)为第p+q个文本框的左上顶点的x值，right_top_x(p)为第p个文本框右上顶点的x值，height(p) 为第p个文本框的高度，height(p+q)为第p+q个文本框的高度，p和q均为（1，m）的自然数，且p+q≤m；

当第p+q个文本框与第p个文本框之间的距离函数的值大于height(p)时，则二者不可以进行拼接；当第p+q个文本框与第p个文本框之间的距离函数的值小于等于height(p)时，采用步骤S3中的神经网络语言模型进一步判断二者可否进行拼接，若可拼接则将二者进行拼接，并更新文本框的数量n、m和文本框四个顶角的坐标值，若不可拼接则放弃二者的拼接，判断方法是：将该两个文本框的文本信息作为入参输入上述神经网络语言模型，若计算结果的合理性不小于0.5则可拼接，若小于0.5则不可拼接。

步骤3，依次在（1，m）范围内遍历p和q，并重复步骤3，直至对所有与第i个文本框的坐标y值相近的文本框完成拼接工作，并更新文本框的数量n和m和文本框四个顶角的坐标值。

步骤4，然后依次在（1，n）范围内遍历a和b，重复步骤1-3，完成该张图片中所有文本框的拼接工作，并更新文本框的数量n和文本框四个顶角的坐标值。

在一个实施例中，对完成横向拼接的文本框进行纵向拼接的步骤包括：

对单张图片中所有文本框按照左上顶点的y值进行降序排序，将文本框的左上角坐标x值相近的文本框作为同一组文本框，使所述单张图片中的所有文本框分为多组文本框；

对于同一组文本框中的各个文本框，计算第二文本框与同一组内的其它文本框之间的距离，所述第二文本框为所述同一组文本框中的任一个文本框；

将距离不大于所述第二文本框的高度的文本框和所述第二文本框的文本信息按照升序的顺序输入训练后的神经网络语言模型，获得所述距离不大于所述第二文本框的高度的文本框和所述第二文本框拼接的合理性；

将合理性不小于预设拼接阈值的第二文本框与所述距离不大于所述第二文本框的高度的文本框进行拼接。

在一个具体实施例中，对完成横向拼接的文本框进行纵向拼接的方法包括：

步骤1，对上述单张图片中拼接后的所有文本框按照左上顶点的y值进行降序排序，筛选与第i个文本框的左上角坐标x值相近的文本框，筛选条件为：

abs(left_top_x(a+b)–left_top_x(a))<height(a)

其中，left_top_x(a+b)和left_top_x(a)分别为第a+b个文本框左上顶点的x值与第a个文本框左上顶点的x值，a和b为（1，n）的自然数，且a+b≤n，n为上述单张图片完成横向拼接后的文本框的数量，height(i)为第i个文本框的高度，计算公式同上。

步骤2、假设筛选出的文本框的数量为m，选定该m个文本框进行下述操作：

计算第p+q个文本框与第p个文本框之间的距离函数，计算方法为：abs[left_top_y(p+q)–left_top_y(p)]*（min(height(p),height(p+q)/max(height(p),height(p+q))，

其中，p和q均为（1，m）的自然数，且p+q≤m；

步骤3、依次在（1，m）范围内遍历p和q，并重复步骤3，直至对所有与第i个文本框的坐标x值相近的文本框完成拼接工作，并更新文本框的数量n和m和文本框四个顶角的坐标值。

若遍历p和q后仍未找到可拼接的文本框，则，取与第p个文本框最近的文本框与第p个文本框尝试拼接，将二者的文本信息输入上述神经网络语言模型中进行判断，可否进行拼接，如可以拼接则进行拼接，并更新文本框的数量n和m和文本框四个顶角的坐标值，若不可拼接则放弃二者的拼接。任一文本框与第p个文本框之间的距离函数为：abs[left_top_y(c)–left_top_y(p)]*（min(height(p),height(c)/max(height(p),height(c)), c为（1，m）的自然数。

步骤4、然后依次在（1，n）范围内遍历p和q，重复步骤1-3，完成该张图片中所有文本框的拼接工作，并更新文本框的数量n和文本框四个顶角的坐标值。

在一个实施例中，还包括对文本框进行斜向拼接的步骤：

当不存在满足横向拼接和纵向拼接要求的一个文本框的相邻文本框时，筛选出于所述一个文本框距离（所述距离为横向拼接的距离和纵向拼接的距离的平方和的开平方）最近的文本框，通过神经网络语言模型判断拼接的合理性；

将符合合理性要求的距离最近的文本框与所述一个文本框进行斜向拼接。

最后对拼接完成后的文本框进行文字提取，即可获得完整的具有可读性、可处理性、结构化的文本，并具有良好的可迁移性。

本发明所述视频图文课件文本提取方法对图文中的文本框进行合理的拼接，这个过程中依次进行了横向拼接、纵向拼接和斜向拼接，最终能够将图文中的各个文本框拼接生成顺畅的语句，为后续数据处理提供坚实的基础。

图2是本发明所述视频图文课件文本提取装置的构成框图，如图2所示，所述文本提取装置100可以安装于电子设备中。根据实现的功能，所述文本提取装置可以包括结构化模块110、识别更新模块120、拼接判断模块130和文本拼接模块140。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

文本拼接模块，对图片中的文本框进行拼接处理。

在一个实施例中，结构化模块110包括：

分类单元，将视频图文课件分为图文课件和视频课件；

结构化信息获得单元，对图文课件直接利用文本识别方法进行文本识别，对视频课件进行图片去重，形成对个图文课件，然后在利用文本识别方法进行文本识别。

在一个实施例中，识别更新模块120包括：

设定单元，通过每个坐标点所在文本框的高度设定X方向上每个坐标点的第一有效误差范围；通过每个坐标点所在文本框的高度设定Y方向上每个坐标点的第二有效误差范围；

第一分组单元，根据第一有效误差范围，对所有的坐标点在X方向上进行分组，如果一个坐标点的相邻坐标点第一有效误差范围的最小值不大于所述一个坐标点的第一有效误差范围的最大值，将所述相邻坐标点和在一个坐标点分为一组，否则相邻坐标点为另一组；

第二分组单元，根据第二有效误差范围，对所有的坐标点在Y方向上进行分组，如果一个坐标点的相邻坐标点第二有效误差范围的最小值不大于所述一个坐标点的第二有效误差范围的最大值，将所述相邻坐标点和在一个坐标点分为一组，否则相邻坐标点为另一组；

第一正则化单元，获得一个组中所有坐标点的第一有效误差范围交集，将交集内任一值作为所述一个组的所有坐标点的X值；

第二正则化单元，获得一个组中所有坐标点的第一有效误差范围交集，将交集内任一值作为所述一个组的所有坐标点的Y值。

在一个实施例中，拼接判断模块130为双层LSTM模型，来判断多个文本之间拼接的合理性。

在一个实施例中，文本拼接模块140包括：

横向拼接单元，对文本框进行横向拼接；

纵向拼接单元，对横向拼接单元横向拼接后的文本框进行纵向拼接。

优选地，文本拼接模块140还包括斜向拼接单元，当横向拼接单元和纵向拼接单元与一个文本框拼接的其他文本框均不满足神经网络语言模型的合理性要求时，筛选出于所述一个文本框距离（所述距离为横向拼接的距离和纵向拼接的距离的平方和的开平方）最近的文本框，通过神经网络语言模型判断拼接的合理性；将符合合理性要求的距离最近的文本框与所述一个文本框进行斜向拼接。

如图3所示，是本发明实现视频图文课件文本提取方法的电子设备的结构示意图。

所述电子设备1可以包括处理器10、存储器11和总线，还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序，如视频图文课件文本提取程序12。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器（例如：SD或DX存储器等）、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元，例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备，例如电子设备1上配备的插接式移动硬盘、智能存储卡（Smart Media Card， SMC）、安全数字（SecureDigital， SD）卡、闪存卡（Flash Card）等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如视频图文课件文本提取程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器（Central Processing unit，CPU）、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心（Control Unit），利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块（例如基于图数据库的数据加速访问程序等），以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。需要强调的是，为进一步保证上述视频图文课件信息的私密和安全性，上述视频文本课件信息还可以存储于一区块链的节点中。

所述总线可以是外设部件互连标准（peripheral component interconnect，简称PCI）总线或扩展工业标准结构（extended industry standard architecture，简称EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。

图3仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图3示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的视频图文课件文本提取12是多个指令的组合，在所述处理器10中运行时，可以实现：

对所述图片进行正则化处理，更新所述图片上每个所述文本框的坐标；

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是非易失性，也可以是易失性，计算机可读存储介质中包括计算机程序，该计算机程序被处理器执行时实现如下操作：

对视频图文课件进行分类, 采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框，获得图片的结构化信息；

对上述图片进行正则化处理，识别图片上每个文本框的文字并更新每个文本框的坐标；

构建神经网络语言模型进行训练，所述神经网络语言模型的输入为多个文本框的文字及坐标，输出为多个文本框拼接的合理性；

采用训练后的神经网络语言模型对符合合理性要求的文本框对应的图片的结构化信息进行文本拼接。

本发明之计算机可读存储介质的具体实施方式与上述视频图文课件文本提取方法、装置、电子设备的具体实施方式大致相同，在此不再赘述。

本发明所述视频图文课件文本提取方法、装置、电子设备及存储介质有效的OCR识别为后续的知识图谱提取、关键词计算、全文搜索都提供了海量数据源，是后续数据处理的坚实基础。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

Claims

1.一种视频图文课件文本提取方法，其特征在于，所述方法包括：

对所述文本框进行拼接，并采用训练后的神经网络语言模型对拼接进行合理性判断，若所述合理性符合预设值，则提取所述文本框拼接后的文本；其中，所述对所述图片进行正则化处理的步骤包括：

2.如权利要求1所述的视频图文课件文本提取方法，其特征在于，所述对视频图文课件进行分类，采用文本识别方法识别出视频图文课件中的图片及图片上所有存在的文本框的步骤包括：

将视频图文课件分为图文课件和视频课件；

3.如权利要求2所述的视频图文课件文本提取方法，其特征在于，所述对视频课件进行切帧处理，形成多个图文课件，利用文本识别方法对所述多个图文课件进行文本识别，去除所述多个图文课件中内容重复的图文课件的步骤包括：

提取先帧图像和后帧图像的全部文本信息；

4.如权利要求3所述的视频图文课件文本提取方法，其特征在于，所述判断所述后帧图像与所述先帧图像是否为动画效果的渐进或消失的方法为：

5.如权利要求1所述的视频图文课件文本提取方法，其特征在于，所述对所述文本框进行拼接，并采用训练后的神经网络语言模型对拼接进行合理性判断的步骤包括：

6.如权利要求5所述的视频图文课件文本提取方法，其特征在于，所述对所述文本框进行横向拼接预测，并采用所述神经网络语言模型对所述横向拼接预测进行合理性判断，对符合合理性判断的所述文本框进行横向拼接的步骤包括：

7.一种视频图文课件文本提取装置，其特征在于，所述装置包括：

识别更新模块，对结构化模块获得的图片进行正则化处理，更新图片上每个文本框的坐标；其中，

所述对结构化模块获得的图片进行正则化处理的步骤包括：

文本拼接模块，对图片中的文本框进行拼接处理。

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至6中任一所述的视频图文课件文本提取方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一所述的视频图文课件文本提取方法。