CN112380851A

CN112380851A - 一种基于大数据的文字识别系统及方法

Info

Publication number: CN112380851A
Application number: CN202011401460.7A
Authority: CN
Inventors: 朱江
Original assignee: Haohuo Kunshan Network Technology Co ltd
Current assignee: Haohuo Kunshan Network Technology Co ltd
Priority date: 2020-12-02
Filing date: 2020-12-02
Publication date: 2021-02-19
Anticipated expiration: 2040-12-02

Abstract

本发明公开了一种基于大数据的文字识别系统及方法，包括：文件输入模块、文件类型识别模块、文件类型转换模块、播放截图模块、文字识别模块、智能处理模块、输出模块、通讯模块以及大数据库和九个使用步骤。其中，所述文件输入模块用于包含文字的文件，所述文件的类型包括图片和视频。本发明，功能更加全面，不仅可以识别静态图片中的文字，还能识别动态视频中的文字，可有效简化该基于大数据的文字识别系统的架构，从而提高该基于大数据的文字识别系统的运行速度，进而提高系统响应速度以及图像中文字识别效率，对图像中文字进行二级识别处理，从而提高图像中文字的识别准确率。

Description

一种基于大数据的文字识别系统及方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于大数据的文字识别系统及方法。

背景技术

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据有五大特点，即大量、高速、多样、低价值密度、真实性。它并没有统计学的抽样方法，只是观察和追踪发生的事情。大数据的用法倾向于预测分析、用户行为分析或某些其他高级数据分析方法的使用。

图像处理技术是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。

现有技术中的图像中文字识别系统，不能全面的识别静态图片中的文字以及识别动态视频中的文字；其次，现有技术中的图像中文字识别系统，架构复杂，运行速度慢、系统响应速度以及图像中文字识别效率较低；另外，现有技术中的图像中文字识别系统，基本都是对图像中文字进行一级识别处理，从而导致图像中文字的识别准确率较差。

为此，提出一种基于大数据的文字识别系统及方法。

发明内容

本发明的目的在于提供一种基于大数据的文字识别系统及方法，功能更加全面，不仅可以识别静态图片中的文字，还能识别动态视频中的文字，可有效简化该基于大数据的文字识别系统的架构，从而提高该基于大数据的文字识别系统的运行速度，进而提高系统响应速度以及图像中文字识别效率，对图像中文字进行二级识别处理，从而提高图像中文字的识别准确率，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于大数据的文字识别系统，包括：

文件输入模块，所述文件输入模块用于包含文字的文件，所述文件的类型包括图片和视频；

文件类型识别模块，所述文件类型识别模块用于识别输入的所述包含文字的文件的格式属性，并将所述包含文字的文件自动分类为图片类型或视频类型；

文件类型转换模块，所述文件类型转换模块包括图片类型转换单元以及视频类型转换单元，所述图片类型转换单元用于将输入的所述包含文字的图片转换成统一图片格式的第一图片并保存在第一文件夹中，所述视频类型转换单元用于将输入的所述包含文字的视频转换成统一视频格式并保存在统一视频文件夹中；

播放截图模块，所述播放截图模块用于播放被转换成统一视频格式的视频并将包含文字的画面截图生成统一图片格式的第二图片保存到第二文件夹中；

文字识别模块，所述文字识别模块用于识别所述第一图片以及所述第二图片中包含的文字并生成第一文字；

智能处理模块，所述智能处理模块用于接收所述第一文字，并对所述第一文字进行修正处理生成第二文字；

输出模块，所述输出模块用于输出所述第二文字；

通讯模块，所述通讯模块用于将该基于大数据的文字识别系统接入互联网；

大数据库，所述大数据库的内部包含标准文字集、标准符号集、标准字母集、标准数字集以及语法集。

作为优选，所述文件输入模块、所述文件类型识别模块、所述文件类型转换模块、所述播放截图模块、所述文字识别模块、所述输出模块、所述通讯模块以及所述大数据库均与所述智能处理模块通信连接。

作为优选，所述大数据库存储在云服务器中和/或本地主机中。

作为优选，所述统一图片格式为JPEG格式，所述统一视频格式为AVI格式。

作为优选，所述包含文字的文件的格式属性包括图片格式属性和视频格式属性；所述文件的格式属性包括BMP图片格式、TIFF图片格式、PNG图片格式以及JPEG图片格式；所述视频格式属性包括GIF视频格式、FLV视频格式、swf视频格式、rm视频格式、rmvb视频格式、MP4视频格式、3GP视频格式、AVI视频格式、MOV视频格式以及QT视频格式。

作为优选，所述播放截图模块还包括播放调速单元，所述播放调速单元用于自动调节视频的播放速度，且调节视频的播放速度为20-30帧/秒。

作为优选，所述文字识别模块用于识别图片中的文字区域并将所述文字区域中包含的文字生成第一文字，再将所述文字区域和生成的所述第一文字一同上传给所述智能处理模块进行处理。

作为优选，所述的基于大数据的文字识别系统，还包括字体设置模块，所述字体设置模块用于设置所述第二文字的字体，且所述字体设置模块内包含字体数据库，所述字体设置模块与所述智能处理模块通信连接。

作为优选，所述的基于大数据的文字识别系统，还包括缓存自动删除模块，所述缓存自动删除模块用于自动删除存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档，且所述缓存自动删除模块与所述智能处理模块通信连接。

本发明还提出一种基于大数据的图像中文字识别方法，包括如下步骤：

步骤一、打开基于大数据的文字识别系统，通讯模块自动将所述的基于大数据的文字识别系统接入互联网并与保存在云服务器中或者本地主机中的大数据库建立连接，同时设定视频播放速度、设定输出字体以及设定缓存自动删除模块自动执行删除任务的条件；

步骤二、输入文件，将包含文字的图片和包含文字的视频通过文件输入模块输入所述基于大数据的文字识别系统中；

步骤三、识别文件类型，文件类型识别模块自动识别输入的包含文字的文件的格式属性，和包含文字的视频格式属性，并将包含文字的图片自动分类为图片类型以及将包含文字的视频自动分类为视频类型；

步骤四、转换文件类型，图片类型转换单元将输入的包含文字的图片转换成统一图片格式的第一图片并保存在第一文件夹中；视频类型转换单元将输入的包含文字的视频转换成统一视频格式并保存在统一视频文件夹中；

步骤五、播放截图，当统一视频文件夹中具有转换成统一视频格式的包含文字的视频时，播放截图模块播放被转换成统一视频格式的视频并将包含文字的画面截图生成统一图片格式的第二图片保存到第二文件夹中，当统一视频文件夹中没有转换成统一视频格式的包含文字的视频时，且在第一文件夹中具有第一图片时直接进入下一步；

步骤六、识别文字，文字识别模块自动识别所述第一图片以及所述第二图片中包含的文字并生成第一文字；

步骤七、修整处理，智能处理模块接收第一文字，并依据大数据库的内部包含的标准文字集、标准符号集、标准字母集、标准数字集以及语法集对所述第一文字进行修正处理生成第二文字；

步骤八、输出识别结果，输出模块将所述第二文字以文档的形式输出，并保存在设定的文件夹中；

步骤九、关闭系统，关闭所述的基于大数据的文字识别系统，同时缓存自动删除模块根据设置的自动执行删除任务的条件决定是否自动对存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档进行删除操作。

与现有技术相比，本发明的有益效果是：

1、本发明，设计的基于大数据的文字识别系统主要由文件输入模块、文件类型识别模块、文件类型转换模块、播放截图模块、文字识别模块、智能处理模块、输出模块、通讯模块以及大数据库构成，在文件输入模块、文件类型识别模块、文件类型转换模块、播放截图模块、文字识别模块、智能处理模块、输出模块、通讯模块以及大数据库相互配合下，使得该基于大数据的文字识别系统不仅可以识别静态图片中的文字，还能识别动态视频中的文字，从而使得该基于大数据的文字识别系统功能更加全面；

将输入的所述包含文字的图片转换成统一图片格式的第一图片以及将输入的所述包含文字的视频转换成统一视频格式，可有效简化该基于大数据的文字识别系统的架构，从而提高该基于大数据的文字识别系统的运行速度，进而提高系统响应速度以及图像中文字识别效率；

利用文字识别模块、智能处理模块以及大数据库相互配合，可实现对图像中文字进行二级识别处理，从而提高图像中文字的识别准确率；

2、本发明，提出的基于大数据的图像中文字识别方法，步骤合理，容易学会使用方法，可快速准确地识别出静态图片中的文字以及动态视频中的文字，并且可以得到不同字体的文档，便于用户使用。

附图说明

图1为本发明实施时的基于大数据的文字识别系统的架构框图；

图2为本发明实施时的基于大数据的文字识别系统的连接关系图；

图3为本发明实施时的基于大数据的文字识别系统的文件类型转换模块的架构框图；

图4为本发明实施时的基于大数据的文字识别系统的播放截图模块的架构框图；

图5为本发明实施时的基于大数据的文字识别系统的大数据库的架构框图；

图6为本发明实施时的基于大数据的图像中文字识别方法的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-图6，本发明提供一种技术方案：

一种基于大数据的文字识别系统，包括：文件输入模块、文件类型识别模块、文件类型转换模块、播放截图模块、文字识别模块、智能处理模块、输出模块、通讯模块以及大数据库。

其中，所述文件输入模块用于包含文字的文件，所述文件的类型包括图片和视频；

其中，所述文件类型识别模块用于识别输入的所述包含文字的文件的格式属性，并将所述包含文字的文件自动分类为图片类型或视频类型；

其中，所述文件类型转换模块包括图片类型转换单元以及视频类型转换单元，所述图片类型转换单元用于将输入的所述包含文字的图片转换成统一图片格式的第一图片并保存在第一文件夹中，所述视频类型转换单元用于将输入的所述包含文字的视频转换成统一视频格式并保存在统一视频文件夹中；

其中，所述播放截图模块用于播放被转换成统一视频格式的视频并将包含文字的画面截图生成统一图片格式的第二图片保存到第二文件夹中；

其中，所述文字识别模块用于识别所述第一图片以及所述第二图片中包含的文字并生成第一文字；

其中，所述智能处理模块用于接收所述第一文字，并对所述第一文字进行修正处理生成第二文字；

其中，所述输出模块用于将所述第二文字以文档的形式输出；

其中，所述通讯模块用于将该基于大数据的文字识别系统接入互联网；

其中，所述大数据库的内部包含标准文字集、标准符号集、标准字母集、标准数字集以及语法集。

通过采用上述技术方案，设计的基于大数据的文字识别系统主要由文件输入模块、文件类型识别模块、文件类型转换模块、播放截图模块、文字识别模块、智能处理模块、输出模块、通讯模块以及大数据库构成，在文件输入模块、文件类型识别模块、文件类型转换模块、播放截图模块、文字识别模块、智能处理模块、输出模块、通讯模块以及大数据库相互配合下，使得该基于大数据的文字识别系统不仅可以识别静态图片中的文字，还能识别动态视频中的文字，从而使得该基于大数据的文字识别系统功能更加全面；

其次，该基于大数据的文字识别系统将输入的所述包含文字的图片转换成统一图片格式的第一图片以及将输入的所述包含文字的视频转换成统一视频格式，可有效简化该基于大数据的文字识别系统的架构，从而提高该基于大数据的文字识别系统的运行速度，进而提高系统响应速度以及图像中文字识别效率；

另外，该基于大数据的文字识别系统利用文字识别模块、智能处理模块以及大数据库相互配合，可实现对图像中文字进行二级识别处理，从而提高图像中文字的识别准确率。

具体的，所述文件输入模块、所述文件类型识别模块、所述文件类型转换模块、所述播放截图模块、所述文字识别模块、所述输出模块、所述通讯模块以及所述大数据库均与所述智能处理模块通信连接。

通过采用上述技术方案，使得该基于大数据的文字识别系统可以实现智能化运转，从而有效降低该基于大数据的文字识别系统的操作难度，使得该基于大数据的文字识别系统具有易学的优点。

具体的，所述大数据库存储在云服务器中和/或本地主机中。

通过采用上述技术方案，将大数据库存储在云服务器中，可有效防止大数据库内部的标准文字集、标准符号集、标准字母集、标准数字集以及语法集丢失，另外，将大数据库存储在本地主机中，可避免断网时该基于大数据的文字识别系统无法使用。

具体的，所述统一图片格式为JPEG格式，所述统一视频格式为AVI格式。

通过采用上述技术方案，将统一图片格式设置为JPEG格式，将统一视频格式设置为AVI格式，使得该基于大数据的文字识别系统处理的图片以及视频质量可以得到保证，有利于准确识别图片中的文字以及视频中的文字。

具体的，所述包含文字的文件的格式属性包括图片格式属性和视频格式属性；所述文件的格式属性包括BMP图片格式、TIFF图片格式、PNG图片格式以及JPEG图片格式；所述视频格式属性包括GIF视频格式、FLV视频格式、swf视频格式、rm视频格式、rmvb视频格式、MP4视频格式、3GP视频格式、AVI视频格式、MOV视频格式以及QT视频格式。

通过采用上述技术方案，使得该基于大数据的文字识别系统可以对BMP图片格式、TIFF图片格式、PNG图片格式以及JPEG图片格式的图片进行转换处理，使得该基于大数据的文字识别系统可以对BGIF视频格式、FLV视频格式、swf视频格式、rm视频格式、rmvb视频格式、MP4视频格式、3GP视频格式、AVI视频格式、MOV视频格式以及QT视频格式的视频进行转换处理，从而使得该基于大数据的文字识别系统适用范围较大。

更为完善地，所述播放截图模块还包括播放调速单元，所述播放调速单元用于自动调节视频的播放速度，且调节视频的播放速度为20-30帧/秒。

通过采用上述技术方案，播放调速单元用于在播放截图模块启动后自动启动对视频播放速度进行调整，使得视频的播放速度为20-30帧/秒，有利于准确截取视频中带有文字的图片。

具体的，所述文字识别模块用于识别图片中的文字区域并将所述文字区域中包含的文字生成第一文字，再将所述文字区域和生成的所述第一文字一同上传给所述智能处理模块进行处理。

通过采用上述技术方案，可以大幅提高该基于大数据的文字识别系统识别图像中文字的准确率。

更为完善地，所述的基于大数据的文字识别系统，还包括字体设置模块，所述字体设置模块用于设置所述第二文字的字体，且所述字体设置模块内包含字体数据库，所述字体设置模块与所述智能处理模块通信连接。

通过采用上述技术方案，字体设置模块用于在输出识别结果之前操作设定字体，用于设置第二文字的字体，也就是输出结果的字体，以满足不同用户的使用需求。

更为完善地，所述的基于大数据的文字识别系统，还包括缓存自动删除模块，所述缓存自动删除模块用于自动删除存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档，且所述缓存自动删除模块与所述智能处理模块通信连接。

通过采用上述技术方案，缓存自动删除模块根据设置的自动执行删除任务的条件决定是否自动对存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档进行删除操作，用于在关闭该系统时自动启动执行删除任务，可以通过缓存自动删除模块自动删除存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档，可避免存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档数据过大而占用大量存储资源而拖慢该基于大数据的文字识别系统的运行速度。

步骤一、打开上述所述的基于大数据的文字识别系统，通讯模块自动将所述的基于大数据的文字识别系统接入互联网并与保存在云服务器中或者本地主机中的大数据库建立连接，同时设定视频播放速度、设定输出字体以及设定缓存自动删除模块自动执行删除任务的条件，所述缓存自动删除模块自动执行删除任务的条件为当存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档达到20G时，缓存自动删除模块将会自动启动将存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档进行删除；

通过采用上述技术方案，提出的基于大数据的图像中文字识别方法，步骤合理，容易学会使用方法，可快速准确地识别出静态图片中的文字以及动态视频中的文字，并且可以得到不同字体的文档，便于用户使用。

综上所述：

本发明中未涉及部分均与现有技术相同或可采用现有技术加以实现。尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于大数据的文字识别系统，其特征在于，包括：

输出模块，所述输出模块用于输出所述第二文字；

大数据库，所述大数据库包含标准文字集、标准符号集、标准字母集、标准数字集以及语法集。

2.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述文件输入模块、所述文件类型识别模块、所述文件类型转换模块、所述播放截图模块、所述文字识别模块、所述输出模块、所述通讯模块以及所述大数据库均与所述智能处理模块通信连接。

3.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述大数据库存储在云服务器中和/或本地主机中。

4.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述统一图片格式为JPEG格式，所述统一视频格式为AVI格式。

5.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述包含文字的文件的格式属性包括图片格式属性和视频格式属性；所述文件的格式属性包括BMP图片格式、TIFF图片格式、PNG图片格式以及JPEG图片格式；所述视频格式属性包括GIF视频格式、FLV视频格式、swf视频格式、rm视频格式、rmvb视频格式、MP4视频格式、3GP视频格式、AVI视频格式、MOV视频格式以及QT视频格式。

6.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述播放截图模块还包括播放调速单元，所述播放调速单元用于自动调节视频的播放速度，且调节视频的播放速度为20-30帧/秒。

7.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：所述文字识别模块用于识别图片中的文字区域并将所述文字区域中包含的文字生成第一文字，再将所述文字区域和生成的所述第一文字一同上传给所述智能处理模块进行处理。

8.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：还包括字体设置模块，所述字体设置模块用于设置所述第二文字的字体，且所述字体设置模块内包含字体数据库，所述字体设置模块与所述智能处理模块通信连接。

9.根据权利要求1所述的一种基于大数据的文字识别系统，其特征在于：还包括缓存自动删除模块，所述缓存自动删除模块用于自动删除存储的第一图片、第二图片、被转换成统一视频格式的视频、输入的包含文字的图片、输入的包含文字的视频以及输出的文档，且所述缓存自动删除模块与所述智能处理模块通信连接。

10.一种基于大数据的图像中文字识别方法，其特征在于：包括如下步骤：

步骤一、打开权利要求1-9任一项所述的基于大数据的文字识别系统，通讯模块自动将所述的基于大数据的文字识别系统接入互联网并与保存在云服务器中或者本地主机中的大数据库建立连接，同时设定视频播放速度、设定输出字体以及设定缓存自动删除模块自动执行删除任务的条件；

步骤八、输出识别结果，输出模块将所述第二文字以文档的形式输出，并保存在设定的文件夹中。