CN115203474A

CN115203474A - 一种数据库自动分类提取技术

Info

Publication number: CN115203474A
Application number: CN202210672154.XA
Authority: CN
Inventors: 尚禹辰; 李涵宇; 陈昱涛
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-06-14
Filing date: 2022-06-14
Publication date: 2022-10-18

Abstract

本发明涉及数据分类提取技术领域，且公开了一种数据库自动分类提取技术，包括数据库、文字识别模块、图像识别模块、影音识别模块，如下步骤：S1、用户通过计算机上传数据至所述数据库内，所述数据库读取数据，对数据进行预处理，初步识别分类数据种类，分为文本、图像、影音三类，影音划分为视频与音频两类；S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征；S3、将多元特征绑定对应数据；S4、储存数据；S5、用户通过特征检索对应数据，本发明通过对数据识别分类，提取数据中多元特征，进行绑定储存，方便后续人员进行检索，可快速找到数据材料，减少数据搜寻时间，提高工作效果。

Description

一种数据库自动分类提取技术

技术领域

本发明涉及数据分类提取技术领域，具体为一种数据库自动分类提取技术。

背景技术

数据库可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据运行新增、截取、更新、删除等操作。

所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间构成。而现在用户上传数据库数据后，无法自动对上传数据进行提取特征并分类保存，使得人员在提取数据库数据时，无法通过多元特征进行检索，无法快速找到对应数据材料，浪费搜寻时间，工作效率较低。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种数据库自动分类提取技术，解决了上述背景中提出的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：一种数据库自动分类提取技术，包括数据库、文字识别模块、图像识别模块、影音识别模块，如下步骤：

S1、用户通过计算机上传数据至所述数据库内，所述数据库读取数据，对数据进行预处理，初步识别分类数据种类，分为文本、图像、影音三类，影音划分为视频与音频两类；

S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征

(1)、文字数据识别：统计字数并划分区间；识别文本内容语种；记录内容标题关键词；

(2)、图像数据识别：识别图像颜色；通过图像算法识别图像种类；图像算法识别图像内文字时，提取文字内容；

(3)、影音数据识别：读取视频与音频数据时长并划分区间，提取并记录标题关键词。

S3、将多元特征绑定对应数据

(2)、将对应的字数区间、文字语种、标题关键词与文本数据绑定；

(2)、将对应的主体颜色、种类、文字数据与图像数据绑定；

(3)、将对应的时长区间、标题关键词与影音数据绑定。

S4、储存数据；

S5、用户通过特征检索对应数据。

优选的，图像算法识别图像内文字，包括如下步骤：

第一步：阈值分割，通过Ostu法计算图像的阈值，并对图像进行二值化，实现目标和背景的分离；

第二步：形态学处理，二值化的图像进行膨胀、腐蚀、开、闭运算，实现文字区域的连通，便于文字区域的提取；

第三步：连通域标记，处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记，再对每个连通域画矩形框从而实现文档的提取。

优选的，图像算法识别图像种类，种类类型为建筑、风景、人像、动植物等种类。

(三)有益效果

本发明提供了一种数据库自动分类提取技术，具备以下有益效果：

本发明使用过程中，通过对数据识别分类，提取数据中多元特征，进行绑定储存，方便后续人员通过多元特征进行检索，可快速找到对应数据材料，减少数据搜寻时间，提高工作效果。

附图说明

图1为本发明的原理示意图；

图2为本发明的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1-2所示，本发明提供一种技术方案：一种数据库自动分类提取技术，包括数据库、文字识别模块、图像识别模块、影音识别模块，如下步骤：

S1、用户通过计算机上传数据至数据库内，数据库读取数据，对数据进行预处理，初步识别分类数据种类，分为文本、图像、影音三类，影音划分为视频与音频两类；

S2、分别通过文字识别模块、图像识别模块、影音识别模块进行识别提取多元特征

S3、将多元特征绑定对应数据

(1)、将对应的字数区间、文字语种、标题关键词与文本数据绑定；

(2)、将对应的主体颜色、种类、文字数据与图像数据绑定；

(3)、将对应的时长区间、标题关键词与影音数据绑定。

S4、储存数据；

S5、用户通过特征检索对应数据。

进一步的，图像算法识别图像内文字，包括如下步骤：

第三步：连通域标记，处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记，再对每个连通域画矩形框从而实现文档的提取，现有的带有文字的图像图片大多包括以下特点:图像中包含色彩较为丰富的文字与背景；图像背景可能由一些具有较多灰度变化的复杂图案构成；图像中文字的分辨率一般不高，这是由于在生成文字时使用了图像处理软件中的反锯齿效果(Anti-Aliased)而造成的；图像中文字布局的随意性较大，而且文字与背景的层次关系可能很复杂，这类图像为包含复杂背景及文字的图像，以上的图像需要通过阈值分割、形态学处理、连通域标记来提取文字。

进一步的，图像算法识别图像种类，种类类型为建筑、风景、人像、动植物等种类，方便人员分类查找。

综上可得，本发明的工作流程：用户通过计算机上传数据至数据库内，数据库读取数据，对数据进行预处理，初步识别分类数据种类，分为文本、图像、影音三类，影音划分为视频与音频两类；再分别通过文字识别模块、图像识别模块、影音识别模块进行识别提取数据中的多元特征：文字数据识别，统计字数并划分区间；识别文本内容语种；记录内容标题关键词；图像数据识别，识别图像颜色；通过图像算法识别图像种类；图像算法识别图像内文字时，提取文字内容；影音数据识别，读取视频与音频数据时长并划分区间，提取并记录标题关键词；将多元特征绑定对应数据，储存数据；用户通过需要的数据中的多元特征来进行检索对应数据，可以更快减小搜索范围，找到对应数据。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种数据库自动分类提取技术，包括数据库、文字识别模块、图像识别模块、影音识别模块，其特征在于，如下步骤：

(3)、影音数据识别：读取视频与音频数据时长并划分区间，提取并记录标题关键词；

S3、将多元特征绑定对应数据

(2)、将对应的主体颜色、种类、文字数据与图像数据绑定；

(3)、将对应的时长区间、标题关键词与影音数据绑定；

S4、储存数据；

S5、用户通过特征检索对应数据。

2.根据权利要求1所述的一种数据库自动分类提取技术，其特征在于：图像算法识别图像内文字，包括如下步骤：

第三步：连通域标记，处理后的图像的大部分连通区域是文字区域，利用连通域标记算法实现连通域的标记，再对每个连通域画矩形框从而实现文档的提取。

3.根据权利要求1所述的一种数据库自动分类提取技术，其特征在于：图像算法识别图像种类，种类类型为建筑、风景、人像、动植物等种类。