CN115203474A - 一种数据库自动分类提取技术 - Google Patents

一种数据库自动分类提取技术 Download PDF

Info

Publication number
CN115203474A
CN115203474A CN202210672154.XA CN202210672154A CN115203474A CN 115203474 A CN115203474 A CN 115203474A CN 202210672154 A CN202210672154 A CN 202210672154A CN 115203474 A CN115203474 A CN 115203474A
Authority
CN
China
Prior art keywords
data
image
database
types
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210672154.XA
Other languages
English (en)
Inventor
尚禹辰
李涵宇
陈昱涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210672154.XA priority Critical patent/CN115203474A/zh
Publication of CN115203474A publication Critical patent/CN115203474A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/20Image enhancement or restoration using local operators
    • G06T5/30Erosion or dilatation, e.g. thinning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/187Segmentation; Edge detection involving region growing; involving region merging; involving connected component labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20036Morphological image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30176Document
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据分类提取技术领域,且公开了一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,如下步骤:S1、用户通过计算机上传数据至所述数据库内,所述数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征;S3、将多元特征绑定对应数据;S4、储存数据;S5、用户通过特征检索对应数据,本发明通过对数据识别分类,提取数据中多元特征,进行绑定储存,方便后续人员进行检索,可快速找到数据材料,减少数据搜寻时间,提高工作效果。

Description

一种数据库自动分类提取技术
技术领域
本发明涉及数据分类提取技术领域,具体为一种数据库自动分类提取技术。
背景技术
数据库可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。
所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。一个数据库由多个表空间构成。而现在用户上传数据库数据后,无法自动对上传数据进行提取特征并分类保存,使得人员在提取数据库数据时,无法通过多元特征进行检索,无法快速找到对应数据材料,浪费搜寻时间,工作效率较低。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种数据库自动分类提取技术,解决了上述背景中提出的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,如下步骤:
S1、用户通过计算机上传数据至所述数据库内,所述数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;
S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征
(1)、文字数据识别:统计字数并划分区间;识别文本内容语种;记录内容标题关键词;
(2)、图像数据识别:识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;
(3)、影音数据识别:读取视频与音频数据时长并划分区间,提取并记录标题关键词。
S3、将多元特征绑定对应数据
(2)、将对应的字数区间、文字语种、标题关键词与文本数据绑定;
(2)、将对应的主体颜色、种类、文字数据与图像数据绑定;
(3)、将对应的时长区间、标题关键词与影音数据绑定。
S4、储存数据;
S5、用户通过特征检索对应数据。
优选的,图像算法识别图像内文字,包括如下步骤:
第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离;
第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取;
第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取。
优选的,图像算法识别图像种类,种类类型为建筑、风景、人像、动植物等种类。
(三)有益效果
本发明提供了一种数据库自动分类提取技术,具备以下有益效果:
本发明使用过程中,通过对数据识别分类,提取数据中多元特征,进行绑定储存,方便后续人员通过多元特征进行检索,可快速找到对应数据材料,减少数据搜寻时间,提高工作效果。
附图说明
图1为本发明的原理示意图;
图2为本发明的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-2所示,本发明提供一种技术方案:一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,如下步骤:
S1、用户通过计算机上传数据至数据库内,数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;
S2、分别通过文字识别模块、图像识别模块、影音识别模块进行识别提取多元特征
(1)、文字数据识别:统计字数并划分区间;识别文本内容语种;记录内容标题关键词;
(2)、图像数据识别:识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;
(3)、影音数据识别:读取视频与音频数据时长并划分区间,提取并记录标题关键词。
S3、将多元特征绑定对应数据
(1)、将对应的字数区间、文字语种、标题关键词与文本数据绑定;
(2)、将对应的主体颜色、种类、文字数据与图像数据绑定;
(3)、将对应的时长区间、标题关键词与影音数据绑定。
S4、储存数据;
S5、用户通过特征检索对应数据。
进一步的,图像算法识别图像内文字,包括如下步骤:
第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离;
第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取;
第三步:连通域标记,处理后的图像的大部分连通区域是文字区域。利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取,现有的带有文字的图像图片大多包括以下特点:图像中包含色彩较为丰富的文字与背景;图像背景可能由一些具有较多灰度变化的复杂图案构成;图像中文字的分辨率一般不高,这是由于在生成文字时使用了图像处理软件中的反锯齿效果(Anti-Aliased)而造成的;图像中文字布局的随意性较大,而且文字与背景的层次关系可能很复杂,这类图像为包含复杂背景及文字的图像,以上的图像需要通过阈值分割、形态学处理、连通域标记来提取文字。
进一步的,图像算法识别图像种类,种类类型为建筑、风景、人像、动植物等种类,方便人员分类查找。
综上可得,本发明的工作流程:用户通过计算机上传数据至数据库内,数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;再分别通过文字识别模块、图像识别模块、影音识别模块进行识别提取数据中的多元特征:文字数据识别,统计字数并划分区间;识别文本内容语种;记录内容标题关键词;图像数据识别,识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;影音数据识别,读取视频与音频数据时长并划分区间,提取并记录标题关键词;将多元特征绑定对应数据,储存数据;用户通过需要的数据中的多元特征来进行检索对应数据,可以更快减小搜索范围,找到对应数据。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种数据库自动分类提取技术,包括数据库、文字识别模块、图像识别模块、影音识别模块,其特征在于,如下步骤:
S1、用户通过计算机上传数据至所述数据库内,所述数据库读取数据,对数据进行预处理,初步识别分类数据种类,分为文本、图像、影音三类,影音划分为视频与音频两类;
S2、分别通过所述文字识别模块、所述图像识别模块、所述影音识别模块进行识别提取多元特征
(1)、文字数据识别:统计字数并划分区间;识别文本内容语种;记录内容标题关键词;
(2)、图像数据识别:识别图像颜色;通过图像算法识别图像种类;图像算法识别图像内文字时,提取文字内容;
(3)、影音数据识别:读取视频与音频数据时长并划分区间,提取并记录标题关键词;
S3、将多元特征绑定对应数据
(1)、将对应的字数区间、文字语种、标题关键词与文本数据绑定;
(2)、将对应的主体颜色、种类、文字数据与图像数据绑定;
(3)、将对应的时长区间、标题关键词与影音数据绑定;
S4、储存数据;
S5、用户通过特征检索对应数据。
2.根据权利要求1所述的一种数据库自动分类提取技术,其特征在于:图像算法识别图像内文字,包括如下步骤:
第一步:阈值分割,通过Ostu法计算图像的阈值,并对图像进行二值化,实现目标和背景的分离;
第二步:形态学处理,二值化的图像进行膨胀、腐蚀、开、闭运算,实现文字区域的连通,便于文字区域的提取;
第三步:连通域标记,处理后的图像的大部分连通区域是文字区域,利用连通域标记算法实现连通域的标记,再对每个连通域画矩形框从而实现文档的提取。
3.根据权利要求1所述的一种数据库自动分类提取技术,其特征在于:图像算法识别图像种类,种类类型为建筑、风景、人像、动植物等种类。
CN202210672154.XA 2022-06-14 2022-06-14 一种数据库自动分类提取技术 Pending CN115203474A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210672154.XA CN115203474A (zh) 2022-06-14 2022-06-14 一种数据库自动分类提取技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210672154.XA CN115203474A (zh) 2022-06-14 2022-06-14 一种数据库自动分类提取技术

Publications (1)

Publication Number Publication Date
CN115203474A true CN115203474A (zh) 2022-10-18

Family

ID=83575677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210672154.XA Pending CN115203474A (zh) 2022-06-14 2022-06-14 一种数据库自动分类提取技术

Country Status (1)

Country Link
CN (1) CN115203474A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578656A (zh) * 2023-07-12 2023-08-11 河北网新数字技术股份有限公司 一种基于交互可视化的多维数据分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578656A (zh) * 2023-07-12 2023-08-11 河北网新数字技术股份有限公司 一种基于交互可视化的多维数据分析方法

Similar Documents

Publication Publication Date Title
CN102053991B (zh) 用于多语言文档检索的方法及系统
CN111931775B (zh) 自动获取新闻标题方法、系统、计算机设备及存储介质
US10572528B2 (en) System and method for automatic detection and clustering of articles using multimedia information
CN103995904A (zh) 一种影像档案电子资料的识别系统
Clinchant et al. Comparing machine learning approaches for table recognition in historical register books
CN110287784B (zh) 一种年报文本结构识别方法
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
CN111061887A (zh) 一种新闻人物照片提取方法、装置、设备及存储介质
Van Phan et al. A nom historical document recognition system for digital archiving
CN108491543A (zh) 图像检索方法、图像存储方法及图像检索系统
Palfray et al. Logical segmentation for article extraction in digitized old newspapers
CN115203474A (zh) 一种数据库自动分类提取技术
En et al. New public dataset for spotting patterns in medieval document images
Sari et al. A search engine for Arabic documents
Huang et al. Associating text and graphics for scientific chart understanding
CN116644228A (zh) 多模态全文信息检索方法、系统及存储介质
Joshi et al. Image retrieval system using intuitive descriptors
Li et al. A document classification and extraction system with learning ability
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN115565193A (zh) 问卷信息录入方法、装置、电子设备及存储介质
Ghosh et al. Efficient indexing for query by string text retrieval
CN113468377A (zh) 一种视频与文献关联整合方法
Marinai A survey of document image retrieval in digital libraries
Gilbert et al. A picture is worth a thousand tags: automatic web based image tag expansion
CN112905733A (zh) 一种基于ocr识别技术的图书保存方法、系统及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20221018

WD01 Invention patent application deemed withdrawn after publication