CN116383421A - 基于大数据的人工智能数据聚合系统 - Google Patents

基于大数据的人工智能数据聚合系统 Download PDF

Info

Publication number
CN116383421A
CN116383421A CN202310601249.7A CN202310601249A CN116383421A CN 116383421 A CN116383421 A CN 116383421A CN 202310601249 A CN202310601249 A CN 202310601249A CN 116383421 A CN116383421 A CN 116383421A
Authority
CN
China
Prior art keywords
preset
unit
evaluation value
evaluation
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310601249.7A
Other languages
English (en)
Other versions
CN116383421B (zh
Inventor
欧阳浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Haoyuan Nuoxin Technology Co ltd
Original Assignee
Shenzhen Haoyuan Nuoxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Haoyuan Nuoxin Technology Co ltd filed Critical Shenzhen Haoyuan Nuoxin Technology Co ltd
Priority to CN202310601249.7A priority Critical patent/CN116383421B/zh
Publication of CN116383421A publication Critical patent/CN116383421A/zh
Application granted granted Critical
Publication of CN116383421B publication Critical patent/CN116383421B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Geometry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及档案数据聚合领域,尤其涉及一种基于大数据的人工智能数据聚合系统,包括,数据采集单元、评价单元,以及,用以根据评价单元输出的针对单个所述档案的结构评价值R判定该档案是否符合存储标准,在判定单个档案不符合存储标准时根据结构评价值确定针对该档案的处理方式,包括调节所述数据采集单元的运行参数以重新采集该档案的图像数据,或,判定和输出档案不符合预设存储标准的原因的判定单元,以及,用以根据判定单元的判定结果接收数据采集单元输出的与符合存储标准的档案对应的电子文档的服务器单元,有效提高了针对档案数据管理的效率。

Description

基于大数据的人工智能数据聚合系统
技术领域
本发明涉及档案数据聚合领域,尤其涉及一种基于大数据的人工智能数据聚合系统。
背景技术
数据聚合是指将多类数据源整理、分析、合并或存储的过程,常应用在各类档案归档系统中,包括将多数据源获取的档案进行分析、归类存储等,由于档案数据在各行各业应用广泛,相关的数据聚合系统应运而生。
例如,中国专利公开号:CN111538771A,公开了基于大数据的人物档案聚合系统及方法,系统包括:结构化数据处理模块,用于对结构化数据库数据进行智能分析;非结构化数据处理模块,用于处理非结构化数据;数据存储模块,用于数据存储;数据融合模块,用于将结构化数据与非结构化数据进行融合。
但是,现有技术中还存在以下问题。
现有技术中,在档案数据源较多的情况下,对于录入至系统的档案缺少快速有效的验证或筛选,导致档案数据聚合过程效率以及效果不佳。
发明内容
为此,本发明提供一种基于大数据的人工智能数据聚合系统,用以克服现有技术中在档案数据源较多的情况下,对于录入至系统的档案缺少快速有效的验证或筛选,导致档案数据聚合过程效率以及效果不佳的问题。
为实现上述目的,本发明提供一种基于大数据的人工智能数据聚合系统,包括:
数据采集单元,其用以获取待上传档案的图像数据并从图像数据中提取针对该档案的特征数据,特征数据包括与该档案对应的身份特征、结构特征和与各结构特征对应的关键词特征;
评价单元,其与所述数据采集单元相连,用以接收数据采集单元输出的针对单个所述档案的特征数据并根据特征数据求得针对该档案的结构评价值;
判定单元,其与所述评价单元相连,用以根据评价单元输出的针对单个所述档案的结构评价值R判定该档案是否符合存储标准,以及,在判定单个档案不符合存储标准时根据结构评价值确定针对该档案的处理方式,包括调节所述数据采集单元的运行参数以重新采集该档案的图像数据,或,判定和输出档案不符合预设存储标准的原因;
服务器单元,其包括分别与所述判定单元和所述数据采集单元相连的若干存储服务器,用以根据判定单元的判定结果接收数据采集单元输出的与符合存储标准的档案对应的电子文档。
进一步地,对于所述特征数据,其中:
所述身份特征为与所述档案匹配的代码;
所述结构特征包括所述图像数据中带有文字的区域轮廓以及各区域轮廓的面积;
所述关键词特征为位于对应的所述区域中的匹配关键词的数量。
进一步地,所述评价单元使用以下公式计算针对单个所述档案的结构评价值R:
Figure SMS_1
其中,α为评价值补偿系数,设定α=1.2,Si为所述图像数据中第i个区域轮廓的面积,i=1,2,3,...,n,n为该图像数据中区域轮廓的总数,S0为该图像数据中区域轮廓的总面积,Ci为所述数据采集单元在所述第i个区域轮廓内识别到的匹配关键词的数量,Ci0为数据采集单元在第i个区域轮廓内识别到的关键词的总数,R0为评价值常数,设定R0=10。
进一步地,所述评价单元根据所述结构评价值R确定所述档案是否符合录入标准的判定方式,其中:
第一判定方式为所述评价单元判定所述档案符合录入标准,并控制所述数据采集单元将所述电子文档输送至所述服务器单元;所述第一判定方式满足所述结构评价值R大于所述评价单元中设置的第二预设结构评价值Rb;
第二判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为存在不符合预设结构标准的所述结构特征,评价单元根据各所述区域的独立结构评价值确定针对所述档案的处理方式;所述第二判定方式满足所述结构评价值R小于等于所述第二预设结构评价值Rb且大于所述评价单元中设置的第一预设结构评价值Ra,Ra>Rb;
第三判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为所述图像数据的清晰度不符合预设标准,评价单元控制所述数据采集单元重新采集所述档案的图像数据并在采集前根据所述第一预设结构评价值Ra与所述结构评价值R的差值将所述数据采集单元中摄像头的焦距增加至对应值;所述第三判定方式满足所述结构评价值R小于等于所述第一预设结构评价值Ra。
进一步地,所述服务器单元中存储有分别与各所述区域对应的预设关键词,所述数据采集单元分别将从对应的所述区域中采集到的各关键词依次与各预设关键词进行比对并将相似度高于预设相似度的关键词记为该区域中的匹配关键词;所述数据采集单元根据所述区域中的关键词的数量Ci0确定针对该区域的预设相似度的修正方式,其中:
第一修正方式为所述数据采集单元不对所述预设相似度进行修正;所述第一修正方式满足所述区域中关键词的数量Ci0小于等于所述数据采集单元中设置中的第一预设数量;
第二修正方式为所述数据采集单元使用第一预设修正系数将所述预设相似度修正至对应值;所述第二修正方式满足所述区域中关键词的数量Ci0大于所述第一预设数量且小于等于所述数据采集单元中设置中的第二预设数量;
第三修正方式为所述数据采集单元使用第二预设修正系数将所述预设相似度修正至对应值;所述第三修正方式满足所述区域中关键词的数量Ci0大于所述第二预设数量。
进一步地,所述判定单元在所述第二判定方式下根据各所述独立结构评价值分别对各所述区域进行分类并根据各种类区域的数量与区域总数的占比确定针对所述档案的处理方式,其中:
第一处理方式为所述判定单元判定所述档案存在撰写不符合规定的文本的区域,判定单元依次对各存在不符合规定文本的区域进行标记并发出针对各标记区域的修订通知;所述第一处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比小于等于判定单元设置的预设独立占比且判定为一类独立评价值的区域的数量与区域总数的占比大于预设独立占比;
第二处理方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知;所述第二处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比大于判定单元设置的预设独立占比。
进一步地,对于所述图像数据中的第i个所述区域,所述评价单元将针对该区域的 独立评价值记为Ri并根据Ri确定针对独立评价值的分类方式,设定
Figure SMS_2
,其中:
第一分类方式为评价单元将所述独立评价值Ri分类为第一类独立评价值;所述第一分类方式满足所述独立评价值Ri大于所述评价单元中设置的第二预设独立评价值;
第二分类方式为评价单元将所述独立评价值Ri分类为第二类独立评价值;所述第二分类方式满足所述独立评价值Ri小于等于第二预设独立评价值且大于所述评价单元中设置的第一预设独立评价值;
第三分类方式为评价单元将所述独立评价值Ri分类为第三类独立评价值;所述第三分类方式满足所述独立评价值Ri小于等于所述第一预设独立评价值。
进一步地,所述判定单元在所述第三判定方式下计算所述第一预设结构评价值Ra与所述结构评价值R的差值ΔR并根据ΔR确定针对所述摄像头的焦距调节方式,设定ΔR=Ra-R,其中:
第一焦距调节方式为所述判定单元判定使用第一距离调节系数将所述焦距调节至对应值;所述第一焦距调节方式满足所述差值ΔR小于等于所述判定单元中设置的第一预设差值ΔR1;
第二焦距调节方式为所述判定单元判定使用第二距离调节系数将所述焦距调节至对应值;所述第二焦距调节方式满足所述差值ΔR大于所述第一预设差值ΔR1且小于等于所述判定单元中设置的第二预设差值ΔR2;
第三焦距调节方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知;所述第三焦距调节方式满足所述差值ΔR大于所述第二预设差值ΔR2。
进一步地,所述评价单元在第一预设条件下根据所述数据采集单元获取的图像数据中区域轮廓的总面积确定针对第一预设结构评价值和第二预设结构评价值的调节方式,其中:
第一调节方式为所述评价单元不对第一预设结构评价值和第二预设结构评价值进行调节;所述第一调节方式满足图像数据中区域轮廓的总面积小于等于第一预设面积;
第二调节方式为所述评价单元使用第一预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值;所述第二调节方式满足图像数据中区域轮廓的总面积小于等于第二预设面积且大于所述第一预设面积;
第三调节方式为所述评价单元使用第二预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值;所述第三调节方式满足图像数据中区域轮廓的总面积大于所述第二预设面积;
所述第一预设条件为所述数据采集单元获取到待上传档案的图像数据。
进一步地,所述评价单元与外接显示器连接,用以显示输出档案不符合预设存储标准的原因。
与现有技术相比,本发明的有益效果在于,根据待上传档案的图像数据计算该档案的结构评价值,并根据结构评价值对该档案是否符合录入标准进行判定,其中,若结构评价值过低则该档案不符合录入标准的原因为摄像头焦距不符合标准,对摄像头的焦距进行调节,以确保录入的电子文档内容均清晰明了,若结构评价值小于等于第二预设结构评价值且大于第一预设结构评价值,则判定该档案不符合录入标准的原因为档案存在不符合预设结构标准的结构特征,在确保录入的电子档案均为符合预设标准的,可在档案调用时确保每个录入的电子档案均为可直接应用,表述清晰符合预设标准的档案的同时,进一步提高了档案调用的便捷度,对录入至系统的档案数据进行快速且有效的验证,且有效提高了针对档案数据的管理效率。
进一步地,根据各待上传档案的实际情况对针对该待上传档案的预设相似度进行调节,在确保本基于大数据的人工智能数据聚合系统可适用于各类待上传档案的同时,进一步有效提高了针对档案数据的管理效率。
进一步地,在判定档案不符合录入标准的原因为档案存在不符合预设结构标准的结构特征时,根据独立评价值对该档案图像数据中的各区域进行分类,在确保精准的标记出不符合规定文本的区域的同时,进一步准确的通过显示器显示了档案不符合录入标准的原因,以便使用者对文档进行调整以达到符合录入的标准,有效提高了针对档案数据的管理效率,其中不符合规定文本的区域为独立评价值为三类独立评价值的区域。
进一步地,在判定图像数据的清晰度不符合预设标准时,对摄像头的焦距进行调节,在确保有效提高电子文档清晰度的同时,进一步有效提高了针对档案数据的管理效率。
进一步地,在对档案进行是否符合录入标准的判定前根据数据采集单元获取的图像数据对判定标准的第一预设结构评价值和第二预设结构评价值进行调节,在确保本基于大数据的人工智能数据聚合系统可适用于各类待上传档案的同时,进一步有效提高了针对档案数据的管理效率。
附图说明
图1为本发明实施例所述基于大数据的人工智能数据聚合系统的结构框图;
图2为本发明实施例所述评价单元根据结构评价值确定档案是否符合录入标准的判定方式流程图;
图3为本发明实施例所述数据采集单元根据区域中的关键词的数量确定针对该区域的预设相似度的修正方式流程图;
图4为本发明实施例所述判定单元根据计算的第一预设结构评价值与结构评价值的差值确定针对摄像头的焦距调节方式流程图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1、图2、图3以及图4所示,其分别为本发明实施例所述基于大数据的人工智能数据聚合系统的结构框图、评价单元根据结构评价值确定档案是否符合录入标准的判定方式流程图、数据采集单元根据区域中的关键词的数量确定针对该区域的预设相似度的修正方式流程图、判定单元根据计算的第一预设结构评价值与结构评价值的差值确定针对摄像头的焦距调节方式流程图;本发明实施例基于大数据的人工智能数据聚合系统,包括:
数据采集单元,其用以获取待上传档案的图像数据并从图像数据中提取针对该档案的特征数据,特征数据包括与该档案对应的身份特征、结构特征和与各结构特征对应的关键词特征;
评价单元,其与所述数据采集单元相连,用以接收数据采集单元输出的针对单个所述档案的特征数据并根据特征数据求得针对该档案的结构评价值;
判定单元,其与所述评价单元相连,用以根据评价单元输出的针对单个所述档案的结构评价值R判定该档案是否符合存储标准,以及,在判定单个档案不符合存储标准时根据结构评价值确定针对该档案的处理方式,包括调节所述数据采集单元的运行参数以重新采集该档案的图像数据,或,判定和输出档案不符合预设存储标准的原因;
服务器单元,其包括分别与所述判定单元和所述数据采集单元相连的若干存储服务器,用以根据判定单元的判定结果接收数据采集单元输出的与符合存储标准的档案对应的电子文档。
具体而言,本发明对评价单元以及判定单元的具体结构不做限定,各单元可由逻辑部件构成,逻辑部件包括现场可编程部件、计算机或计算机中的微处理器等。
具体而言,本发明对数据采集单元的具体结构不做限定,数据采集单元可以包括摄像头以及逻辑部件构成。
具体而言,对于所述特征数据,其中:
所述身份特征为与所述档案匹配的代码;
所述结构特征包括所述图像数据中带有文字的区域轮廓以及各区域轮廓的面积;
所述关键词特征为位于对应的所述区域中的匹配关键词的数量。
具体而言,所述评价单元使用以下公式计算针对单个所述档案的结构评价值R:
Figure SMS_3
其中,α为评价值补偿系数,设定α=1.2,Si为所述图像数据中第i个区域轮廓的面积,i=1,2,3,...,n,n为该图像数据中区域轮廓的总数,S0为该图像数据中区域轮廓的总面积,Ci为所述数据采集单元在所述第i个区域轮廓内识别到的匹配关键词的数量,Ci0为数据采集单元在第i个区域轮廓内识别到的关键词的总数,R0为评价值常数,设定R0=10。
具体而言,所述评价单元根据所述结构评价值R确定所述档案是否符合录入标准的判定方式,其中:
第一判定方式为所述评价单元判定所述档案符合录入标准,并控制所述数据采集单元将所述电子文档输送至所述服务器单元;所述第一判定方式满足所述结构评价值R大于所述评价单元中设置的第二预设结构评价值Rb;
第二判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为存在不符合预设结构标准的所述结构特征,评价单元根据各所述区域的独立结构评价值确定针对所述档案的处理方式;所述第二判定方式满足所述结构评价值R小于等于所述第二预设结构评价值Rb且大于所述评价单元中设置的第一预设结构评价值Ra,Ra>Rb;
第三判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为所述图像数据的清晰度不符合预设标准,评价单元控制所述数据采集单元重新采集所述档案的图像数据并在采集前根据所述第一预设结构评价值Ra与所述结构评价值R的差值将所述数据采集单元中摄像头的焦距增加至对应值;所述第三判定方式满足所述结构评价值R小于等于所述第一预设结构评价值Ra;
其中,第一预设结构评价值=1.5,第二预设结构评价值=2.1。
具体而言,所述服务器单元中存储有分别与各所述区域对应的预设关键词,所述数据采集单元分别将从对应的所述区域中采集到的各关键词依次与各预设关键词进行比对并将相似度高于预设相似度的关键词记为该区域中的匹配关键词;所述数据采集单元根据所述区域中的关键词的数量Ci0确定针对该区域的预设相似度的修正方式,其中:
第一修正方式为所述数据采集单元不对所述预设相似度进行修正;所述第一修正方式满足所述区域中关键词的数量Ci0小于等于所述数据采集单元中设置中的第一预设数量;
第二修正方式为所述数据采集单元使用第一预设修正系数将所述预设相似度修正至对应值;所述第二修正方式满足所述区域中关键词的数量Ci0大于所述第一预设数量且小于等于所述数据采集单元中设置中的第二预设数量;
第三修正方式为所述数据采集单元使用第二预设修正系数将所述预设相似度修正至对应值;所述第三修正方式满足所述区域中关键词的数量Ci0大于所述第二预设数量;
其中,第一预设修正系数为1.1,第二预设修正系数1.2,第一预设数量为15,第二预设数量为30,预设相似度为0.75。
具体而言,所述判定单元在所述第二判定方式下根据各所述独立结构评价值分别对各所述区域进行分类并根据各种类区域的数量与区域总数的占比确定针对所述档案的处理方式,其中:
第一处理方式为所述判定单元判定所述档案存在撰写不符合规定的文本的区域,判定单元依次对各存在不符合规定文本的区域进行标记并发出针对各标记区域的修订通知;所述第一处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比小于等于判定单元设置的预设独立占比且判定为一类独立评价值的区域的数量与区域总数的占比大于预设独立占比;
第二处理方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知;所述第二处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比大于判定单元设置的预设独立占比;
其中,预设独立占比为0.5。
具体而言,对于所述图像数据中的第i个所述区域,所述评价单元将针对该区域的 独立评价值记为Ri并根据Ri确定针对独立评价值的分类方式,设定
Figure SMS_4
,其中:
第一分类方式为评价单元将所述独立评价值Ri分类为第一类独立评价值;所述第一分类方式满足所述独立评价值Ri大于所述评价单元中设置的第二预设独立评价值;
第二分类方式为评价单元将所述独立评价值Ri分类为第二类独立评价值;所述第二分类方式满足所述独立评价值Ri小于等于第二预设独立评价值且大于所述评价单元中设置的第一预设独立评价值;
第三分类方式为评价单元将所述独立评价值Ri分类为第三类独立评价值;所述第三分类方式满足所述独立评价值Ri小于等于所述第一预设独立评价值;
其中,第一预设独立评价值为0.75,第二预设独立评价值为4。
具体而言,所述判定单元在所述第三判定方式下计算所述第一预设结构评价值Ra与所述结构评价值R的差值ΔR并根据ΔR确定针对所述摄像头的焦距调节方式,设定ΔR=Ra-R,其中:
第一焦距调节方式为所述判定单元判定使用第一距离调节系数将所述焦距调节至对应值;所述第一焦距调节方式满足所述差值ΔR小于等于所述判定单元中设置的第一预设差值ΔR1;
第二焦距调节方式为所述判定单元判定使用第二距离调节系数将所述焦距调节至对应值;所述第二焦距调节方式满足所述差值ΔR大于所述第一预设差值ΔR1且小于等于所述判定单元中设置的第二预设差值ΔR2;
第三焦距调节方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知;所述第三焦距调节方式满足所述差值ΔR大于所述第二预设差值ΔR2;
其中,第一预设差值为0.8,第二预设差值为1.5,第一距离调节系数为1.1,第二距离调节系数为1.15。
具体而言,所述评价单元在第一预设条件下根据所述数据采集单元获取的图像数据中区域轮廓的总面积确定针对第一预设结构评价值和第二预设结构评价值的调节方式,其中:
第一调节方式为所述评价单元不对第一预设结构评价值和第二预设结构评价值进行调节;所述第一调节方式满足图像数据中区域轮廓的总面积小于等于第一预设面积;
第二调节方式为所述评价单元使用第一预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值;所述第二调节方式满足图像数据中区域轮廓的总面积小于等于第二预设面积且大于所述第一预设面积;
第三调节方式为所述评价单元使用第二预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值;所述第三调节方式满足图像数据中区域轮廓的总面积大于所述第二预设面积;
所述第一预设条件为所述数据采集单元获取到待上传档案的图像数据;
其中,第一预设面积为207.9cm2,第二预设面积为415.8cm2,第一预设调节系数为0.95,第二预设调节系数0.9。
具体而言,所述评价单元与外接显示器连接,用以显示输出档案不符合预设存储标准的原因。
实施例1
数据采集单元获取到待上传档案的图像数据并从图像数据中提取针对该档案的特征数据,档案匹配的代码为11201917220510225110,图像数据中区域轮廓的总面积为311cm2,区域中的关键词的数量为17,区域轮廓的总数为7,评价单元使用第一预设调节系数0.95将第一预设结构评价值调节至1.425、第二预设结构评价值调节至2,数据采集单元使用第一预设修正系数1.1将预设相似度修正至0.825后获取的匹配关键词的数量为11,其中预设相似度为0.75,评价单元根据该档案的图像数据计算得到档案的结构评价值为1.06,评价单元判定档案不符合录入标准且不符合录入标准的原因为图像数据的清晰度不符合预设标准,评价单元控制数据采集单元重新采集所述档案的图像数据并在采集前根据第一预设结构评价值1.9与结构评价值1.06的差值0.84使用距离调节系数1.15将数据采集单元中摄像头的焦距增加至对应值,评价单元根据数据采集单元重新获取的图像数据计算档案的结构评价值为3.2,评价单元判定档案不符合录入标准且不符合录入标准的原因为存在不符合预设结构标准的所述结构特征,评价单元分别计算各区域的独立结构评价值以确定针对档案的处理方式,其中独立结构评价值大于第二预设独立评价值4的区域数量为5,判定单元判定档案存在撰写不符合规定的文本的区域,判定单元依次对各存在不符合规定文本的区域进行标记并在显示器上显示出针对各标记区域的修订通知。
实施例2
数据采集单元获取到待上传档案的图像数据并从图像数据中提取针对该档案的特征数据,档案匹配的代码为11201917220510213125,图像数据中区域轮廓的总面积为198cm2,区域中的关键词的数量为39,区域轮廓的总数为5,评价单元不对第一预设结构评价值和第二预设结构评价值进行调节,数据采集单元使用第二预设修正系数1.2将预设相似度修正至0.9后获取的匹配关键词的数量为37,评价单元根据该档案的图像数据计算得到档案的结构评价值为2.3,评价单元判定档案符合录入标准,并控制所述数据采集单元将所述电子文档输送至所述服务器单元。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。 凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于大数据的人工智能数据聚合系统,其特征在于,包括:
数据采集单元,其用以获取待上传档案的图像数据并从图像数据中提取针对该档案的特征数据,特征数据包括与该档案对应的身份特征、结构特征和与各结构特征对应的关键词特征;
评价单元,其与所述数据采集单元相连,用以接收数据采集单元输出的针对单个所述档案的特征数据并根据特征数据求得针对该档案的结构评价值;
判定单元,其与所述评价单元相连,用以根据评价单元输出的针对单个所述档案的结构评价值R判定该档案是否符合存储标准,以及,在判定单个档案不符合存储标准时根据结构评价值确定针对该档案的处理方式,包括调节所述数据采集单元的运行参数以重新采集该档案的图像数据,或,判定和输出档案不符合预设存储标准的原因;
服务器单元,其包括分别与所述判定单元和所述数据采集单元相连的若干存储服务器,用以根据判定单元的判定结果接收数据采集单元输出的与符合存储标准的档案对应的电子文档。
2.根据权利要求1所述的基于大数据的人工智能数据聚合系统,其特征在于,对于所述特征数据,其中:
所述身份特征为与所述档案匹配的代码;
所述结构特征包括所述图像数据中带有文字的区域轮廓以及各区域轮廓的面积;
所述关键词特征为位于对应的所述区域中的匹配关键词的数量。
3.根据权利要求2所述的基于大数据的人工智能数据聚合系统,其特征在于,所述评价单元使用以下公式计算针对单个所述档案的结构评价值R:
Figure QLYQS_1
其中,α为评价值补偿系数,设定α=1.2,Si为所述图像数据中第i个区域轮廓的面积,i=1,2,3,...,n,n为该图像数据中区域轮廓的总数,S0为该图像数据中区域轮廓的总面积,Ci为所述数据采集单元在所述第i个区域轮廓内识别到的匹配关键词的数量,Ci0为数据采集单元在第i个区域轮廓内识别到的关键词的总数,R0为评价值常数,设定R0=10。
4.根据权利要求3所述的基于大数据的人工智能数据聚合系统,其特征在于,所述评价单元根据所述结构评价值R确定所述档案是否符合录入标准的判定方式,其中:
第一判定方式为所述评价单元判定所述档案符合录入标准,并控制所述数据采集单元将所述电子文档输送至所述服务器单元;所述第一判定方式满足所述结构评价值R大于所述评价单元中设置的第二预设结构评价值Rb;
第二判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为存在不符合预设结构标准的所述结构特征,评价单元根据各所述区域的独立结构评价值确定针对所述档案的处理方式;所述第二判定方式满足所述结构评价值R小于等于所述第二预设结构评价值Rb且大于所述评价单元中设置的第一预设结构评价值Ra,Ra>Rb;
第三判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为所述图像数据的清晰度不符合预设标准,评价单元控制所述数据采集单元重新采集所述档案的图像数据并在采集前根据所述第一预设结构评价值Ra与所述结构评价值R的差值将所述数据采集单元中摄像头的焦距增加至对应值;所述第三判定方式满足所述结构评价值R小于等于所述第一预设结构评价值Ra。
5.根据权利要求4所述的基于大数据的人工智能数据聚合系统,其特征在于,所述服务器单元中存储有分别与各所述区域对应的预设关键词,所述数据采集单元分别将从对应的所述区域中采集到的各关键词依次与各预设关键词进行比对并将相似度高于预设相似度的关键词记为该区域中的匹配关键词;所述数据采集单元根据所述区域中的关键词的数量Ci0确定针对该区域的预设相似度的修正方式,其中:
第一修正方式为所述数据采集单元不对所述预设相似度进行修正;所述第一修正方式满足所述区域中关键词的数量Ci0小于等于所述数据采集单元中设置中的第一预设数量;
第二修正方式为所述数据采集单元使用第一预设修正系数将所述预设相似度修正至对应值;所述第二修正方式满足所述区域中关键词的数量Ci0大于所述第一预设数量且小于等于所述数据采集单元中设置中的第二预设数量;
第三修正方式为所述数据采集单元使用第二预设修正系数将所述预设相似度修正至对应值;所述第三修正方式满足所述区域中关键词的数量Ci0大于所述第二预设数量。
6.根据权利要求4所述的基于大数据的人工智能数据聚合系统,其特征在于,所述判定单元在所述第二判定方式下根据各所述独立结构评价值分别对各所述区域进行分类并根据各种类区域的数量与区域总数的占比确定针对所述档案的处理方式,其中:
第一处理方式为所述判定单元判定所述档案存在撰写不符合规定的文本的区域,判定单元依次对各存在不符合规定文本的区域进行标记并发出针对各标记区域的修订通知;所述第一处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比小于等于判定单元设置的预设独立占比且判定为一类独立评价值的区域的数量与区域总数的占比大于预设独立占比;
第二处理方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知;所述第二处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比大于判定单元设置的预设独立占比。
7.根据权利要求6所述的基于大数据的人工智能数据聚合系统,其特征在于,对于所述图像数据中的第i个所述区域,所述评价单元将针对该区域的独立评价值记为Ri并根据Ri确定针对独立评价值的分类方式,设定
Figure QLYQS_2
,其中:
第一分类方式为评价单元将所述独立评价值Ri分类为第一类独立评价值;所述第一分类方式满足所述独立评价值Ri大于所述评价单元中设置的第二预设独立评价值;
第二分类方式为评价单元将所述独立评价值Ri分类为第二类独立评价值;所述第二分类方式满足所述独立评价值Ri小于等于第二预设独立评价值且大于所述评价单元中设置的第一预设独立评价值;
第三分类方式为评价单元将所述独立评价值Ri分类为第三类独立评价值;所述第三分类方式满足所述独立评价值Ri小于等于所述第一预设独立评价值。
8.根据权利要求4所述的基于大数据的人工智能数据聚合系统,其特征在于,所述判定单元在所述第三判定方式下计算所述第一预设结构评价值Ra与所述结构评价值R的差值ΔR并根据ΔR确定针对所述摄像头的焦距调节方式,设定ΔR=Ra-R,其中:
第一焦距调节方式为所述判定单元判定使用第一距离调节系数将所述焦距调节至对应值;所述第一焦距调节方式满足所述差值ΔR小于等于所述判定单元中设置的第一预设差值ΔR1;
第二焦距调节方式为所述判定单元判定使用第二距离调节系数将所述焦距调节至对应值;所述第二焦距调节方式满足所述差值ΔR大于所述第一预设差值ΔR1且小于等于所述判定单元中设置的第二预设差值ΔR2;
第三焦距调节方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知;所述第三焦距调节方式满足所述差值ΔR大于所述第二预设差值ΔR2。
9.根据权利要求8所述的基于大数据的人工智能数据聚合系统,其特征在于,所述评价单元在第一预设条件下根据所述数据采集单元获取的图像数据中区域轮廓的总面积确定针对第一预设结构评价值和第二预设结构评价值的调节方式,其中:
第一调节方式为所述评价单元不对第一预设结构评价值和第二预设结构评价值进行调节;所述第一调节方式满足图像数据中区域轮廓的总面积小于等于第一预设面积;
第二调节方式为所述评价单元使用第一预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值;所述第二调节方式满足图像数据中区域轮廓的总面积小于等于第二预设面积且大于所述第一预设面积;
第三调节方式为所述评价单元使用第二预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值;所述第三调节方式满足图像数据中区域轮廓的总面积大于所述第二预设面积;
所述第一预设条件为所述数据采集单元获取到待上传档案的图像数据。
10.根据权利要求9所述的基于大数据的人工智能数据聚合系统,其特征在于,所述评价单元与外接显示器连接,用以显示输出档案不符合预设存储标准的原因。
CN202310601249.7A 2023-05-26 2023-05-26 基于大数据的人工智能数据聚合系统 Active CN116383421B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310601249.7A CN116383421B (zh) 2023-05-26 2023-05-26 基于大数据的人工智能数据聚合系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310601249.7A CN116383421B (zh) 2023-05-26 2023-05-26 基于大数据的人工智能数据聚合系统

Publications (2)

Publication Number Publication Date
CN116383421A true CN116383421A (zh) 2023-07-04
CN116383421B CN116383421B (zh) 2023-08-04

Family

ID=86967828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310601249.7A Active CN116383421B (zh) 2023-05-26 2023-05-26 基于大数据的人工智能数据聚合系统

Country Status (1)

Country Link
CN (1) CN116383421B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118229032A (zh) * 2024-05-22 2024-06-21 山东中翰软件有限公司 基于业务动态变化的自适应企业数据管理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030041306A1 (en) * 1998-08-10 2003-02-27 Hiroshi Takahashi Filing system and method for avoiding filing of identical document data
US20130124241A1 (en) * 2011-11-15 2013-05-16 Pvelocity Inc. Method And System For Providing Business Intelligence Data
CN105447113A (zh) * 2015-11-13 2016-03-30 四川九成信息技术有限公司 一种基于大数据的信息分析方法
CN111401677A (zh) * 2020-01-15 2020-07-10 安徽工业大学 生态水利工程的综合评价方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030041306A1 (en) * 1998-08-10 2003-02-27 Hiroshi Takahashi Filing system and method for avoiding filing of identical document data
US20130124241A1 (en) * 2011-11-15 2013-05-16 Pvelocity Inc. Method And System For Providing Business Intelligence Data
CN105447113A (zh) * 2015-11-13 2016-03-30 四川九成信息技术有限公司 一种基于大数据的信息分析方法
CN111401677A (zh) * 2020-01-15 2020-07-10 安徽工业大学 生态水利工程的综合评价方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118229032A (zh) * 2024-05-22 2024-06-21 山东中翰软件有限公司 基于业务动态变化的自适应企业数据管理方法及系统

Also Published As

Publication number Publication date
CN116383421B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN116383421B (zh) 基于大数据的人工智能数据聚合系统
WO2020164282A1 (zh) 基于yolo的图像目标识别方法、装置、电子设备和存储介质
US7171061B2 (en) Systems and methods for triage of passages of text output from an OCR system
KR101607224B1 (ko) 동적 물체 분류 방법 및 장치
US8897566B2 (en) Image identity scale calculation stystem
US20080130998A1 (en) Identification of similar images
US8768064B2 (en) Image feature extraction device
US11615166B2 (en) System and method for classifying image data
US10298455B2 (en) Data processing system, data processing control apparatus, and data processing control method
CN113160800B (zh) 语音数据标注方法及电子设备、存储装置
CN108600744B (zh) 图像质量控制的方法、摄像机拍摄图像的方法和装置
US11908127B2 (en) Internet of Things systems for industrial data processing, control methods, and storage medium thereof
US20160314565A1 (en) System and Method for Normalized Focal Length Profiling
CN118196444B (zh) 一种基于互联网的农资信息监控系统
CN117252716B (zh) 一种税务数据储存管理方法及系统
CN114721326B (zh) 基于深度学习算法的营销稽查信息处理方法及装置
JP2019164687A (ja) 情報処理装置
CN112434656A (zh) 一种物联网设备的图像识别方法、装置及计算机设备
CN115146155A (zh) 动态用户画像管理系统
CN117278490B (zh) 一种物联网网关数据快速传输方法及系统
CN117715275B (zh) 一种地铁隧道照明智能调控系统及方法
CN115131589B (zh) 一种互联网文创作品智能设计的图像生成方法
CN113077000B (zh) 特征序列对齐方法
CN116385470A (zh) 视频镜头边界检测方法、装置、移动终端及存储介质
CN116758551A (zh) 应用于词典笔的ocr文字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant