CN116383421A

CN116383421A - 基于大数据的人工智能数据聚合系统

Info

Publication number: CN116383421A
Application number: CN202310601249.7A
Authority: CN
Inventors: 欧阳浩
Original assignee: Shenzhen Haoyuan Nuoxin Technology Co ltd
Current assignee: Shenzhen Haoyuan Nuoxin Technology Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-07-04
Anticipated expiration: 2043-05-26
Also published as: CN116383421B

Abstract

本发明涉及档案数据聚合领域，尤其涉及一种基于大数据的人工智能数据聚合系统，包括，数据采集单元、评价单元，以及，用以根据评价单元输出的针对单个所述档案的结构评价值R判定该档案是否符合存储标准，在判定单个档案不符合存储标准时根据结构评价值确定针对该档案的处理方式，包括调节所述数据采集单元的运行参数以重新采集该档案的图像数据，或，判定和输出档案不符合预设存储标准的原因的判定单元，以及，用以根据判定单元的判定结果接收数据采集单元输出的与符合存储标准的档案对应的电子文档的服务器单元，有效提高了针对档案数据管理的效率。

Description

基于大数据的人工智能数据聚合系统

技术领域

本发明涉及档案数据聚合领域，尤其涉及一种基于大数据的人工智能数据聚合系统。

背景技术

数据聚合是指将多类数据源整理、分析、合并或存储的过程，常应用在各类档案归档系统中，包括将多数据源获取的档案进行分析、归类存储等，由于档案数据在各行各业应用广泛，相关的数据聚合系统应运而生。

例如，中国专利公开号：CN111538771A，公开了基于大数据的人物档案聚合系统及方法，系统包括：结构化数据处理模块，用于对结构化数据库数据进行智能分析；非结构化数据处理模块，用于处理非结构化数据；数据存储模块，用于数据存储；数据融合模块，用于将结构化数据与非结构化数据进行融合。

但是，现有技术中还存在以下问题。

现有技术中，在档案数据源较多的情况下，对于录入至系统的档案缺少快速有效的验证或筛选，导致档案数据聚合过程效率以及效果不佳。

发明内容

为此，本发明提供一种基于大数据的人工智能数据聚合系统，用以克服现有技术中在档案数据源较多的情况下，对于录入至系统的档案缺少快速有效的验证或筛选，导致档案数据聚合过程效率以及效果不佳的问题。

为实现上述目的，本发明提供一种基于大数据的人工智能数据聚合系统，包括：

数据采集单元，其用以获取待上传档案的图像数据并从图像数据中提取针对该档案的特征数据，特征数据包括与该档案对应的身份特征、结构特征和与各结构特征对应的关键词特征；

评价单元，其与所述数据采集单元相连，用以接收数据采集单元输出的针对单个所述档案的特征数据并根据特征数据求得针对该档案的结构评价值；

判定单元，其与所述评价单元相连，用以根据评价单元输出的针对单个所述档案的结构评价值R判定该档案是否符合存储标准，以及，在判定单个档案不符合存储标准时根据结构评价值确定针对该档案的处理方式，包括调节所述数据采集单元的运行参数以重新采集该档案的图像数据，或，判定和输出档案不符合预设存储标准的原因；

服务器单元，其包括分别与所述判定单元和所述数据采集单元相连的若干存储服务器，用以根据判定单元的判定结果接收数据采集单元输出的与符合存储标准的档案对应的电子文档。

进一步地，对于所述特征数据，其中：

所述身份特征为与所述档案匹配的代码；

所述结构特征包括所述图像数据中带有文字的区域轮廓以及各区域轮廓的面积；

所述关键词特征为位于对应的所述区域中的匹配关键词的数量。

进一步地，所述评价单元使用以下公式计算针对单个所述档案的结构评价值R：

其中，α为评价值补偿系数，设定α=1.2，Si为所述图像数据中第i个区域轮廓的面积，i=1，2，3，...，n，n为该图像数据中区域轮廓的总数，S0为该图像数据中区域轮廓的总面积，Ci为所述数据采集单元在所述第i个区域轮廓内识别到的匹配关键词的数量，Ci0为数据采集单元在第i个区域轮廓内识别到的关键词的总数，R0为评价值常数，设定R0=10。

进一步地，所述评价单元根据所述结构评价值R确定所述档案是否符合录入标准的判定方式，其中：

第一判定方式为所述评价单元判定所述档案符合录入标准，并控制所述数据采集单元将所述电子文档输送至所述服务器单元；所述第一判定方式满足所述结构评价值R大于所述评价单元中设置的第二预设结构评价值Rb；

第二判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为存在不符合预设结构标准的所述结构特征，评价单元根据各所述区域的独立结构评价值确定针对所述档案的处理方式；所述第二判定方式满足所述结构评价值R小于等于所述第二预设结构评价值Rb且大于所述评价单元中设置的第一预设结构评价值Ra，Ra＞Rb；

第三判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为所述图像数据的清晰度不符合预设标准，评价单元控制所述数据采集单元重新采集所述档案的图像数据并在采集前根据所述第一预设结构评价值Ra与所述结构评价值R的差值将所述数据采集单元中摄像头的焦距增加至对应值；所述第三判定方式满足所述结构评价值R小于等于所述第一预设结构评价值Ra。

进一步地，所述服务器单元中存储有分别与各所述区域对应的预设关键词，所述数据采集单元分别将从对应的所述区域中采集到的各关键词依次与各预设关键词进行比对并将相似度高于预设相似度的关键词记为该区域中的匹配关键词；所述数据采集单元根据所述区域中的关键词的数量Ci0确定针对该区域的预设相似度的修正方式，其中：

第一修正方式为所述数据采集单元不对所述预设相似度进行修正；所述第一修正方式满足所述区域中关键词的数量Ci0小于等于所述数据采集单元中设置中的第一预设数量；

第二修正方式为所述数据采集单元使用第一预设修正系数将所述预设相似度修正至对应值；所述第二修正方式满足所述区域中关键词的数量Ci0大于所述第一预设数量且小于等于所述数据采集单元中设置中的第二预设数量；

第三修正方式为所述数据采集单元使用第二预设修正系数将所述预设相似度修正至对应值；所述第三修正方式满足所述区域中关键词的数量Ci0大于所述第二预设数量。

进一步地，所述判定单元在所述第二判定方式下根据各所述独立结构评价值分别对各所述区域进行分类并根据各种类区域的数量与区域总数的占比确定针对所述档案的处理方式，其中：

第一处理方式为所述判定单元判定所述档案存在撰写不符合规定的文本的区域，判定单元依次对各存在不符合规定文本的区域进行标记并发出针对各标记区域的修订通知；所述第一处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比小于等于判定单元设置的预设独立占比且判定为一类独立评价值的区域的数量与区域总数的占比大于预设独立占比；

第二处理方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知；所述第二处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比大于判定单元设置的预设独立占比。

进一步地，对于所述图像数据中的第i个所述区域，所述评价单元将针对该区域的独立评价值记为Ri并根据Ri确定针对独立评价值的分类方式，设定

，其中：

第一分类方式为评价单元将所述独立评价值Ri分类为第一类独立评价值；所述第一分类方式满足所述独立评价值Ri大于所述评价单元中设置的第二预设独立评价值；

第二分类方式为评价单元将所述独立评价值Ri分类为第二类独立评价值；所述第二分类方式满足所述独立评价值Ri小于等于第二预设独立评价值且大于所述评价单元中设置的第一预设独立评价值；

第三分类方式为评价单元将所述独立评价值Ri分类为第三类独立评价值；所述第三分类方式满足所述独立评价值Ri小于等于所述第一预设独立评价值。

进一步地，所述判定单元在所述第三判定方式下计算所述第一预设结构评价值Ra与所述结构评价值R的差值ΔR并根据ΔR确定针对所述摄像头的焦距调节方式，设定ΔR=Ra-R，其中：

第一焦距调节方式为所述判定单元判定使用第一距离调节系数将所述焦距调节至对应值；所述第一焦距调节方式满足所述差值ΔR小于等于所述判定单元中设置的第一预设差值ΔR1；

第二焦距调节方式为所述判定单元判定使用第二距离调节系数将所述焦距调节至对应值；所述第二焦距调节方式满足所述差值ΔR大于所述第一预设差值ΔR1且小于等于所述判定单元中设置的第二预设差值ΔR2；

第三焦距调节方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知；所述第三焦距调节方式满足所述差值ΔR大于所述第二预设差值ΔR2。

进一步地，所述评价单元在第一预设条件下根据所述数据采集单元获取的图像数据中区域轮廓的总面积确定针对第一预设结构评价值和第二预设结构评价值的调节方式，其中：

第一调节方式为所述评价单元不对第一预设结构评价值和第二预设结构评价值进行调节；所述第一调节方式满足图像数据中区域轮廓的总面积小于等于第一预设面积；

第二调节方式为所述评价单元使用第一预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值；所述第二调节方式满足图像数据中区域轮廓的总面积小于等于第二预设面积且大于所述第一预设面积；

第三调节方式为所述评价单元使用第二预设调节系数将第一预设结构评价值和第二预设结构评价值调低至对应值；所述第三调节方式满足图像数据中区域轮廓的总面积大于所述第二预设面积；

所述第一预设条件为所述数据采集单元获取到待上传档案的图像数据。

进一步地，所述评价单元与外接显示器连接，用以显示输出档案不符合预设存储标准的原因。

与现有技术相比，本发明的有益效果在于，根据待上传档案的图像数据计算该档案的结构评价值，并根据结构评价值对该档案是否符合录入标准进行判定，其中，若结构评价值过低则该档案不符合录入标准的原因为摄像头焦距不符合标准，对摄像头的焦距进行调节，以确保录入的电子文档内容均清晰明了，若结构评价值小于等于第二预设结构评价值且大于第一预设结构评价值，则判定该档案不符合录入标准的原因为档案存在不符合预设结构标准的结构特征，在确保录入的电子档案均为符合预设标准的，可在档案调用时确保每个录入的电子档案均为可直接应用，表述清晰符合预设标准的档案的同时，进一步提高了档案调用的便捷度，对录入至系统的档案数据进行快速且有效的验证，且有效提高了针对档案数据的管理效率。

进一步地，根据各待上传档案的实际情况对针对该待上传档案的预设相似度进行调节，在确保本基于大数据的人工智能数据聚合系统可适用于各类待上传档案的同时，进一步有效提高了针对档案数据的管理效率。

进一步地，在判定档案不符合录入标准的原因为档案存在不符合预设结构标准的结构特征时，根据独立评价值对该档案图像数据中的各区域进行分类，在确保精准的标记出不符合规定文本的区域的同时，进一步准确的通过显示器显示了档案不符合录入标准的原因，以便使用者对文档进行调整以达到符合录入的标准，有效提高了针对档案数据的管理效率，其中不符合规定文本的区域为独立评价值为三类独立评价值的区域。

进一步地，在判定图像数据的清晰度不符合预设标准时，对摄像头的焦距进行调节，在确保有效提高电子文档清晰度的同时，进一步有效提高了针对档案数据的管理效率。

进一步地，在对档案进行是否符合录入标准的判定前根据数据采集单元获取的图像数据对判定标准的第一预设结构评价值和第二预设结构评价值进行调节，在确保本基于大数据的人工智能数据聚合系统可适用于各类待上传档案的同时，进一步有效提高了针对档案数据的管理效率。

附图说明

图1为本发明实施例所述基于大数据的人工智能数据聚合系统的结构框图；

图2为本发明实施例所述评价单元根据结构评价值确定档案是否符合录入标准的判定方式流程图；

图3为本发明实施例所述数据采集单元根据区域中的关键词的数量确定针对该区域的预设相似度的修正方式流程图；

图4为本发明实施例所述判定单元根据计算的第一预设结构评价值与结构评价值的差值确定针对摄像头的焦距调节方式流程图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1、图2、图3以及图4所示，其分别为本发明实施例所述基于大数据的人工智能数据聚合系统的结构框图、评价单元根据结构评价值确定档案是否符合录入标准的判定方式流程图、数据采集单元根据区域中的关键词的数量确定针对该区域的预设相似度的修正方式流程图、判定单元根据计算的第一预设结构评价值与结构评价值的差值确定针对摄像头的焦距调节方式流程图；本发明实施例基于大数据的人工智能数据聚合系统，包括：

具体而言，本发明对评价单元以及判定单元的具体结构不做限定，各单元可由逻辑部件构成，逻辑部件包括现场可编程部件、计算机或计算机中的微处理器等。

具体而言，本发明对数据采集单元的具体结构不做限定，数据采集单元可以包括摄像头以及逻辑部件构成。

具体而言，对于所述特征数据，其中：

所述身份特征为与所述档案匹配的代码；

具体而言，所述评价单元使用以下公式计算针对单个所述档案的结构评价值R：

具体而言，所述评价单元根据所述结构评价值R确定所述档案是否符合录入标准的判定方式，其中：

第三判定方式为所述评价单元判定所述档案不符合录入标准且不符合录入标准的原因为所述图像数据的清晰度不符合预设标准，评价单元控制所述数据采集单元重新采集所述档案的图像数据并在采集前根据所述第一预设结构评价值Ra与所述结构评价值R的差值将所述数据采集单元中摄像头的焦距增加至对应值；所述第三判定方式满足所述结构评价值R小于等于所述第一预设结构评价值Ra；

其中，第一预设结构评价值=1.5，第二预设结构评价值=2.1。

具体而言，所述服务器单元中存储有分别与各所述区域对应的预设关键词，所述数据采集单元分别将从对应的所述区域中采集到的各关键词依次与各预设关键词进行比对并将相似度高于预设相似度的关键词记为该区域中的匹配关键词；所述数据采集单元根据所述区域中的关键词的数量Ci0确定针对该区域的预设相似度的修正方式，其中：

第三修正方式为所述数据采集单元使用第二预设修正系数将所述预设相似度修正至对应值；所述第三修正方式满足所述区域中关键词的数量Ci0大于所述第二预设数量；

其中，第一预设修正系数为1.1，第二预设修正系数1.2，第一预设数量为15，第二预设数量为30，预设相似度为0.75。

具体而言，所述判定单元在所述第二判定方式下根据各所述独立结构评价值分别对各所述区域进行分类并根据各种类区域的数量与区域总数的占比确定针对所述档案的处理方式，其中：

第二处理方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知；所述第二处理方式满足判定为三类独立评价值的区域的数量与区域总数的占比大于判定单元设置的预设独立占比；

其中，预设独立占比为0.5。

具体而言，对于所述图像数据中的第i个所述区域，所述评价单元将针对该区域的独立评价值记为Ri并根据Ri确定针对独立评价值的分类方式，设定

，其中：

第三分类方式为评价单元将所述独立评价值Ri分类为第三类独立评价值；所述第三分类方式满足所述独立评价值Ri小于等于所述第一预设独立评价值；

其中，第一预设独立评价值为0.75，第二预设独立评价值为4。

具体而言，所述判定单元在所述第三判定方式下计算所述第一预设结构评价值Ra与所述结构评价值R的差值ΔR并根据ΔR确定针对所述摄像头的焦距调节方式，设定ΔR=Ra-R，其中：

第三焦距调节方式为所述判定单元判定所述档案不符合录入标准并发出重新录入通知；所述第三焦距调节方式满足所述差值ΔR大于所述第二预设差值ΔR2；

其中，第一预设差值为0.8，第二预设差值为1.5，第一距离调节系数为1.1，第二距离调节系数为1.15。

具体而言，所述评价单元在第一预设条件下根据所述数据采集单元获取的图像数据中区域轮廓的总面积确定针对第一预设结构评价值和第二预设结构评价值的调节方式，其中：

所述第一预设条件为所述数据采集单元获取到待上传档案的图像数据；

其中，第一预设面积为207.9cm²，第二预设面积为415.8cm²，第一预设调节系数为0.95，第二预设调节系数0.9。

具体而言，所述评价单元与外接显示器连接，用以显示输出档案不符合预设存储标准的原因。

实施例1

数据采集单元获取到待上传档案的图像数据并从图像数据中提取针对该档案的特征数据，档案匹配的代码为11201917220510225110，图像数据中区域轮廓的总面积为311cm²，区域中的关键词的数量为17，区域轮廓的总数为7，评价单元使用第一预设调节系数0.95将第一预设结构评价值调节至1.425、第二预设结构评价值调节至2，数据采集单元使用第一预设修正系数1.1将预设相似度修正至0.825后获取的匹配关键词的数量为11，其中预设相似度为0.75，评价单元根据该档案的图像数据计算得到档案的结构评价值为1.06，评价单元判定档案不符合录入标准且不符合录入标准的原因为图像数据的清晰度不符合预设标准，评价单元控制数据采集单元重新采集所述档案的图像数据并在采集前根据第一预设结构评价值1.9与结构评价值1.06的差值0.84使用距离调节系数1.15将数据采集单元中摄像头的焦距增加至对应值，评价单元根据数据采集单元重新获取的图像数据计算档案的结构评价值为3.2，评价单元判定档案不符合录入标准且不符合录入标准的原因为存在不符合预设结构标准的所述结构特征，评价单元分别计算各区域的独立结构评价值以确定针对档案的处理方式，其中独立结构评价值大于第二预设独立评价值4的区域数量为5，判定单元判定档案存在撰写不符合规定的文本的区域，判定单元依次对各存在不符合规定文本的区域进行标记并在显示器上显示出针对各标记区域的修订通知。

实施例2

数据采集单元获取到待上传档案的图像数据并从图像数据中提取针对该档案的特征数据，档案匹配的代码为11201917220510213125，图像数据中区域轮廓的总面积为198cm²，区域中的关键词的数量为39，区域轮廓的总数为5，评价单元不对第一预设结构评价值和第二预设结构评价值进行调节，数据采集单元使用第二预设修正系数1.2将预设相似度修正至0.9后获取的匹配关键词的数量为37，评价单元根据该档案的图像数据计算得到档案的结构评价值为2.3，评价单元判定档案符合录入标准，并控制所述数据采集单元将所述电子文档输送至所述服务器单元。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的人工智能数据聚合系统，其特征在于，包括：

2.根据权利要求1所述的基于大数据的人工智能数据聚合系统，其特征在于，对于所述特征数据，其中：

所述身份特征为与所述档案匹配的代码；

3.根据权利要求2所述的基于大数据的人工智能数据聚合系统，其特征在于，所述评价单元使用以下公式计算针对单个所述档案的结构评价值R：

4.根据权利要求3所述的基于大数据的人工智能数据聚合系统，其特征在于，所述评价单元根据所述结构评价值R确定所述档案是否符合录入标准的判定方式，其中：

5.根据权利要求4所述的基于大数据的人工智能数据聚合系统，其特征在于，所述服务器单元中存储有分别与各所述区域对应的预设关键词，所述数据采集单元分别将从对应的所述区域中采集到的各关键词依次与各预设关键词进行比对并将相似度高于预设相似度的关键词记为该区域中的匹配关键词；所述数据采集单元根据所述区域中的关键词的数量Ci0确定针对该区域的预设相似度的修正方式，其中：

6.根据权利要求4所述的基于大数据的人工智能数据聚合系统，其特征在于，所述判定单元在所述第二判定方式下根据各所述独立结构评价值分别对各所述区域进行分类并根据各种类区域的数量与区域总数的占比确定针对所述档案的处理方式，其中：

7.根据权利要求6所述的基于大数据的人工智能数据聚合系统，其特征在于，对于所述图像数据中的第i个所述区域，所述评价单元将针对该区域的独立评价值记为Ri并根据Ri确定针对独立评价值的分类方式，设定

，其中：

8.根据权利要求4所述的基于大数据的人工智能数据聚合系统，其特征在于，所述判定单元在所述第三判定方式下计算所述第一预设结构评价值Ra与所述结构评价值R的差值ΔR并根据ΔR确定针对所述摄像头的焦距调节方式，设定ΔR=Ra-R，其中：

9.根据权利要求8所述的基于大数据的人工智能数据聚合系统，其特征在于，所述评价单元在第一预设条件下根据所述数据采集单元获取的图像数据中区域轮廓的总面积确定针对第一预设结构评价值和第二预设结构评价值的调节方式，其中：

10.根据权利要求9所述的基于大数据的人工智能数据聚合系统，其特征在于，所述评价单元与外接显示器连接，用以显示输出档案不符合预设存储标准的原因。