CN115860697B - 一种基于智能识别的自动化数据管理系统 - Google Patents

一种基于智能识别的自动化数据管理系统 Download PDF

Info

Publication number
CN115860697B
CN115860697B CN202310131893.2A CN202310131893A CN115860697B CN 115860697 B CN115860697 B CN 115860697B CN 202310131893 A CN202310131893 A CN 202310131893A CN 115860697 B CN115860697 B CN 115860697B
Authority
CN
China
Prior art keywords
template
recognition
data source
value
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310131893.2A
Other languages
English (en)
Other versions
CN115860697A (zh
Inventor
吴子涵
陈欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nantong Jiuwei Software Technology Co ltd
Original Assignee
Nantong Jiuwei Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nantong Jiuwei Software Technology Co ltd filed Critical Nantong Jiuwei Software Technology Co ltd
Priority to CN202310131893.2A priority Critical patent/CN115860697B/zh
Publication of CN115860697A publication Critical patent/CN115860697A/zh
Application granted granted Critical
Publication of CN115860697B publication Critical patent/CN115860697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于智能识别的自动化数据管理系统,对识别对象数据源进行特征分析,得到识别对象数据源和模板的表格和表格字段对应关系,将数据源模板配套SQL中,模板的数据源、表格、字段替换为识别对象中对应的名称,运行检索结果,不同源的数据库集成检索合并记录,并写入统计图表的数据源部分,被统计图片或报表引用.生成大数据分析统计报表,在计划时间启动,实现无人工值守的智能大数据采集、分析、统计的功能,进而为智能制造提供高效可靠的统筹决策计划的依据。

Description

一种基于智能识别的自动化数据管理系统
技术领域
本发明涉及智能制造装备领域,具体涉及一种基于智能识别的自动化数据管理系统。
背景技术
二十一世纪人类的制造装备的产业进入大数据时代,数据的采集、整理、统计、分析,对工业制造产业链的管理决策、资源优化、提高绩效更为重要, 技术领域在数据库处理方面也有蓬勃的发展,市场上有了navicat等成熟的软件,一方面,现有大数据管理软件仅限于提供方便快捷的检索工具,需要数据分析师洞察各种表格及表格字段的定义,给予关联运算的脚本,数据分析师遇到一个新数据源时候,就得花相当长的时间,了解数据库中表格及表格字段的各种内涵定义.熟悉架构,之后才能进行数据分析,十分消耗时间,严重制约了工业制造装备产业决策管理效能的统筹安排;另外一方面,遇到多种数据源的数据,表格及表格字段的命名规范不统一,数据分析师则需要花更多的精力去统筹分析,对非关系型数据库分析方面的现有技术有:CN107491544 B一种增强非关系型数据库分析能力的数据处理平台、CN102201986A非关系型数据库Cassandra中分区路由方法。这些技术提供了跨数据库进行联表运算的方法,但仍然需要数据分析师对数据库对象中的表格及表格字段进行深入了解定义,进行人工关联运算,十分耗时耗力。CN105549982B 一种基于模型配置的自动化开发平台,阐明了可视化数据库管理的技术,基于数据库模型和字典对查询sql语句进行了捆绑,确实提高了数据管理开发的效率,但仍然需要开发人员对数据库中的字段、表格等架构有所了解,依赖于用户配置的数据模型;本质还是RPA自动化流程,使用少量代码开发应用,预制封装各种控件,让用户能利用拖拉拽控件,简单的操作生成自动化流程,此外Hadoop是一个分布式系统基础架构,用户无需了解分布式数据库组成的底层,就可以开发分布式程序,使用集群的效率进行存储和运算,但只能适用于运维方面的操作,遇到需要详细数据支撑的大数据运算,不了解数据库底层的数据架构,就无法进行深入的数据调用,限制了进一步应用开发的空间。
发明内容
基于解决背景技术所述的问题,一种基于智能识别的自动化数据管理系统, 一种基于智能识别的自动化数据管理系统, 对识别对象数据源进行特征分析, 得到识别对象数据源和模板的表格和表格字段对应关系, 将数据源模板配套SQL中,模板的数据源、表格、字段替换为识别对象中对应的名称,运行检索结果,不同来源的数据库集成检索合并记录,并写入统计图表的数据源部分,被统计图片或报表引用.生成大数据分析统计报表,在计划时间启动,实现无人工值守的智能大数据采集、分析、统计的功能。
一种基于智能识别的自动化数据管理系统,包含的模块有:数据源连接模块、标准数据源模板模块,智能分析模块,智能编辑查询模块,用户自定义模块。
所述数据源连接模块,配置用户界面,供用户选择下拉表选择数据源类型、填写连接数据源的ip地址、数据源名称、户名、密码,ssh跳板机ip地址、用户名、密码这些连接数据源必要的参数。保存所述连接信息后,在启动时,根据数据源类型结合用户输入的连接参数运行对应的连接代码 ,向服务器发送连接请求,生成数据源连接池,等待调用。
所述标准数据源模板模块,执行的步骤有:创建数据库、表及表字段名称的标准数 据源模板M(...),每个标准数据源模板配套一组表格模板B( ...),每个表格模板配套一组字段模板Z(...) , 表格模板B中的一个或一组 元素对应从属标准数据源模板M的一个元素,字段模板Z中的一个或一组元素对应从属表格 模板B的一个元素,其中所有所述模板配套一组特征识别规则。每条所述特征识别规则内容 包括:特征识别规则所映射的标准数据源模板名称及id号、识别权重系数K、识别所对应的 对象、识别对象的类别、特征识别计算规则、特征识别规则相似度算法的代码、被识别的信 息内容来源、特征识别相似度算法、默认结果阈值C、否定阈值F。
所述标准数据源模板M(...),都配套一组SQL查询模板。
所述数据源的数据类型包括数据库、excel表格、文本、网页。
所述智能分析模块,通过特征识别规则相似度算法,为识别对象数据源在标准数据源模板中找到匹配值最高的标准数据源模板,并形识别对象成数据源和匹配数据源模板之间的表、字段的对应关系。
在连接用户数据源后,所连接的数据源即为被识别的数据源对象,分别获得所述被识别的信息内容:a、数据库系统自带的数据库中和用户数据库、表格、字段相关的信息,b、通过抽样数据源中获取指定数量表格字段中对应的非空记录。
所述识别对象的类别依照识别的先后顺序分为:识别数据源、识别数据源的表格、识别数据源表格的列字段。
为特征识别值设置两个阈值,分别为:默认结果阈值C,否定阈值F,当识别值大于等于默认结果阈值时,判定当前识别值所映射的模型识别对象为对应关系,当识别参数值小于否定阈值时,判定当前识别值所映射的模板和识别对象为非对应关系,具体执行的步骤为:
step1、识别对象依据对应的模板配套的一组特征识别规则计算出识别值T,分别和默认结果阈值C、否定阈值F进行比对,当T值大于C值时,T所对应的模板即和当前识别对象对应,完成所述识别对象的识别计算,进行下个识别对象的运算。
step2、当T值小于否定阈值F时,T所对应的模板归一化识别值P赋值为0,并继续下个模板作为基准的识别计算。
step3,将同一模板所对应的T 进行归一化特征识别相似度算法运算,按照模板所属特征识别相似度算法,依次算出T值,,然后进行归一化计算识别值,计算公式如下:
N为模板所属特征识别规则的条数,T为根据识别规则计算出的识别值, K为特征 识别规则权重调节系数,P为模板所属特征识别规则的识别值归一化后的值;这样识别对象 以对应模板进行识别获得数值P(、… ),通过循环比对获得P中的最大值为对应的模板根据设置决定默认识别对象对应的识别结果,或将对应的模板 中参数和识别对象中的参数罗列到用户判断界面 由用户选择判定来决定对应或非对应关 系。
重复以上3步骤的方法,计算所有识别对象,获得识别对象和模板的对应关系。
将数据源模板配套的SQL查询模板内容中,模板的数据源、表格、字段替换为识别对象中对应的名称,运行替换后的SQL查询模板代码获得对象的sql检索运算结果。
所述智能编辑查询模块,在智能编辑查询模块中设置工作计划子模块,工作计划模块设置连接数据库,用户使用SQL查询,将标准模板的数据源、表格、字段名称,替换成识别对象数据源对应的表格及字段名称,形成替换后的SQL查询脚本,用于检索获得数据。
所述用户自定义模块,将智能分析模块计算后的结果中模板中参数和识别对象中的参数罗列到用户判断界面,由用户选择选择确认矫正对应或非对应关系;创建编辑脚本模板,以标准数据源模板中的数据库及其表格和列字段的名称,建立操作数据库的脚本模板。
所述SQL查询模板的代码以文本格式存取,并允许系统设置中有权限的用户进行修改、增加,删除、存储的编辑,程序运行时将SQL查询模板的代码直接或经过指定参数替换后嵌入到进程运算中。
所述一种基于智能识别的自动化数据管理系统中,所述特征识别规则相似度算法的代码以文本格式存取,并允许系统设置中有权限的用户进行修改、增加,删除、存储的编辑,程序运行时将特征识别相似度算法的代码嵌入到进程运算中。
所述特征识别规则相似度算法中,以特征词及特征词出现次数的特征识别规则的算法执行步骤为:
分别设置固定参数调节特征词的权重参数Q及出现次数的权重条件参数W,计算的公式如下:
T为根据特征识别规则计算出的识别值,s为特征词的个数,Q为特征词权重调节系数,x为特征词出现的次数,W为特征词出现次数权重调节系数。
所述特特征识别规则相似度算法中,识别用户姓名列字段的特征识别规则算法: 默认结果阈值C设置为0.8、否定阈值F为设置为2,连接数据源并获得待识别列字段的识别 对象中的S个非空记录N(...),设置百家姓字符集tex,执行的步骤有:
步骤1、使用len函数计算记录N的字符长度,即等于len()、即并求得均值,
均值大于3时识别值T赋值为1,均值小于等于3时,识别值T赋值为均
步骤2、当T值小于否定阈值F时,T所对应的模板归一化识别值P赋值为0,并继续下个模板作为基准的识别计算。
步骤3、通过循环计算:在tex中使用instr查找N经过left函数获得的第一个字符。
然后计算出含有百家姓的N元素个数和N元素个数的比值,并将所述比值作为识别值:
当T值大于C值时,T所对应的模板即和当前识别对象对应,完成所述识别对象的识别计算,进行下个识别对象的运算。
所述在智能编辑查询模块中设置工作计划子模块,为替换后的SQL查询模板代码获得识别对象的sql检索运算结果增设定时计划功能,实时监视程式在触发设定时间时,启动连接数据库、执行所述替换后的SQL查询脚本,进而产生无人工值守定期自动化生成报表的结果。
所述一种基于智能识别的自动化数据管理系统中,所述在智能编辑查询模块中设置反向智能识别功能,即将文本或图像识别转化成的文字内容,通过特征智能分析,即计算特征关键词、数字、符号位置划分,获得一组于标准数据源模板中表格对应的记录,经用户确认后,保存到所述标准数据库模型表格对应的数据源数据库表格中。
所述智能编辑查询模块中,设置统筹运算模块,启动对应同一个模板的多个数据源连接、支持几个不同类型不同渠道的数据源,使用同一SQL查询模板,将标准数据源模板表格、字段名称,替换成目标数据源对应的数据源、表格及字段名称进行检索获得数据,进行合并,根据设置需求决定是否创建零时标准数据源模板的数据源,并将合并后的检索结果添加到所述建零时标准数据源模板的数据源,进行二次统筹检索运算。
所述智能编辑查询模块中,设置语音识别命令模块,支持语音命令,识别关键字词,进行智能连接数据源,自动创建查新脚本,获得数据,并传输写入统计图表的数据源部分,被统计图片或报表引用.生成大数据分析统计报表。
所述用户自定义模块中,设置智能辅助输入子模块,即用户通过写SQL脚本等方式检索数据时候, 根据智能分析模块计算后的模板和识别对象的对应关系结果,智能推送给当前操作者最大概率所需的目标表格和字段名称,根据概率决定默认或需要经过确认,嵌入到当前脚本或检索结果中;
附图说明
图1 为一种基于智能识别的自动化数据管理系统整体逻辑框架图。
一种基于智能识别的自动化数据管理系统,其特征是:数据源连接模块、标准数据源模板模块,智能分析模块,智能编辑查询模块,用户自定义模块;
所述数据源连接模块,配置用户界面,供用户选择下拉表选择数据源类型、填写连接数据源的ip地址、数据源名称、户名、密码,ssh跳板机ip地址、用户名、密码这些连接数据源必要的参数;保存所述连接信息后,在启动时,根据数据源类型结合用户输入的连接参数运行对应的连接代码 ,向服务器发送连接请求,生成数据源连接池,等待调用;
所述标准数据源模板模块,执行的步骤有:创建数据库、表及表字段名称的标准数 据源模板M(...),每个标准数据源模板配套一组表格模板B( ...),每个表格模板配套一组字段模板Z(...) , 表格模板B中的一个或一组 元素对应从属标准数据源模板M的一个元素,字段模板Z中的一个或一组元素对应从属表格 模板B的一个元素,其中所有所述模板配套一组特征识别规则;每条所述特征规则内容包 括:特征识别规则所映射的标准数据源模板名称及id号、识别权重系数K、识别所对应的对 象、识别对象的类别、特征识别计算规则、特征识别规则相似度算法的代码、被识别的信息 内容来源、特征识别相似度算法、默认结果阈值C、否定阈值F。
具体实施例:使用instr字符查找函数,查找一个字符串B在另一个字符串A中首次出现的位置,再使用Mid、Left、Right等函数从长字符串内获取一部分字符,例如,查找“电话:”位置是10,使用 mid(字符串A,13,11)获得11个字符,再使用 IsNumeric所述11字符是否是数字,如返回true,则将这11个字符认定为手机号码。
具体实施例2:字符长度大于5小于41,在字段记录中查到到地级市名称,或“市”“区”的记录占比超过预先设定的阈(yù)值,则认定为“地址”栏.
字符长度大于6,含有市,省 区,号的则将当前记录,认定为地址.认定地址的记录和参与认定的记录总数比大于阈(yù)值,则改字段被识别为地址栏
所述标准数据源模板M(...),都配套一组SQL查询模板,SQL查询模板 的代码以文本格式存取,并允许系统设置中有权限的用户进行修改、增加,删除、存储的编 辑,程序运行时将SQL查询模板的代码直接或经过指定参数替换后嵌入到进程运算中。
所述数据源的数据类型包括数据库、excel表格、文本、网页。
所述智能分析模块,通过特征识别规则相似度算法,为识别对象数据源在标准数据源模板中找到匹配值最高的标准数据源模板,并形识别对象成数据源和匹配数据源模板之间的表、字段的对应关系;
在连接用户数据源后,所连接的数据源即为被识别的数据源对象,分别获得所述被识别的信息内容:a、数据库系统自带的数据库中和用户数据库、表格、字段相关的信息,b、通过抽样数据源中获取指定数量表格字段中对应的非空记录。
SQL语言具体实施例:
SELECT shop 商店,order 订单,product 商品,guide 导购,point积分,member会员,channelType 渠道类别,product 产品,orderitem订单详细,order 订单from 表格名称 where 字段名 is not null,罗列字段的非空值。
识别对象数据库、表格及字段,形成和标准数据源模板的表格表格及标准命名的字段,形成对应关系,记录在系统中,每次打开表格时候,检索目标表格名称和所属表中字段名称,和对应表中的名称对比,检验是否发生变化,需要更新.
在部署数据库环境时候,一般数据库都自带数据库,其中有数据库记录用户创建的数据库、表格及字段的信息,通过sql语法,在获得权限的前提下,可以访问数据自带的数据库,获得用户数据、数据库中的表格、字段信息,通过特征识别规则,验证所述用户数据、数据库中的表格、字段信息,分析出数据库、表格、字段的内涵特征,进而进行分类。
nformation_schema 数据库跟 performance_schema 一样,都是 MySQL 自带的信息数据库。其中 performance_schema 用于性能分析,而 information_schema 用于存储数据库元数据(关于数据的数据),例如数据库名、表名、列的数据类型、访问权限等。
information_schema为mysql自带数据库,其中TABLES表记录 用户数据库中表的详细信息,包括 表名,表创建时间,表备注;SQL语言具体实施例:
select TABLE_NAME 表名称, CREATE_TIME 创建时间, UPDATE_TIME 更新时间,TABLE_COMMENT 表备注说明 from information_schema.TABLES
特征识别规则相似度算法的代码以文本格式存取,并允许系统设置中有权限的用户进行修改、增加,删除、存储的编辑,程序运行时将特征识别相似度算法的代码嵌入到进程运算中。
具体实施例:定义变量 Scripts为 Object对象,赋值为使用CreateObject 方法创建ScriptControl 控件对象,Execute statements,运行特征识别相似度算法,获得相似度的值。Statement.execute() 返回的不是执行成功与否的结果,比如执行sql是一条插入语句,不能通过statement.execute(sql)的返回值判断是否插入成功。想要获得插入是否成功的信息,一个可选的方法是在执行插入动作后,再执行一句查询。
所述识别对象的类别依照识别的先后顺序分为:识别数据源、识别数据源的表格、识别数据源表格的列字段。
为特征识别值设置两个阈值,分别为:默认结果阈值C,否定阈值F,当特征识别值大于等于默认结果阈值时,判定当前识别值所映射的模型识别对象为对应关系,当识别参数值小于否定阈值时,判定当前识别值所映射的模板和识别对象为非对应关系;
步骤1、识别对象依据对应的模板配套的一组特征识别规则计算出识别值T,分别和默认结果阈值C、否定阈值F进行比对,当T值大于C值时,T所对应的模板即和当前识别对象对应,完成所述识别对象的识别计算,进行下个识别对象的运算;
步骤2、当T值小于否定阈值F时,T所对应的模板归一化识别值P赋值为0,并继续下个模板作为基准的识别计算。
步骤3,将同一模板所对应的T 进行归一化特征识别相似度算法运算,按照模板所属特征识别相似度算法,依次算出T值,,然后进行归一化计算识别值,计算公式如下:
N为模板所属特征识别规则的条数,T为根据识别规则计算出的识别值, K为特征 识别规则权重调节系数,P为模板所属特征识别规则的识别值归一化后的值;这样识别对象 以对应模板进行识别获得数值P(、… ),通过循环比对获得P中的最大值为 对应的模板根据设置决定默认识别对象对应的识别结果,或将对应的模板 中参数和识别对象中的参数罗列到用户判断界面 由用户选择判定来决定对应或非对应关 系;
重复以上3步骤的方法,计算所有识别对象,获得识别对象和模板的对应关系。
、将数据源模板配套的SQL查询模板内容中,模板的数据源、表格、字段替换为识别对象中对应的名称,运行替换后的SQL查询模板代码获得对象的sql检索运算结果。
特征识别规则相似度算法中,以特征词及特征词出现次数的特征识别规则的算法执行步骤为:
分别设置固定参数调节特征词的权重参数Q及出现次数的权重条件参数W,计算的公式如下:
T为根据特征识别规则计算出的识别值,s为特征词的个数,Q为特征词权重调节系数,x为特征词出现的次数,W为特征词出现次数权重调节系数。
特征识别规则相似度算法中,识别用户姓名列字段的特征识别规则算法:默认结 果阈值C设置为0.8、否定阈值F为设置为2,连接数据源并获得待识别列字段的识别对象中 的S个非空记录N(...),设置百家姓字符集tex,执行的步骤有:
步骤1、使用len函数计算记录N的字符长度,即等于len()、即并求得均值,
均值大于3时识别值T赋值为1,均值小于等于3时,识别值T赋值为均
步骤2、当T值小于否定阈值F时,T所对应的模板归一化识别值P赋值为0,并继续下个模板作为基准的识别计算;
步骤3、通过循环计算:在tex中使用instr查找N经过left函数获得的第一个字符;
然后计算出含有百家姓的N元素个数和N元素个数的比值,并将所述比值作为识别值:
当T值大于C值时,T所对应的模板即和当前识别对象对应,完成所述识别对象的识别计算,进行下个识别对象的运算;
具体实施例:准数据源模板配套的特征识别规则中识别对象的类别为识别“数 据库的识别”的规则有:规则1:表格名称中含有特征词“订单”、“用户”、“产品”、“子订单”、 “退货单”…的次数x、特征词权重调节系数Q、特征词出现次数权重调节系数W,
获取字符出现的次数:
=UBound(Split(str, "订单"))
=UBound(Split(str, "用户"))
=UBound(Split(str, "产品"))…
计算好x值后,在将特征词权重调节系数Q、特征词出现次数权重调节系数W,代入公式2计算出特征识别规则的识别值T。
模板所属的N条识别规则按照识别规则的算法依次算出对应的T值,然后按照公式 1计算归一化的识别值
以上述的方法计算出标准数据源模板M(...)所对应的P值,通过循 环比对获得P值中最大值,对应的模板内容即为识别结果。以此类推的做法算出被识 别的数据源对象所对应的数据源模板、表格模板、字段模板。
所述智能编辑查询模块,在智能编辑查询模块中设置工作计划子模块,工作计划模块设置连接数据库,sql查询语句、定时功能,实时监视程式在触发设定时间时,启动连接数据库、执行sql查询语句,获得结果的运算过程。无人工值守定期自动化生成报表。
反向智能识别,即将文本或图像识别转化成的文字内容,文字识别(OCR)服务,通过特征智能分析,即计算特征关键词、数字、符号位置划分,获得一组于标准数据源模板中表格对应的记录,经用户确认后,保存到所述标准数据库模型表格对应的数据源数据库表格中。
在智能编辑查询模块中设置统筹运算模块,启动对应同一个模板的多个数据源连接、执行模板sql查询对应替换代码语句,将结果进行合并,呈现给用户。
进一步创建标准模板的数据源,连接多个数据源或几个不同类型的数据源,使用同一SQL查询模板,将标准数据源模板表格、字段名称,替换成目标数据源对应的数据源、表格及字段名称进行检索获得数据,进行合并,根据设置需求决定是否创建零时标准数据源模板的数据源,并将合并后的检索结果添加到所述建零时标准数据源模板的数据源,进行二次统筹检索运算。
这样就能将不同来源的数据库,不同类型的数据库,进行集成检索,合并记录。配置用户检索的语句,形成数据引擎,解决如厂家通过不同平台 渠道的进销存数据的集成。
智能编辑查询模块中,设置语音识别命令模块,支持语音命令,识别关键字词,进行智能连接数据源,自动创建查新脚本,获得数据,并传输写入统计图表的数据源部分,被统计图片或报表引用.生成大数据分析统计报表,例如:创建定义Excel.Application对象,打开指定的excel模板,将数据写入excel统计图表所引用的对应单元格。
所述用户自定义模块,通过智能分析模块计算后的结果,即将所有模板中参数和识别对象中的参数罗列到用户判断界面 由用户选择选择、确认、矫正对应或非对应关系;创建编辑脚本模板,以标准数据源模板中的数据库及其表格和列字段的名称,建立操作数据库的脚本模板,例如电商标准数据源模板数据库中用于得到产品的复购率,产品买家的年纪段统计、产品销售额统计数据的脚本模板,此外设置智能辅助输入子模块,即用户通过写SQL脚本等方式检索数据时候, 根据智能分析模块计算后的模板和识别对象的对应关系结果,智能推送给当前操作者最大概率所需的目标表格和字段名称,根据概率决定默认或需要经过确认,嵌入到当前脚本或检索结果中,excel模板中的统计图表就会根据写入的数据自动更新。
特别申明:在本说明书中所述的 “实施例”等,指的是结合该实施例描述的具体特征、要素或者特点包括在本申请概括性描述的实施例中。在说明书中多个地方出现同种表述并非限定特指的是同一个实施例。也就是说,结合任一实施例描述一个具体特征、要素或者特点时,所要主张的是结合其他实施例来实现这种特征、要素或者特点被包含于本发明申请保护的权利要求范围中; 实施例是参照本发明逻辑架构及思路的多个解释性实施例对本发明进行了描述,但本发明的保护范围并不局限于此,本领域技术人员在本发明技术方案框架下可以设计出很多其他的修改和实施方式,可以对技术方案的要点变换组合/或布局进行多种非本质性变型和改进,对于本领域技术人员来说,其他的用途也将是明显的,可轻易想到实施的非实质性变化或替换,这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims (10)

1.一种基于智能识别的自动化数据管理系统,其特征是:包含的模块有:数据源连接模块、标准数据源模板模块,智能分析模块,智能编辑查询模块,用户自定义模块;
所述数据源连接模块,配置用户界面,供用户选择下拉表选择数据源类型、填写连接数据源的ip地址、数据源名称、用户名、密码,ssh跳板机ip地址、用户名、密码这些连接数据源必要的参数;保存所述连接参数后,在启动时,根据数据源类型结合用户输入的连接参数运行对应的连接代码 ,向服务器发送连接请求,生成数据源连接池,等待调用;
所述标准数据源模板模块,执行的步骤有:创建数据库、表及表字段名称的标准数据源模板M(、/>、/>..),每个标准数据源模板配套一组表格模板B(/>、/>、/>...),每个表格模板配套一组字段模板Z(/>、/>、/>...) , 表格模板B中的一个或一组元素对应从属标准数据源模板M的一个元素,字段模板Z中的一个或一组元素对应从属表格模板B的一个元素,其中所有所述模板配套一组特征识别规则;每条所述特征识别规则内容包括:特征识别规则所映射的标准数据源模板名称及id号、识别对象的类别、特征识别规则相似度算法的代码、被识别的信息内容来源、特征识别相似度算法、默认结果阈值C、否定阈值F;
所述标准数据源模板M(、/>、/>...),都配套一组SQL查询模板,
所述数据源的数据类型包括数据库、excel表格、文本、网页;
所述智能分析模块,通过特征识别规则相似度算法,为识别对象数据源在标准数据源模板中找到匹配值最高的标准数据源模板,并形识别对象成数据源和匹配数据源模板之间的表、字段的对应关系;
在连接用户数据源后,所连接的数据源即为被识别的数据源对象,分别获得所述被识别的信息内容:a、数据库系统自带的数据库中和用户数据库、表格、字段相关的信息,b、通过抽样数据源中获取指定数量表格字段中对应的非空记录;
所述识别对象的类别依照识别的先后顺序分为:识别数据源、识别数据源的表格、识别数据源表格的列字段;
为特征识别值设置两个阈值,分别为:默认结果阈值C,否定阈值F,当识别值大于等于默认结果阈值时,判定当前识别值所映射的模型识别对象为对应关系,当识别参数值小于否定阈值时,判定当前识别值所映射的模板和识别对象为非对应关系,具体执行的步骤为:
step1、识别对象依据对应的模板配套的一组特征识别规则计算出识别值T,分别和默认结果阈值C、否定阈值F进行比对,当T值大于C值时,T所对应的模板即和当前识别对象对应,完成所述识别对象的识别计算,进行下个识别对象的运算;
step2、当T值小于否定阈值F时,T所对应的模板归一化识别值P赋值为0,并继续下个模板作为基准的识别计算;
step3,将同一模板所对应的T 进行归一化特征识别相似度算法运算,按照模板所属特征识别相似度算法,依次算出T值,然后进行归一化计算识别值,计算公式如下:
N为模板所属特征识别规则的条数,为根据识别规则计算出的识别值, />为特征识别规则权重调节系数,P为模板所属特征识别规则的识别值归一化后的值;这样识别对象以对应模板进行识别获得数值P(/>、/>、/>、… ),通过循环比对获得P中的最大值为,/> 对应的模板根据设置决定默认识别对象对应的识别结果,或将/>对应的模板中参数和识别对象中的参数罗列到用户判断界面 由用户选择判定来决定对应或非对应关系;
重复以上3步骤的方法,计算所有识别对象,获得识别对象和模板的对应关系;
将数据源模板配套的SQL查询模板内容中,模板的数据源、表格、字段替换为识别对象中对应的名称,运行替换后的SQL查询模板代码获得对象的sql检索运算结果;
所述智能编辑查询模块,在智能编辑查询模块中设置工作计划子模块,工作计划模块设置连接数据库,用户使用SQL查询,将标准模板的数据源、表格、字段名称,替换成识别对象数据源对应的表格及字段名称,形成替换后的SQL查询脚本,用于检索获得数据;
所述用户自定义模块,通过智能分析模块计算后的结果,即将所有模板中参数和识别对象中的参数罗列到用户判断界面 由用户选择选择确认矫正对应或非对应关系;创建编辑脚本模板,以标准数据源模板中的数据库及其表格和列字段的名称,建立操作数据库的脚本模板。
2.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述SQL查询模板的代码以文本格式存取,并允许系统设置中有权限的用户进行修改、增加,删除、存储的编辑,程序运行时将SQL查询模板的代码直接或经过指定参数替换后嵌入到进程运算中。
3.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述特征识别规则相似度算法的代码以文本格式存取,并允许系统设置中有权限的用户进行修改、增加,删除、存储的编辑,程序运行时将特征识别相似度算法的代码嵌入到进程运算中。
4.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述特征识别规则相似度算法中,以特征词及特征词出现次数的特征识别规则的算法执行步骤为:
分别设置固定参数调节特征词的权重参数Q及出现次数的权重条件参数W,计算的公式如下:
T为根据特征识别规则计算出的识别值,s为特征词的个数,Q为特征词权重调节系数,x为特征词出现的次数,W为特征词出现次数权重调节系数。
5.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述特征识别规则相似度算法中,识别用户姓名列字段的特征识别规则算法:连接数据源并获得待识别列字段的识别对象中的S个非空记录N(、/>、/>...),设置百家姓字符集tex,执行的步骤有:
步骤1、使用len函数计算记录N的字符长度,即等于len(/>)、即并求得均值,
均值大于3时识别值T赋值为1,均值小于等于3时,识别值T赋值为均值:
步骤2、当T值小于否定阈值F时,T所对应的模板归一化识别值P赋值为0,并继续下个模板作为基准的识别计算;
步骤3、通过循环计算:在tex中使用instr查找N经过left函数获得的第一个字符;
然后计算出含有百家姓的N元素个数和N元素个数的比值,并将所述比值作为识别值:
当T值大于C值时,T所对应的模板即和当前识别对象对应,完成所述识别对象的识别计算,进行下个识别对象的运算。
6.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述在智能编辑查询模块中设置工作计划子模块,为所述替换后的SQL查询模板代码获得识别对象的sql检索运算结果增设定时计划功能,实时监视程式在触发设定时间时,启动连接数据库、执行所述替换后的SQL查询脚本,进而产生无人工值守定期自动化生成报表的结果。
7.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述在智能编辑查询模块中设置反向智能识别功能,即将文本或图像识别转化成的文字内容,通过特征智能分析,即计算特征关键词、数字、符号位置划分,获得一组于标准数据源模板中表格对应的记录,经用户确认后,保存到所述标准数据源模型表格对应的数据源表格中。
8.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述智能编辑查询模块中,设置统筹运算模块,启动对应同一个模板的多个数据源连接、支持几个不同类型不同渠道的数据源,使用同一SQL查询模板,将标准数据源模板表格、字段名称,替换成目标数据源对应的数据源、表格及字段名称进行检索获得数据,进行合并,根据设置需求决定是否创建零时标准数据源模板的数据源,并将合并后的检索结果添加到所述建零时标准数据源模板的数据源,进行二次统筹检索运算。
9.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述智能编辑查询模块中,设置语音识别命令模块,支持语音命令,识别关键字词,进行智能连接数据源,自动创建查新脚本,获得数据,并传输写入统计图表的数据源部分,被统计图片或报表引用.生成大数据分析统计报表。
10.如权利要求1所述一种基于智能识别的自动化数据管理系统,其特征在于,权利要求1中所述用户自定义模块中,设置智能辅助输入子模块,即用户通过写SQL脚本等方式检索数据时候, 根据智能分析模块计算后的模板和识别对象的对应关系结果,智能推送给当前操作者最大概率所需的目标表格和字段名称,根据概率决定默认或需要经过确认,嵌入到当前脚本或检索结果中。
CN202310131893.2A 2023-02-18 2023-02-18 一种基于智能识别的自动化数据管理系统 Active CN115860697B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310131893.2A CN115860697B (zh) 2023-02-18 2023-02-18 一种基于智能识别的自动化数据管理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310131893.2A CN115860697B (zh) 2023-02-18 2023-02-18 一种基于智能识别的自动化数据管理系统

Publications (2)

Publication Number Publication Date
CN115860697A CN115860697A (zh) 2023-03-28
CN115860697B true CN115860697B (zh) 2023-08-18

Family

ID=85658338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310131893.2A Active CN115860697B (zh) 2023-02-18 2023-02-18 一种基于智能识别的自动化数据管理系统

Country Status (1)

Country Link
CN (1) CN115860697B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549982A (zh) * 2016-01-14 2016-05-04 国网山东省电力公司物资公司 一种基于模型配置的自动化开发平台
CN111444293A (zh) * 2020-04-17 2020-07-24 重庆市勘测院 一种多源异构安全监测数据的报表智能生成方法
CN112579610A (zh) * 2020-12-23 2021-03-30 安徽航天信息有限公司 多数据源结构分析方法、系统、终端设备及存储介质
CN113220782A (zh) * 2021-04-30 2021-08-06 土巴兔集团股份有限公司 多元测试数据源生成方法、装置、设备及介质
CN115203309A (zh) * 2022-09-15 2022-10-18 北京信立方科技发展股份有限公司 网页中标数据结构化方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105549982A (zh) * 2016-01-14 2016-05-04 国网山东省电力公司物资公司 一种基于模型配置的自动化开发平台
CN111444293A (zh) * 2020-04-17 2020-07-24 重庆市勘测院 一种多源异构安全监测数据的报表智能生成方法
CN112579610A (zh) * 2020-12-23 2021-03-30 安徽航天信息有限公司 多数据源结构分析方法、系统、终端设备及存储介质
CN113220782A (zh) * 2021-04-30 2021-08-06 土巴兔集团股份有限公司 多元测试数据源生成方法、装置、设备及介质
CN115203309A (zh) * 2022-09-15 2022-10-18 北京信立方科技发展股份有限公司 网页中标数据结构化方法及装置

Also Published As

Publication number Publication date
CN115860697A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
US20220327137A1 (en) Modifying field definitions to include post-processing instructions
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
US7401095B2 (en) Method and system for composing a query for a database and traversing the database
US7676453B2 (en) Partial query caching
US20030055813A1 (en) Query optimization by sub-plan memoization
KR101083563B1 (ko) 데이터베이스 관리 방법 및 시스템
CN112579852B (zh) 一种互动式网页数据精确采集方法
CN116991869A (zh) 一种基于nlp语言模型自动生成数据库查询语句的方法
CN109471929A (zh) 一种基于图谱匹配进行设备维修记录语义搜索的方法
KR100835290B1 (ko) 문서 분류 시스템 및 문서 분류 방법
JP4247135B2 (ja) 構造化文書記憶方法、構造化文書記憶装置、構造化文書検索方法
CN110990403A (zh) 业务数据的存储方法、系统、计算机设备及存储介质
JP4207438B2 (ja) Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム
CN113190687A (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN111143370B (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
CN114253995B (zh) 数据溯源方法、装置、设备及计算机可读存储介质
CN115860697B (zh) 一种基于智能识别的自动化数据管理系统
CN104462461A (zh) 对表单进行排查空值处理的方法及装置
CN110309214A (zh) 一种指令执行方法及其设备、存储介质、服务器
CN117112408A (zh) 一种生成自动化测试用例脚本方法、装置及介质
CN110008448B (zh) 将SQL代码自动转换为Java代码的方法和装置
CN116450246A (zh) 一种基于状态机的事件流转可配置方法
CN116304726A (zh) 一种基于语义库和知识图谱的物资相似性分析方法
CN110399337B (zh) 基于数据驱动的文件自动化服务方法和系统
CN111695031A (zh) 基于标签的搜索方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant