CN117688319B

CN117688319B - 一种使用ai分析数据库结构的方法

Info

Publication number: CN117688319B
Application number: CN202311496094.1A
Authority: CN
Inventors: 胡明; 付晓彤; 顾丽旺
Original assignee: Shandong Hengyun Information Technology Co ltd
Current assignee: Shandong Hengyun Information Technology Co ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-05-07
Anticipated expiration: 2043-11-10
Also published as: CN117688319A

Abstract

一种使用AI分析数据库结构的方法，涉及数据库技术领域，针对客户需要的多种数据进行准确分析，通过数据类型分析、数据内容分析、多表关联分析和索引关联分析，得到该数据的含义以及所有相关联的数据，方便了用户对于多种复杂数据的快速分析处理。该方法借助百度的分析平台，直接使用已有的数据库与数据关系模型，充分利用了第三方平台的优势，使数据处理更加简易便捷。最后数据库结构分析结果不断迭代，并将计算结果返回AI引擎，使所有变量值进行调优，大大增加了方法的精确率。

Description

一种使用AI分析数据库结构的方法

技术领域

本发明涉及数据库技术领域，具体涉及一种使用AI分析数据库结构的方法。

背景技术

我们目前处于大数据时代数据，数据在计算机内存储，数据的存储结构是数据结构的实现形式，是其在计算机内的表示。而分析数据库结构可以对冗杂的数据进行有用剖析，从而可以将数据资料的功用进行最大的开发，使其作为数据的作用可以尽可能的发挥出来。在数据结构中，一个数据结构是由数据元素依据某种逻辑联系组织起来的。对数据元素间逻辑关系的描述称为数据的逻辑结构。一个逻辑数据结构可以有多种存储结构，且各种存储结构影响数据处理的效率。在商业领域中，大数据分析的目的是把隐藏在数据背后的信息集中和提炼出来，总结出所研究对象的内在规律，帮助管理者进行有效的判断和决策。因此构建分析数据库结构的方法重要且必要，对数据库中的数据进行多层次分析，可以更好的实现发展。

发明内容

本发明为了克服以上技术的不足，提供了一种通过数据结构的分析，数据内容分析，多表关联分析，索引关联分析，对用户输入的信息数据进行整合，并通过AI引擎进行深度分析，最终得出数据库结构分析结果库的使用AI分析数据库结构的方法。

本发明克服其技术问题所采用的技术方案是：

一种使用AI分析数据库结构的方法，包括如下步骤：

a)建立AI大模型库RDB1，用于存储基础数据，AI大模型库RDB1对接百度大模型结构，百度大模型结构包括模型结构、基础数据AIOT语音语义平台、Labelbox在线数据标注平台、BabelNet平台，基础数据的数据类型包括文本型数据test、数字型数据number、日期类数据time、货币类数据currency；

b)通过Labelbox在线数据标注平台对基础数据进行标注，将基础数据和标注同时放入AI大模型库RDB1中存储；

c)构建AI引擎AIS1，AI引擎AIS1由数据类型分析模块、数据内容分析模块、多表关联分析模块、索引关联分析模块构成；

d)通过数据类型分析模块计算得到标注命中概率x_{field_annotation}；

e)通过数据内容分析模块计算得到余弦相似度x_{data_content}；

f)AI引擎AIS1通过多表关联分析模块建立表List_inner和表List_sub；

g)AI引擎AIS1通过索引关联分析模块得到列表List_single和列表List_composite；

h)根据表List_inner、表List_sub、列表List_single、列表List_composite得到表List_weight；

i)计算新的置信度

j)根据新的置信度更新表List_weight，得到最终的数据库结构分析结果库；

k)重复执行步骤d)至步骤j)。

进一步的，步骤c)中AI大模型库RDB1通过端口被AI引擎AIS1调用。

进一步的，步骤d)包括如下步骤：

d-1)根据AI大模型库RDB1中的技术数据的数据类型统计输入数据的命中次数x及没有命中的次数x_other，x＝x_text+x_num+x_time+x_currency，其中x_text为文本型数据test的命中次数、x_num为数字型数据number的命中次数、x_time为日期类数据time的命中次数、x_currency为货币类数据currency的命中次数；

d-2)通过公式

计算得到类型概率x_{field_type}，式中f_text为文本型数据test的预设权重，f_num为数字型数据number的预设权重，f_time为日期类数据time的预设权重，f_currency为货币类数据currency的预设权重，f_other为没有命中的预设权重；d-3)通过基础数据AIOT语音语义平台对输入数据进行语义识别，将输入数据的语义与AI大模型库RDB1中的基础数据的标注进行匹配，通过BabelNet平台将所有匹配到的词语分为模糊词、相似词、近义词，模糊词的匹配次数为x_fuzzy，相似词的命中概率为x_similar，近义词的命中概率为x_near；

d-4)通过公式计算得到模糊词标注命中的置信度式中N为匹配命中的总词数，通过公式/>计算得到相似词标注命中的置信度/>通过公式/>计算得到近义词标注命中的置信度/>

d-5)通过公式计算得到模糊词的命中概率/>通过公式/>计算得到相似词的命中概率/>通过公式/>计算得到近义词的命中概率/>

d-6)通过公式

计算得到标注命中概率x_{field_annotation}。

进一步的，步骤e)包括如下步骤：

e-1)将模糊词、相似词、近义词通过Glove方法，得到向量a和向量b；

e-2)中通过公式x_{data_content}＝a·b/(||a||||b||)计算得到余弦相似度

x_{data_content}，式中||a||为向量a的模长，||b||为向量b的模长。

进一步的，步骤f)包括如下步骤：

f-1)建立一个用于存储需要查询数据的表List1；

f-2)多表关联分析模块通过内连接查询将符合条件的行单独列出，组成新的表List_inner，表List_inner分为两列，第一列为表List1待查询数据，第二列为表List1内连接查询结果；

f-3)将表List1中待查询数据通过匹配搜索得到M个命中结果；

f-4)多表关联分析模块通过嵌套查询将P个数据库的表与List1相连接，得到所有匹配的结果，表List_sub分为两列，第一列为表List1中待查询数据，第二列为表List1嵌套查询的查询结果，查询结果为所有匹配结果。

进一步的，步骤g)包括如下步骤：

g-1)索引关联分析模块通过单值索引得到列表List_single，列表List_single分为两列，第一列为表List1中待查询数据，第二列为表List1中通过单值索引的查询结果；

g-2)索引关联分析模块通过复合索引得到列表List_composite，列表List_composite分为两列，第一列为表List1中待查询数据，第二列为表List1中复合索引的查询结果。

步骤h)中将表List_inner、表List_sub、列表List_single、列表List_composite每个表的查询结果形成一列，该列作为相关表，表List_weight分为五列，第一列为表List1中待查询数据，第二列为类型概率x_{field_type}，第三列为标注命中概率x_{field_annotation}，第四列为相关表，第五列为余弦相似度x_{data_content}。

进一步的，步骤i)中通过公式计算得到新的置信度/>式中/>β为动量项系数，将类型概率x_{field_type}求导得到/>将标注命中概率x_{field_annotation}求导得到/>进一步的，步骤j)包括如下步骤：

j-1)将表List_weight中的第五列的余弦相似度x_{data_content}替换为新的置信度

j-2)将表List_weight中新的置信度小于h的查询结果去除，得到最终的数据库结构分析结果库，0<h<1。

进一步的，步骤k)中重复执行步骤d)至步骤j)i次，直至余弦相似度x_{data_content}大于p，p取值为99％。

本发明的有益效果是：针对客户需要的多种数据进行准确分析，通过数据类型分析、数据内容分析、多表关联分析和索引关联分析，得到该数据的含义以及所有相关联的数据，方便了用户对于多种复杂数据的快速分析处理。该方法借助百度的分析平台，直接使用已有的数据库与数据关系模型，充分利用了第三方平台的优势，使数据处理更加简易便捷。最后数据库结构分析结果不断迭代，并将计算结果返回AI引擎，使所有变量值进行调优，大大增加了方法的精确率。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面结合附图1对本发明做进一步说明。

如附图1所示，一种使用AI分析数据库结构的方法，包括如下步骤：

a)建立AI大模型库RDB1，用于存储基础数据，AI大模型库RDB1对接百度大模型结构，百度大模型是由多个模型结构、基础数据、数据关联模型和数据处理方法组合形成的模型，其中百度大模型结构包括模型结构、基础数据AIOT语音语义平台、Labelbox在线数据标注平台、BabelNet平台，基础数据的数据类型包括文本型数据test、数字型数据number、日期类数据time、货币类数据currency。语义识别功能通过百度AIOT语音语义平台，经过混合机器人的百度语义解析(UNIT)预置功能和第三方语义解析功能，实现语义。Labelbox在线数据标注平台可以方便使用者针对全部数据进行标注，方便后续使用标注信息进行匹配搜索。BabelNet是一个多语言的自然语言处理平台，可以用来判断不同语言词语之间的语义关系。它基于网络链接和机器学习的技术，将不同语言的词汇组织成一个网络结构，可以分析词语在不同语言中的语义关系。

GloVe通过构建共现矩阵来学习词向量。共现矩阵是指词文档中单词共同出现的矩阵，用于发现主题和用于主题模型。在GloVe中，共现矩阵是通过对单词在文档中共同出现的频率进行统计和计算得到的。然后，GloVe使用一个预先定义的词表，将每个单词映射到一个向量。这个向量的每个维度对应于词表中一个单词的词频比。使用GloVe方法通过训练语料库学习单词之间的线性关系，从而将每个词表示为一个向量。

b)通过Labelbox在线数据标注平台对基础数据进行标注，将基础数据和标注同时放入AI大模型库RDB1中存储。

c)构建AI引擎AIS1，AI引擎AIS1由数据类型分析模块、数据内容分析模块、多表关联分析模块、索引关联分析模块构成。AI大模型库通过端口被AI引擎调用，并接收AI引擎的计算结果，进行调整。

d)通过数据类型分析模块计算得到标注命中概率x_{field_annotation}。

e)通过数据内容分析模块计算得到余弦相似度x_{data_content}。

f)AI引擎AIS1通过多表关联分析模块建立表List_inner和表List_sub。

g)AI引擎AIS1通过索引关联分析模块得到列表List_single和列表List_composite。

h)根据表List_inner、表List_sub、列表List_single、列表List_composite得到表List_weight。

i)计算新的置信度

j)根据新的置信度更新表List_weight，得到最终的数据库结构分析结果库。

k)重复执行步骤d)至步骤j)。

通过对输入数据的数据类型分析、数据内容分析、多表关联分析和索引关联分析，对用户输入的信息数据进行整合，并通过AI引擎进行深度分析，最终得出数据库结构分析结果库的一个模型。

在本发明的一个实施例中，步骤c)中AI大模型库RDB1通过端口被AI引擎AIS1调用。

字段类型分析利用AI大模型库中的数据库，将数据按照数据类型分别归类统计，得到数据类型的概率值，最后将数据传递给结构权重分析函数。因此在本发明的一个实施例中，步骤d)包括如下步骤：

d-1)根据AI大模型库RDB1中的技术数据的数据类型统计输入数据的命中次数x及没有命中的次数x_other，x＝x_text+x_num+x_time+x_currency，其中x_text为文本型数据test的命中次数、x_num为数字型数据number的命中次数、x_time为日期类数据time的命中次数、x_currency为货币类数据currency的命中次数。

d-2)通过公式

计算得到类型概率x_{field_type}，式中f_text为文本型数据test的预设权重，f_num为数字型数据number的预设权重，f_time为日期类数据time的预设权重，f_currency为货币类数据currency的预设权重，f_other为没有命中的预设权重，初始值由客户自行设置，后续通过大模型调优继续优化。

d-3)通过基础数据AIOT语音语义平台对输入数据进行语义识别，将输入数据的语义与AI大模型库RDB1中的基础数据的标注进行匹配，通过BabelNet平台将所有匹配到的词语分为模糊词、相似词、近义词，每个类型的匹配次数初始值为0，命中则对其统计，将匹配次数加1，并将信息传递给结构权重分析函数中，模糊词的匹配次数为x_fuzzy，相似词的命中概率为x_similar，近义词的命中概率为x_near。

d-4)通过公式计算得到模糊词标注命中的置信度式中N为匹配命中的总词数，通过公式/>计算得到相似词标注命中的置信度/>通过公式/>计算得到近义词标注命中的置信度/>d-5)通过公式/>计算得到模糊词的命中概率/>通过公式/>计算得到相似词的命中概率/>通过公式/>计算得到近义词的命中概率/>d-6)通过公式

计算得到标注命中概率x_{field_annotation}。

利用AIOT语音语义平台，对从外部输入到AI大模型的数据的文字内容进行识别，并通过语义识别技术进行分析得到语义，整合模糊词、相似词、近义词与AI大模型里的数据库进行比对，并进行记录，最后将信息传递给结构权重分析函数中。因此在本发明的一个实施例中，步骤e)包括如下步骤：

e-1)将模糊词、相似词、近义词通过Glove方法，得到向量a和向量b。

e-2)中通过公式x_{data_content}＝a·b/(||a|| ||b||)计算得到余弦相似度x_{data_content}，式中||a||为向量a的模长，||b||为向量b的模长。

在本发明的一个实施例中，步骤f)包括如下步骤：

f-1)建立一个用于存储需要查询数据的表List1。

f-2)多表关联分析模块通过内连接查询将符合条件的行单独列出，组成新的表List_inner，表List_inner分为两列，第一列为表List1待查询数据，第二列为表List1内连接查询结果。内连接查询结果就是将List1中的待检查数据通过搜素匹配，搜索到多个命中结果，并将几个数据连接起来。

f-3)将表List1中待查询数据通过匹配搜索得到M个命中结果。

f-4)使用子查询和嵌套查询，可以将一个查询的结果作为另一个查询的输入。嵌套查询是指一个查询语句块中嵌套另一个查询语句块的情况，其中外层查询也称为父查询或主查询，内层查询也称为子查询。使用子查询，在另一个查询语句块(父查询)中嵌套查询语句块，即内层查询。多表关联分析模块通过嵌套查询的将P个数据库的表与List1相连接，得到所有匹配的结果，表List_sub分为两列，第一列为表List1中待查询数据，第二列为表List1嵌套查询的查询结果，查询结果为所有匹配结果。

在本发明的一个实施例中，步骤g)包括如下步骤：

g-1)索引关联分析模块通过单值索引得到列表List_single，列表List_single分为两列，第一列为表List1中待查询数据，第二列为表List1中通过单值索引的查询结果。单值索引针对经常作为查询条件的字段添加索引。进行前需要去除重复的值，以保证索引列的值都是唯一的。单值索引可以用于提高查询效率，同时也可以用于唯一标识表中的每一行数据。

g-2)索引关联分析模块通过复合索引得到列表List_composite，列表List_composite分为两列，第一列为表List1中待查询数据，第二列为表List1中复合索引的查询结果。需要查询多个列的数据是使用复合索引。

在本发明的一个实施例中，步骤h)中将表List_inner、表List_sub、列表List_single、列表List_composite每个表的查询结果形成一列，该列作为相关表，表List_weight分为五列，第一列为表List1中待查询数据，第二列为类型概率x_{field_type}，第三列为标注命中概率x_{field_annotation}，第四列为相关表，第五列为余弦相似度x_{data_content}。

在本发明的一个实施例中，步骤i)中通过公式计算得到新的置信度/>式中/>β为动量项系数，将类型概率x_{field_type}求导得到/>将标注命中概率x_{field_annotation}求导得到/>在本发明的一个实施例中，步骤j)包括如下步骤：

在本发明的一个实施例中，步骤k)中重复执行步骤d)至步骤j)i次，直至余弦相似度x_{data_content}大于p，p取值为99％。次计算结束之后，使新计算的数据覆盖原计算的结果，重新进行保存。优选的，每次计算结束之后，将数据库结构分析结果返回给AI引擎，方便AI引擎对全部计算方法中的变量值进行调优。最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种使用AI分析数据库结构的方法，其特征在于，包括如下步骤：

e)通过数据内容分析模块计算得到余弦相似度x_{data_content}；

i)计算新的置信度

k)重复执行步骤d)至步骤j)；

步骤f)包括如下步骤：

f-1)建立一个用于存储需要查询数据的表List1；

f-3)将表List1中待查询数据通过匹配搜索得到M个命中结果；

f-4)多表关联分析模块通过嵌套查询将P个数据库的表与List1相连接，得到所有匹配的结果，表List_sub分为两列，第一列为表List1中待查询数据，第二列为表List1嵌套查询的查询结果，查询结果为所有匹配结果；

步骤g)包括如下步骤：

g-2)索引关联分析模块通过复合索引得到列表List_composite，列表List_composite分为两列，第一列为表List1中待查询数据，第二列为表List1中复合索引的查询结果；

2.根据权利要求1所述的使用AI分析数据库结构的方法，其特征在于：步骤c)中AI大模型库RDB1通过端口被AI引擎AIS1调用。

3.根据权利要求1所述的使用AI分析数据库结构的方法，其特征在于：步骤

d)包括如下步骤：

d-1)根据AI大模型库RDB1中的技术数据的数据类型统计输入数据的命中次数x及没有命中的次数x_other，x＝x_text+x_num+x_time+x_currency，其中x_text为文本型数据test的命中次数、x_num为数字型数据number的命中次数、x_time为日期类数据time的命中次数、x_currency为货币类数据currency的命中次数；d-2)通过公式

d-5)通过公式计算得到模糊词的命中概率通过公式/>计算得到相似词的命中概率/>通过公式/>计算得到近义词的命中概率/>

d-6)通过公式

计算得到标注命中概率x_{field_annotation}。

4.根据权利要求3所述的使用AI分析数据库结构的方法，其特征在于，步骤

e)包括如下步骤：

e-2)中通过公式x_{data_content}＝a·b/(||a||||b||)计算得到余弦相似度x_{data_content}，式中||a||为向量a的模长，||b||为向量b的模长。

5.根据权利要求4所述的使用AI分析数据库结构的方法，其特征在于：步骤i)中通过公式计算得到新的置信度/>式中β为动量项系数，将类型概率x_{field_type}求导得到/>将标注命中概率x_{field_annotation}求导得到/>

6.根据权利要求1所述的使用AI分析数据库结构的方法，其特征在于，步骤

j)包括如下步骤：

7.根据权利要求1所述的使用AI分析数据库结构的方法，其特征在于：步骤k)中重复执行步骤d)至步骤j)i次，直至余弦相似度x_{data_content}大于p，p取值为99％。