CN108595693A

CN108595693A - 一种枸杞数据整理系统

Info

Publication number: CN108595693A
Application number: CN201810432805.1A
Authority: CN
Inventors: 怀化
Original assignee: Bozhou Traditional Chinese Medicine Commodity Trading Center Co Ltd
Current assignee: Bozhou Traditional Chinese Medicine Commodity Trading Center Co Ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-09-28

Abstract

一种枸杞数据整理系统，步骤一，获取枸杞信息数据；所述枸杞信息数据包括数值型数据和非数值型数据；步骤二，根据所述数值型数据和非数值型数据，检索包含有所述枸杞信息数据的存档，选择与所述枸杞信息数据中的数值型数据和非数值型数据相匹配的存档；将所述匹配结果填充到数据库中；步骤三，若否，利用所述枸杞信息数据对所述数据库进行增补，形成新的存档。优点在于：提高了识别的速度，并且修正了数据库中枸杞信息所包含的错误，例如修改数据库中的错别字，提高了识别的速度和准确率。

Description

一种枸杞数据整理系统

技术领域

本发明涉及一种识别效率高，后续管理方便且能排除重复数据的枸杞数据整理系统。

背景技术

现有的枸杞的数据量正以成倍的速度增长，数据库的容量已经达到了上万亿字节的水平，这些数据在很大程度上都是闲置在数据库中的冗余数据，在这些大量数据的背后隐藏了很多具有决策意义的信息，要想对这些看似“无用的”数据进行查询、检索、提取然后转换成有用的辅助决策信息就显得尤为重要。

在大数据时代，企业内部越来越多的业务需要使用大数据技术来分析业务、支撑业务，但是不同的业务团队在分析业务的过程中有很多相似的业务逻辑，加上各个业务团队之间沟通不及时，导致大规模离线数据处理平台上有很多相似数据，并且随着业务的发展，这种相似数据会越来越多，这不但浪费了大规模离线数据处理平台的存储资源，而且也浪费了大规模离线数据处理平台的计算资源。

现有技术中，一般都是开发人员在看到别的业务团队的相似数据后，才发现有重复数据。或者正好有开发人员对两边的业务都比较熟悉，所以了解业务两边的重复数据，平台层面并没有一个很好的方法来解决这个问题。

但是，这种方式存在如下问题：需要人工去熟悉所有的数据，才能完全识别出大规模数据处理平台上的重复数据；当大规模数据处理平台上的数据增长到一定级别以后，人工识别已经不可。

随着信息处理技术的不断发展，各行各业已建立了很多计算机信息系统，并积累了大量的数据。然而随着企业数据量的急剧扩大，以及新应用的不断问世，数据的来源愈加广泛，数据的质量问题也日益凸显；高质量的数据可以使企业保持竞争力并在经济动荡时期立于不败之地；因此对于各企业而言，如何提高数据的使用效率，保证所使用的数据是高质量的、正确的、完整的，以便快速准确的识别数据对应的实体，已成为企业信息化进程中一个必不可少的环节。

发明内容

本发明的目的在于提供一种识别效率高，后续管理方便且能排除重复数据的枸杞数据整理系统。

为解决上述技术问题，本发明通过下述技术方案得以解决：一种枸杞数据整理系统：

步骤一，获取枸杞信息数据；所述枸杞信息数据包括数值型数据和非数值型数据；

步骤二，根据所述数值型数据和非数值型数据，检索包含有所述枸杞信息数据的存档，选择与所述枸杞信息数据中的数值型数据和非数值型数据相匹配的存档；将所述匹配结果填充到数据库中；

步骤三，若否，利用所述枸杞信息数据对所述数据库进行增补，形成新的存档。

进一步的，数值型数据：设置变动系数，以数值进行数据库填充。

进一步的，数值型数据为枸杞质量数据及营养成分数据。

进一步的，非数值型数据为确定性数据、非确定性数据、模糊数据。

进一步的，确定性数据为：产地、品牌、主体名称。

进一步的，非确定性数据为：规划、政策、评价，并设置“网络频度热词”，填写入数据库。

进一步的，模糊数据为：自定义评价体系评价得分。

进一步的，步骤一中：获取数值型数据:通过对抽样枸杞的检测获取枸杞的质量及营养状况，用来定义枸杞的品质，枸杞的质量包括：颜色、肉质、颗粒大小、形状、气味、口味；枸杞的营养包括：枸杞多糖、甜菜碱、枸杞色素。

进一步的，步骤一中：非数值型数据包括枸杞的行业材料文件，对枸杞的行业材料文件进行文件类型检测及转换，确定出有效类型文件，使得到的文件可以按统一方式处理；对所述效类型文件进行检测，确定出有效数据文件；运用预设的数据库从所述有效数据文件中识别出有效数据文件的枸杞的非数值型数据；所述非数值型数据相互之间形成关联属性数据，便于后续查询及使用。

进一步的，还包括重复数据识别：获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；根据所述数据相似度数值，识别重复数据。

本发明的有益之处在于：一是通过数据库的自我学习过程，即在用户不断的输入枸杞信息过程中，数据库在不断的扩充自身所包含的枸杞信息的数量，增加新的枸杞信息，在下一次的枸杞数据的识别过程中会自动调用枸杞信息，不需要重复输入，提高了识别的速度，并且修正了数据库中枸杞信息所包含的错误，例如修改数据库中的错别字，提高了识别的速度和准确率；二是实现重复数据的自动识别，减少数据库重复的数据的存储，提高数据库的运行速度。

附图说明

图1为本发明的步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图1，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

实施例1，参照图1，一种枸杞数据整理系统，

一种枸杞数据整理系统，设置变动系数，以数值进行数据库填充。

一种枸杞数据整理系统，数值型数据为枸杞质量数据及营养成分数据。

一种枸杞数据整理系统，非数值型数据为确定性数据、非确定性数据、模糊数据。

一种枸杞数据整理系统，确定性数据为：产地、品牌、主体名称。

一种枸杞数据整理系统，非确定性数据为：规划、政策、评价，并设置“网络频度热词”，填写入数据库。

一种枸杞数据整理系统，模糊数据为：自定义评价体系评价得分。

一种枸杞数据整理系统，步骤一中：获取数值型数据:通过对抽样枸杞的检测获取枸杞的质量及营养状况，用来定义枸杞的品质，枸杞的质量包括：颜色、肉质、颗粒大小、形状、气味、口味；枸杞的营养包括：枸杞多糖、甜菜碱、枸杞色素。

一种枸杞数据整理系统，通过数据库的自我学习过程，即在用户不断的输入枸杞信息过程中，数据库在不断的扩充自身所包含的枸杞信息的数量，增加新的枸杞信息，在下一次的枸杞数据的识别过程中会自动调用枸杞信息，不需要重复输入，提高了识别的速度，并且修正了数据库中枸杞信息所包含的错误，例如修改数据库中的错别字，提高了识别的速度和准确率

实施例2，一种枸杞数据整理系统，

一种枸杞数据整理系统，还包括重复数据识别：获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；根据所述数据相似度数值，识别重复数据。

一种枸杞数据整理系统，实现重复数据的自动识别，减少数据库重复的数据的存储，提高数据库的运行速度。

一种枸杞数据整理系统，其中，待识别的两组数据可以分别记录在两张表内，相应的，特性相似度数值是对两个表的特征进行相似度计算得到的。

一种枸杞数据整理系统，待识别的两组数据分别记录在两张表内，所述相似度特征数值包括如下项中的至少一项：表血缘方面的相似度数值，表语义方面的相似度数值，表内容方面的相似度数值。

一种枸杞数据整理系统，所述表血缘方面的相似度数值包括如下项中的至少一项：表血缘相似度数值，字段血缘相似度数值；或者，表语义方面的相似度数值包括如下项中的至少一项：表结构相似度数值，表名相似度数值；或者，表内容方面的相似度数值包括如下项中的至少一项：表记录数相似度数值，表分区大小相似度数值。

一种枸杞数据整理系统，其中，不同情况下需要的相似度特征数值可以是不同的。可以根据当前情况获取相应的上述的六种相似度特征数值中的至少一项。

一种枸杞数据整理系统，在当前情况下，可以确定当前需要的相似度特征数值，之后可以在线计算需要的相似度特征数值，或者，从已经计算得到的上述六种相似度特征数值中获取当前需要的相似度特征数值。

一种枸杞数据整理系统，所述获取当前情况下需要的相似度特征数值，包括：如果当前情况是进行上下游表比较，则获取如下的相似度特征数值：表结构相似度数值，表名相似度数值，表记录数相似度数值，以及，表分区大小相似度数值；或者，如果当前情况是进行相似表比较，则获取如下的相似度特征数值：表血缘相似度数值，字段血缘相似度数值，表结构相似度数值，表名相似度数值，表记录数相似度数值，以及，表分区大小相似度数值；或者，如果当前情况是进行表来源相似比较，则获取如下的相似度特征数值：表血缘相似度数值，字段血缘相似度数值，表结构相似度数值，以及，表名相似度数值。

实施例3，一种枸杞数据整理系统，

一种枸杞数据整理系统，步骤一中：非数值型数据包括枸杞的行业材料文件，对枸杞的行业材料文件进行文件类型检测及转换，确定出有效类型文件，使得到的文件可以按统一方式处理；对所述效类型文件进行检测，确定出有效数据文件，以提高后续识别及管理的效率；运用预设的数据库从所述有效数据文件中识别出有效数据文件的枸杞的非数值型数据，实现材料数据的准确识别；所述非数值型数据相互之间形成关联属性数据，便于后续查询及使用，有助于提高查询及使用的效率及精确性。

一种枸杞数据整理系统，检测接收到的枸杞的行业材料文件的文件类型是否属于预设文件类型，若是，则确定其为有效类型文件：若否，则将其转换为预设文件类型，以形成有效类型文件；检测所述有效类型文件的内容，确定其是否存在三列以上非空数据，若是，则确定其为有效数据文件；读取所述有效数据文件内容中的数据，将所述数据与预设的数据库中的名称进行匹配，得出所述有效数据文件的名称，并标记出其在所述有效数据文件中的位置；从所述数据库中调取与所述有效数据文件的名称相应的属性单位，根据所述属性单位，读取所述有效数据文件中名称的位置之后的数据，得出所述有效数据文件的属性值；基于所述有效数据文件的名称和属性值，形成关联属性数据并保存其中，读取所述有效数据文件内容中的数据之前还包括以下步骤：检测所述有效类型文件中表头的位置，并对所述表头的内容进行词义分析，确认出表头对应的数据列所代表的信息：所述读取所述有效数据文件内容中的数据包括：根据所述数据列所代表的信息，相应从所述数据列中读取所需的数据。

一种枸杞数据整理系统，从所述数据列中读取所需的数据之后，还包括以下步骤：通过字符识别将所述数据列中的无效数据进行清洗：将所述数据与预设的数据库中的名称进行匹配的步骤具体为：将所述数据中的有效数据与预设的料数据库中的名称进行匹配。

一种枸杞数据整理系统，通过字符识别将所述数据列中的无效数据进行清洗的步骤具体包括：通过字符识别，对所述数据列中的空行或无效字符做相应的清除处理，并相应进行全角半角转换。

一种枸杞数据整理系统，检测所述有效类型文件中表头的位置之后，还包括以下步骤：检测是否存在合并单元格：若是，则判断所述合并单元格是否为规格列：若是，则对其进行规范拆分。

一种枸杞数据整理系统，对所述表头的内容进行词义分析之后，还包括以下步骤：基于所述词义分析，确定是否存在多个价格表头：若是，则根据预设的优先顺序选取对应的数据列中的优选价格数据；所述得出所述有效数据文件的属性值的步骤中，将所述优选价格数据作为所述有效数据文件在价格方面的材料属性值。

一种枸杞数据整理系统，检测所述有效类型文件中表头的位置的步骤具体为：检测所述表头所处的列数及行数，以确定所述表头的位置。

一种枸杞数据整理系统，通过数据库的自我学习过程，即在用户不断的输入枸杞信息过程中，数据库在不断的扩充自身所包含的枸杞信息的数量，增加新的枸杞信息，在下一次的枸杞数据的识别过程中会自动调用枸杞信息，不需要重复输入，提高了识别的速度，并且修正了数据库中枸杞信息所包含的错误，例如修改数据库中的错别字，提高了识别的速度和准确率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明，因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

Claims

1.一种枸杞数据整理系统，其特征在于：

步骤一，获取枸杞信息数据；所述枸杞信息数据包括数值型数据和非数值型数据，非数值型数据包括枸杞的行业材料文件，对枸杞的行业材料文件进行文件类型检测及转换，确定出有效类型文件，使得到的文件可以按统一方式处理；对所述效类型文件进行检测，确定出有效数据文件；运用预设的数据库从所述有效数据文件中识别出有效数据文件的枸杞的非数值型数据；所述非数值型数据相互之间形成关联属性数据，便于后续查询及使用；

2.根据权利要求1所述的一种枸杞数据整理系统，其特征在于：数值型数据：设置变动系数，以数值进行数据库填充。

3.根据权利要求2所述的一种枸杞数据整理系统，其特征在于：数值型数据为枸杞质量数据及营养成分数据。

4.根据权利要求1所述的一种枸杞数据整理系统，其特征在于：非数值型数据为确定性数据、非确定性数据、模糊数据。

5.根据权利要求1所述的一种枸杞数据整理系统，其特征在于：确定性数据为：产地、品牌、主体名称。

6.根据权利要求1所述的一种枸杞数据整理系统，其特征在于：非确定性数据为：规划、政策、评价，并设置“网络频度热词”，填写入数据库。

7.根据权利要求1所述的一种枸杞数据整理系统，其特征在于：模糊数据为：自定义评价体系评价得分。

8.根据权利要求1所述的一种枸杞数据整理系统，其特征在于：步骤一中：获取数值型数据:通过对抽样枸杞的检测获取枸杞的质量及营养状况，用来定义枸杞的品质，枸杞的质量包括：颜色、肉质、颗粒大小、形状、气味、口味；枸杞的营养包括：枸杞多糖、甜菜碱、枸杞色素。

9.根据权利要求1所述的一种枸杞数据整理系统，其特征在于：还包括重复数据识别：获取当前情况下需要的相似度特征数值，所述相似度特征数值是对待识别的两组数据的对应特征进行相似度计算得到的；将所述相似度特征数值作为预设的相似度模型的参数，计算所述待识别的两组数据之间的数据相似度数值；根据所述数据相似度数值，识别重复数据。