CN115859944B

CN115859944B - 基于大数据的计算机数据挖掘方法

Info

Publication number: CN115859944B
Application number: CN202310113188.XA
Authority: CN
Inventors: 尹大伟; 杨霞
Original assignee: Laiwu Vocational and Technical College
Current assignee: Laiwu Vocational and Technical College
Priority date: 2023-02-15
Filing date: 2023-02-15
Publication date: 2023-10-17
Anticipated expiration: 2043-02-15
Also published as: CN115859944A

Abstract

本发明涉及一种基于大数据的计算机数据挖掘方法，涉及数据挖掘技术领域。包括以下步骤：获取描述产品的文本信息；根据文本信息提取产品的多个属性；通过计算机获取描述该产品的待挖掘文本信息，形成待挖掘大数据；获取每个属性的依赖度；对每个属性的依赖度进行归一化获取归一化后的依赖度；获取每个属性的加权信息熵增益值；根据每个属性的加权信息熵增益值构建产品属性的决策树，根据决策树对待挖掘大数据进行提纯。本发明通过产品的属性以及收集到的对待挖掘大数据，利用加权信息熵增益值对待挖掘大数据进行提纯，再通过提纯后数据匹配来实现产品营销数据挖掘的精准化。

Description

基于大数据的计算机数据挖掘方法

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于大数据的计算机数据挖掘方法。

背景技术

随着通信的发展，各行各业的运行模式与大数据紧密相关，例如产品营销行业，通过对大数据的数据挖掘来获取目标产品信息，并通过对象匹配进行更好的产品营销。大数据的挖掘技术主要分为数据的收集、数据的预处理、数据的挖掘以及进行决策。

常规的产品营销对于描述产品的文本信息大数据挖掘过程中一般使用基于信息熵增益值的决策树算法进行数据的提纯以及数据特征的匹配，但是利用基于信息熵增益值的决策树进行大数据的提纯时，各种描述产品的主要属性进行子集划分的时候，每个产品属性的权值相等，即未考虑到产品各属性之间的相互影响，而对于产品营销时产品的某些属性有着不同程度的相互影响以及相互依赖的作用，不考虑产品各属性之间的相互影响进行决策树的生成以及利用决策树对数据进行提纯时，容易使数据提纯的不准确，造成产品营销时目标客户的选择不精准，并导致成本的增加。

发明内容

为了解决上述技术问题的不足，本发明提供一种基于大数据的计算机数据挖掘方法，该方法通过产品的属性以及收集到的对待挖掘大数据，利用加权信息熵增益值对待挖掘大数据进行提纯，再通过提纯后数据匹配来实现产品营销数据挖掘的精准化。

本发明的一种基于大数据的计算机数据挖掘方法，包括以下步骤：

获取描述产品的文本信息；根据文本信息提取产品的多个属性；

通过计算机获取描述该产品的待挖掘文本信息，形成待挖掘大数据；

根据待挖掘大数据中每个属性出现的次数，及与其余属性之间的距离获取每个属性的综合影响程度；

根据待挖掘大数据中任一属性的综合影响程度，及出现该属性的置信度，获取待挖掘大数据中任一属性的依赖度，依次获取每个属性的依赖度；

对每个属性的依赖度进行归一化获取归一化后的依赖度；

根据待挖掘大数据和每个属性与其对应归一化后的依赖度，获取每个属性的加权信息熵增益值；

根据每个属性的加权信息熵增益值构建产品属性的决策树，根据决策树对待挖掘大数据进行提纯。

在一实施例中，所述每个属性的综合影响程度是按照以下步骤获取：

根据待挖掘大数据中第个属性出现的次数，及第/>个属性第/>次出现时距离首次出现的第/>个属性的距离获取第/>个属性的正影响程度；

根据待挖掘大数据中第个属性出现的次数，和第/>个属性第/>次出现时距离首次出现的第/>个属性的距离，及第/>个属性出现的次数，获取第/>个属性的负影响程度；

根据第个属性的正影响程度和负影响程度获取待挖掘大数据中第/>个属性的综合影响程度。

在一实施例中，所述第个属性的正影响程度的计算公式如下：

式中，表示第/>个属性的正影响程度；/>表示第/>个属性对于第/>个属性的正影响程度；/>表示属性的总数量；

其中，第个属性对于第/>个属性的正影响程度计算公式如下：

式中，表示第/>个属性第/>次出现时距离首次出现的第/>个属性的距离；/>为第/>个属性总体出现次数；/>表示第/>个属性出现的次数。

在一实施例中，所述第个属性的负影响程度的计算公式如下：

式中，表示第/>个属性的负影响程度；/>表示第/>个属性对于第/>个属性的负影响程度；/>表示属性的总数量；

其中，第个属性对于第/>个属性的负影响程度的计算公式如下：

式中，表示第/>个属性第/>次出现时距离首次出现的第/>个属性的距离；/>为第/>个属性第/>次出现时距离首次出现的第/>个属性的距离；

为第/>个属性总体出现次数；/>表示第/>个属性出现的次数；/>为第/>个属性出现的次数；/>表示非第/>个属性和非第/>个属性的其余属性的总数。

在一实施例中，所述每个属性的依赖度是按照以下步骤获取：

根据待挖掘大数据中第个属性的综合影响程度，及在待挖掘大数据中出现第/>个属性时出现第/>个属性的置信度获取待挖掘大数据中第/>个属性的依赖度。

在一实施例中，所述第个属性的依赖度计算公式如下：

式中，表示第/>个属性的依赖度；/>表示待挖掘大数据中出现第/>个属性时出现第/>个属性的置信度；/>表示属性的总数量；/>表示第/>个属性的综合影响程度。

在一实施例中，所述形成待挖掘大数据的过程中还按照以下步骤进行筛选：

根据待挖掘大数据中的待挖掘文本信息和产品的文本信息获取每个待挖掘文本信息与文本信息的亲近度；将与文本信息的亲近度小于等于零的待挖掘文本信息进行清洗获取清洗后的待挖掘大数据；

根据产品的多个属性对清洗后的待挖掘大数据中的待挖掘文本信息进行筛选，获取与多个属性相同的待挖掘文本信息，形成筛选后的待挖掘大数据。

在一实施例中，所述每个属性的加权信息熵增益值计算公式如下：

式中，表示第/>个属性的加权信息熵增益值；/>表示待挖掘大数据的信息熵；/>表示利用第/>个属性划分待挖掘大数据后的信息熵；/>表示第/>个属性归一化后的依赖度；/>表示属性的总数量。

在一实施例中，所述与其余属性之间的距离是文本中字符间的距离。

本发明的有益效果是：

本发明提供的一种基于大数据的计算机数据挖掘方法，该方法基于收集的待挖掘大数据，通过对产品所描述的文本信息提取有关目标产品的属性对待挖掘大数据进行分析，获取每个属性对应的一个关于信息熵增益的值的权值，其中，通过计算每个属性的综合影响程度及依赖度，使得该权值的设计包含了产品属性之间的相互影响作用，并对不同属性之间的影响程度和依赖度进行量化，再通过所有属性的加权信息熵的增益值获得有关所有产品属性的决策树，利用决策树对待挖掘大数据进行提纯。使得在对产品营销的大数据挖掘中数据提纯的效果更加具体精确。

本发明主要通过中文对目标产品所描述的文本信息提取有关目标产品的属性，如，目标产品的型号、材质、体积、规格、颜色等属性，可见属性主要是描述目标产品的相关的形容词和名词。通过提取的属性对有关目标产品的文本信息大数据进行挖掘，挖掘出也目标产品所描述的文本信息最相关的文本信息，再通过挖掘出的文本信息定位获取潜在的营销客户。

本发明通过产品的属性以及收集到的对待挖掘大数据，利用加权信息熵增益值对待挖掘大数据进行提纯，在通过提纯后数据匹配来实现产品营销数据挖掘的精准化。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于大数据的计算机数据挖掘方法的实施例总体步骤的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明针对的情景是：在对产品营销的过程中利用基于信息熵的数据挖掘技术进行文本信息大数据的挖掘时，因为不同重要程度的数据特征的信息熵增益权值的相等从而使得数据提纯和特征匹配的不准确，使得在进行产品营销时目标客户的选择不精准造成成本的增加。因此，本发明通过产品的属性以及收集到的对待挖掘大数据，利用加权信息熵增益值对待挖掘大数据进行提纯，再通过提纯后数据匹配来实现产品营销数据挖掘的精准化。

本发明主要通过中文对目标产品所描述的文本信息提取有关目标产品的属性，如，目标产品的型号、材质、体积、规格、颜色等属性，可见属性主要是描述目标产品的相关的形容词和名词。再通过提取的属性对有关目标产品的文本信息大数据进行挖掘，挖掘出也目标产品所描述的文本信息最相关的文本信息，再通过挖掘出的文本信息定位获取潜在的营销客户。

本发明提供的一种基于大数据的计算机数据挖掘方法，参见图1所示，该方法包括：

S1、获取描述产品的文本信息；

根据文本信息提取产品的多个属性；

在本实施例中，选取所要挖掘的产品信息，就要先确定描述该产品的文本信息，以及提取该产品的多个属性，具体产品属性提取的过程如下：

从描述产品的文本信息中提取属性，文本信息中的属性为对产品进行描述的文本，以形容词和名词为主，所以对产品的文本信息中的形容词和名词进行提取，提取方式为利用人工进行标注，标注方式为对形容词和名词标记为“1”，其余文本信息标记为“0”。而后对所有的标记为“1”的文本信息进行提取即可，提取出的文本信息即为产品的属性。

在本实施例中，待挖掘的大数据的收集，其收集来源为已经投放含有本产品文本描述信息广告的所有网站或app的待挖掘文本信息。

S2、对待挖掘大数据进行筛选；

对形成待挖掘大数据的过程中还按照以下步骤进行筛选：

需要说明的是，计算亲近度对待挖掘大数据进行初步清洗，利用产品的属性对初步清洗的待挖掘大数据进行二次清洗。大数据的清洗是为在诸多的文本大数据信息中获得模糊的与本产品相关的数据。

在本实施例中，亲近度以第条待挖掘文本信息为例，其亲近度/>的计算方式如下所示：

式中，表示第/>条待挖掘文本信息的总长度；/>表示第/>条待挖掘文本信息与产品的文本信息中相同的文本的个数；/>表示第/>条待挖掘文本信息中与产品的文本信息中同音字的个数；/>表示第/>条待挖掘文本信息与产品的文本信息中同音字的但非本产品相关的专属名词的文本数据个数；/>表示产品的文本信息的长度。

通过计算亲近度，主要是利用待挖掘文本信息中与商品描述产品的文本信息相同的文本信息的个数以及同音字的个数作为产品的亲近度的计算，其优点在于对于大数据的筛选挖掘中对于数据处理计算量的精简，所获得数据并非绝对与产品的文本信息有关的数据，为大数据分析的模糊集数据。

需要说明的是，从大数据中进行有关于描述产品的文本信息的挖掘首先应对所获得的数据中相同的文本数据进行匹配，而考虑到输入法以及输入习惯产生的同音字情况，故结合同音字进行匹配，而相应的同音字设有权值，当同音字大幅度出现时权重大于相同文本，反之则反。而后以相同以及同音文本在描述产品的文本信息中的占比作为整体权值，使得相同以及同音文本在描述产品的文本信息中的占比进行放大缩小，占比越大，亲近度越高，占比越小，亲近度越小。

利用上述计算方式可获得所有待挖掘文本信息的亲近度，而后利用亲近度进行待挖掘大数据的清洗，待挖掘大数据的清洗为对所有亲近度小于等于零的待挖掘文本信息进行抛弃，认为其为无用信息。

至此，完成待挖掘大数据的初次清洗。

在本实施例中，根据产品的多个属性对清洗后的待挖掘大数据中的待挖掘文本信息进行筛选时，主要是利用产品的属性对初步清洗的待挖掘大数据进行二次清洗；具体为初次清洗的待挖掘大数据中具有与属性相同的文本信息所在区域进行保留，其余筛选，仅获得含有产品属性的待挖掘大数据的信息数据。至此，完成待挖掘大数据的二次清洗。

S3、获取每个属性的综合影响程度；

所述每个属性的综合影响程度是按照以下步骤获取：

在本实施例中，对上述中经二次清洗后的待挖掘大数据分别对每个属性的权值进行计算，所述权值计算具体为以第个属性/>为例，计算剩余属性对于/>的依赖程度和影响程度，依赖程度为其余属性出现时/>出现的概率，而影响程度为/>与其他属性同时出现时，其他属性对于/>的影响程度的量化。首先进行对于第/>个属性/>的综合影响程度/>的计算，所述的综合影响程度分为正影响和负影响；其中，第/>个属性的正影响程度的计算公式如下：

式中，表示第/>个属性的正影响程度；/>表示第/>个属性对于第/>个属性的正影响程度；/>表示属性的总数量；/>表示第/>个属性至第/>-1个属性对第/>个属性的正影响程度的加和；/>表示第/>个属性至最后1个属性对第/>个属性的正影响程度的加和。/>表示所有属性中除过第/>个属性的其它所有属性对第/>个属性的正影响程度的平均值。

表示第/>个属性的第/>次出现时相对于第/>个属性首次出现的平均距离；

表示第/>个属性在第/>个属性中的密度，通过确定范围内属性/>与其余属性的距离的均值作为基础以及其余属性对于属性/>出现的密度，作为权值，即其余属性与属性的平均距离越小，且其余属性的密度越大，说明该属性对于属性/>的正影响程度越高。

获取正影响程度过程中，需要说明的是，在一定的范围内，包含两种或者两种以上的属性同时出现，并包含属性，且属性/>出现的次数大于其余属性出现的次数，则说明其余属性对于属性/>具有一定的描述作用，即正向的影响作用。而计算正影响的方式为通过确定范围内属性/>与其余属性的距离的均值作为基础以及其余属性对于属性/>出现的密度，作为权值，即其余属性与属性/>的平均距离越小，且其余属性的密度越大，说明该属性对于属性/>的正影响程度越高，而后通过对其余所有属性对于属性/>的影响程度的平均值计算，获得属性/>的整体的受影响程度，而影响是相对的，即为属性/>对其余属性的正影响程度。

上述计算正影响程度过程中，是以属性为例，因为所有属性都是来源于描述产品的文本信息，而属性使用来描述产品的文本信息的特征文本，所以其余所有属性对于属性/>一定有潜在的影响作用，本实施例利用属性之间的距离以及密度进行正向影响的计算，计算出每个属性对于属性/>的正向影响程度，而后通过求取平均值的方式，确定出属性在其余属性中的平均影响程度，相对而言，即为属性/>对于其他属性的影响程度。较现有的数据影响程度的计算，在简单不用设置过多复杂的逻辑的基础上，更加准确的来突出属性/>的重要性以及挖掘的必要性。需要说明的是，与其余属性之间的距离是文本中字符间的距离。

具体的，第个属性的负影响程度的计算公式如下：

式中，表示第/>个属性的负影响程度；/>表示第/>个属性对于第/>个属性的负影响程度；/>表示属性的总数量；/>表示第/>个属性至第/>-1个属性对第/>个属性的负影响程度的加和；/>表示第/>个属性至最后1个属性对第/>个属性的负影响程度的加和。/>表示所有属性中除过第/>个属性的其它所有属性对第/>个属性的负影响程度的平均值。

式中，表示第/>个属性第/>次出现时距离首次出现的第/>个属性的距离；/>为第/>个属性第/>次出现时距离首次出现的第/>个属性的距离；/>为第/>个属性总体出现次数；/>表示第/>个属性出现的次数；/>为第/>个属性出现的次数；/>表示非第/>个属性和非第/>个属性的其余属性的总数。

表示第/>个属性在第/>个属性中的密度中的平均密度，即除了第/>个属性与第/>个属性之外的属性的平均密度，主要是从侧面取计算负影响。

获取负影响程度过程中，需要说明的是，在一定的范围内，包含两种或者两种以上的属性同时出现，并包含，但在提取出的产品的所有属性中，在待挖掘大数据中某些属性没有出现，或者随着某个属性出现的次数增多，属性/>出现的次数密度变小，则说明某些没有出现的属性对于属性/>有着一定的抑制的作用，即负向影响作用。所以通过范围内属性出现的次数和其他出现属性对于属性/>的变化率作为基础，以其余出现的属性出现的相对应属性/>的频率作为权值来反应属性/>对于未出现的属性的负影响。

上述计算负影响程度过程中，以属性为例，因为所有属性都是来源于描述产品的文本信息，而属性使用来描述产品的文本信息的特征文本，但是属性/>较其余属性有着一定的影响和冲突，即属性/>出现时，一定范围内某个或者某几个属性不会出现，或者属性出现次数变多，其余属性出现次数变少。所以通过该特征来对属性/>相对于其余属性的量化，负影响程度越大，则说明属性/>相对于其余属性来说越不受欢迎。

利用上述计算方式可获得所有属性的正影响程度和负影响程度，而后将所有的正影响程度进行归一化，负影响程度归一化，用来计算综合影响程度。

在本实施例中，每个属性的综合影响程度计算公式如下：

式中：表示第/>个属性的综合影响程度；/>表示第/>个属性/>的负影响程度/>归一化后的负影响程度，/>表示第/>个属性/>的负影响程度/>归一化后的正影响程度。

S4、获取每个属性的依赖度；

对每个属性的依赖度进行归一化获取归一化后的依赖度；

所述每个属性的依赖度是按照以下步骤获取：

在本实施例中，利用上述方法对所有属性进行计算，可获得所有个属性的综合影响度，而后在整体文本大数据中属性出现的频率的基础上，利用每个属性的综合影响度，计算每个属性的依赖度；第/>个属性的依赖度计算公式如下：

式中，表示第/>个属性的依赖度；/>表示待挖掘大数据中出现第/>个属性时出现第/>个属性的置信度；/>表示属性的总数量；/>表示出现第/>个属性至第/>-1个属性时出现第/>个属性的置信度的加和；/>表示出现第个属性至最后1个属性时出现第/>个属性的置信度的加和。表示出现除过第/>个属性的其它所有属性时出现第/>个属性的置信度的平均值。

需要说明的是，为置信度计算，即在所有待挖掘大数据中出现第/>个属性时出现第/>个属性的概率；置信度的可采用现有技术进行计算，在此不做赘述。

上述计算每个属性依赖度的过程中，属性的依赖度为精准的计算除属性/>外，在其余属性出现的基础上的条件下，属性/>出现的加权概率值，而后对所有的加权概率值求取平均数；来作为属性/>的依赖度/>，/>越大，说明属性/>越依赖于其余数据，即说明属性/>与其余属性的关联性越高，说明属性/>的挖掘价值更高。

在二次清洗后的待挖掘大数据中，利用属性的依赖度/>对属性进行描述，不仅包含其余属性对于属性/>的影响，且能直观地保留属性/>与其余属性的联系，以此来达到一种属性/>在整体待挖掘大数据中所有的属性中的重要程度的量化。

依照上述方式对所有的属性的依赖度进行计算，而后将计算获得的所有依赖度进行归一化获取归一化后的依赖度，将归一化后的依赖度作为每个属性对应信息熵增益值的加权值。

S5、获取每个属性的加权信息熵增益值；

所述每个属性的加权信息熵增益值计算公式如下：

式中，表示第/>个属性的加权信息熵增益值；/>表示待挖掘大数据的信息熵；/>表示利用第/>个属性划分待挖掘大数据后的信息熵；/>表示第/>个属性归一化后的依赖度；/>表示属性的总数量。需要说明的是，通过待挖掘大数据的信息熵减去利用第/>个属性划分待挖掘大数据后的信息熵获取第/>个属性的加权信息熵增益值，由于在整体文本大数据中属性出现的频率的基础上，利用每个属性的综合影响度，计算每个属性的依赖度，将每个属性的依赖度作为每个属性的加权信息熵增益值的权值，也就是利用上述方式对所有属性的信息熵的加权值进行计算，可获得所有属性对应的加权信息熵增益值/>。/>

至此，获得了所有属性的加权信息熵增益值。

S6、根据每个属性的加权信息熵增益值构建产品属性的决策树，根据决策树对待挖掘大数据进行提纯。

上述中获得了所有属性的加权信息熵的增益值，而后利用现有技术进行基于加权信息熵增益值的决策树的生成即可获得有关所有产品属性的决策树，而后利用决策树对待挖掘大数据进行提纯。通过提纯后的数据匹配来实现产品营销数据挖掘的精准化。其中，决策树的生成可采用贪心算法获取。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的计算机数据挖掘方法，其特征在于，包括以下步骤：

对每个属性的依赖度进行归一化获取归一化后的依赖度；

根据每个属性的加权信息熵增益值构建产品属性的决策树，根据决策树对待挖掘大数据进行提纯；

所述每个属性的综合影响程度是按照以下步骤获取：

根据第个属性的正影响程度和负影响程度获取待挖掘大数据中第/>个属性的综合影响程度；

所述每个属性的依赖度是按照以下步骤获取：

根据待挖掘大数据中第个属性的综合影响程度，及在待挖掘大数据中出现第/>个属性时出现第/>个属性的置信度获取待挖掘大数据中第/>个属性的依赖度；

所述第个属性的依赖度计算公式如下：

式中，表示第/>个属性的依赖度；/>表示待挖掘大数据中出现第/>个属性时出现第/>个属性的置信度；/>表示属性的总数量；/>表示第/>个属性的综合影响程度；

所述每个属性的加权信息熵增益值计算公式如下：

2.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法，其特征在于，所述第个属性的正影响程度的计算公式如下：

3.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法，其特征在于，所述第个属性的负影响程度的计算公式如下：

4.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法，其特征在于，所述形成待挖掘大数据的过程中还按照以下步骤进行筛选：

5.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法，其特征在于，所述与其余属性之间的距离是文本中字符间的距离。