CN115859944A - 基于大数据的计算机数据挖掘方法 - Google Patents

基于大数据的计算机数据挖掘方法 Download PDF

Info

Publication number
CN115859944A
CN115859944A CN202310113188.XA CN202310113188A CN115859944A CN 115859944 A CN115859944 A CN 115859944A CN 202310113188 A CN202310113188 A CN 202310113188A CN 115859944 A CN115859944 A CN 115859944A
Authority
CN
China
Prior art keywords
attribute
attributes
mined
big data
individual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310113188.XA
Other languages
English (en)
Other versions
CN115859944B (zh
Inventor
尹大伟
杨霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Laiwu Vocational and Technical College
Original Assignee
Laiwu Vocational and Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Laiwu Vocational and Technical College filed Critical Laiwu Vocational and Technical College
Priority to CN202310113188.XA priority Critical patent/CN115859944B/zh
Publication of CN115859944A publication Critical patent/CN115859944A/zh
Application granted granted Critical
Publication of CN115859944B publication Critical patent/CN115859944B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据的计算机数据挖掘方法,涉及数据挖掘技术领域。包括以下步骤:获取描述产品的文本信息;根据文本信息提取产品的多个属性;通过计算机获取描述该产品的待挖掘文本信息,形成待挖掘大数据;获取每个属性的依赖度;对每个属性的依赖度进行归一化获取归一化后的依赖度;获取每个属性的加权信息熵增益值;根据每个属性的加权信息熵增益值构建产品属性的决策树,根据决策树对待挖掘大数据进行提纯。本发明通过产品的属性以及收集到的对待挖掘大数据,利用加权信息熵增益值对待挖掘大数据进行提纯,再通过提纯后数据匹配来实现产品营销数据挖掘的精准化。

Description

基于大数据的计算机数据挖掘方法
技术领域
本发明涉及数据挖掘技术领域,具体涉及一种基于大数据的计算机数据挖掘方法。
背景技术
随着通信的发展,各行各业的运行模式与大数据紧密相关,例如产品营销行业,通过对大数据的数据挖掘来获取目标产品信息,并通过对象匹配进行更好的产品营销。大数据的挖掘技术主要分为数据的收集、数据的预处理、数据的挖掘以及进行决策。
常规的产品营销对于描述产品的文本信息大数据挖掘过程中一般使用基于信息熵增益值的决策树算法进行数据的提纯以及数据特征的匹配,但是利用基于信息熵增益值的决策树进行大数据的提纯时,各种描述产品的主要属性进行子集划分的时候,每个产品属性的权值相等,即未考虑到产品各属性之间的相互影响,而对于产品营销时产品的某些属性有着不同程度的相互影响以及相互依赖的作用,不考虑产品各属性之间的相互影响进行决策树的生成以及利用决策树对数据进行提纯时,容易使数据提纯的不准确,造成产品营销时目标客户的选择不精准,并导致成本的增加。
发明内容
为了解决上述技术问题的不足,本发明提供一种基于大数据的计算机数据挖掘方法,该方法通过产品的属性以及收集到的对待挖掘大数据,利用加权信息熵增益值对待挖掘大数据进行提纯,再通过提纯后数据匹配来实现产品营销数据挖掘的精准化。
本发明的一种基于大数据的计算机数据挖掘方法,包括以下步骤:
获取描述产品的文本信息;根据文本信息提取产品的多个属性;
通过计算机获取描述该产品的待挖掘文本信息,形成待挖掘大数据;
根据待挖掘大数据中每个属性出现的次数,及与其余属性之间的距离获取每个属性的综合影响程度;
根据待挖掘大数据中任一属性的综合影响程度,及出现该属性的置信度,获取待挖掘大数据中任一属性的依赖度,依次获取每个属性的依赖度;
对每个属性的依赖度进行归一化获取归一化后的依赖度;
根据待挖掘大数据和每个属性与其对应归一化后的依赖度,获取每个属性的加权信息熵增益值;
根据每个属性的加权信息熵增益值构建产品属性的决策树,根据决策树对待挖掘大数据进行提纯。
在一实施例中,所述每个属性的综合影响程度是按照以下步骤获取:
根据待挖掘大数据中第
Figure SMS_1
个属性出现的次数,及第/>
Figure SMS_2
个属性第/>
Figure SMS_3
次出现时距离首次出现的第/>
Figure SMS_4
个属性的距离获取第/>
Figure SMS_5
个属性的正影响程度;/>
根据待挖掘大数据中第
Figure SMS_6
个属性出现的次数,和第/>
Figure SMS_7
个属性第/>
Figure SMS_8
次出现时距离首次出现的第/>
Figure SMS_9
个属性的距离,及第/>
Figure SMS_10
个属性出现的次数,获取第/>
Figure SMS_11
个属性的负影响程度;
根据第
Figure SMS_12
个属性的正影响程度和负影响程度获取待挖掘大数据中第/>
Figure SMS_13
个属性的综合影响程度。
在一实施例中,所述第
Figure SMS_14
个属性的正影响程度的计算公式如下:
Figure SMS_15
式中,
Figure SMS_16
表示第/>
Figure SMS_17
个属性的正影响程度;/>
Figure SMS_18
表示第/>
Figure SMS_19
个属性对于第/>
Figure SMS_20
个属性的正影响程度;/>
Figure SMS_21
表示属性的总数量;
其中,第
Figure SMS_22
个属性对于第/>
Figure SMS_23
个属性的正影响程度计算公式如下:
Figure SMS_24
式中,
Figure SMS_26
表示第/>
Figure SMS_28
个属性第/>
Figure SMS_30
次出现时距离首次出现的第/>
Figure SMS_27
个属性的距离;/>
Figure SMS_29
为第
Figure SMS_31
个属性总体出现次数;/>
Figure SMS_32
表示第/>
Figure SMS_25
个属性出现的次数。
在一实施例中,所述第
Figure SMS_33
个属性的负影响程度的计算公式如下:
Figure SMS_34
式中,
Figure SMS_35
表示第/>
Figure SMS_36
个属性的负影响程度;/>
Figure SMS_37
表示第/>
Figure SMS_38
个属性对于第/>
Figure SMS_39
个属性的负影响程度;/>
Figure SMS_40
表示属性的总数量;
其中,第
Figure SMS_41
个属性对于第/>
Figure SMS_42
个属性的负影响程度的计算公式如下:
Figure SMS_43
式中,
Figure SMS_45
表示第/>
Figure SMS_48
个属性第/>
Figure SMS_49
次出现时距离首次出现的第/>
Figure SMS_46
个属性的距离;/>
Figure SMS_47
为第/>
Figure SMS_50
个属性第/>
Figure SMS_51
次出现时距离首次出现的第/>
Figure SMS_44
个属性的距离;
Figure SMS_54
为第/>
Figure SMS_57
个属性总体出现次数;/>
Figure SMS_59
表示第/>
Figure SMS_52
个属性出现的次数;/>
Figure SMS_55
为第/>
Figure SMS_58
个属性出现的次数;/>
Figure SMS_60
表示非第/>
Figure SMS_53
个属性和非第/>
Figure SMS_56
个属性的其余属性的总数。
在一实施例中,所述每个属性的依赖度是按照以下步骤获取:
根据待挖掘大数据中第
Figure SMS_61
个属性的综合影响程度,及在待挖掘大数据中出现第/>
Figure SMS_62
个属性时出现第/>
Figure SMS_63
个属性的置信度获取待挖掘大数据中第/>
Figure SMS_64
个属性的依赖度。
在一实施例中,所述第
Figure SMS_65
个属性的依赖度计算公式如下:
Figure SMS_66
式中,
Figure SMS_69
表示第/>
Figure SMS_71
个属性的依赖度;/>
Figure SMS_72
表示待挖掘大数据中出现第/>
Figure SMS_68
个属性时出现第/>
Figure SMS_70
个属性的置信度;/>
Figure SMS_73
表示属性的总数量;/>
Figure SMS_74
表示第/>
Figure SMS_67
个属性的综合影响程度。
在一实施例中,所述形成待挖掘大数据的过程中还按照以下步骤进行筛选:
根据待挖掘大数据中的待挖掘文本信息和产品的文本信息获取每个待挖掘文本信息与文本信息的亲近度;将与文本信息的亲近度小于等于零的待挖掘文本信息进行清洗获取清洗后的待挖掘大数据;
根据产品的多个属性对清洗后的待挖掘大数据中的待挖掘文本信息进行筛选,获取与多个属性相同的待挖掘文本信息,形成筛选后的待挖掘大数据。
在一实施例中,所述每个属性的加权信息熵增益值计算公式如下:
Figure SMS_75
式中,
Figure SMS_77
表示第/>
Figure SMS_79
个属性的加权信息熵增益值;/>
Figure SMS_81
表示待挖掘大数据的信息熵;/>
Figure SMS_78
表示利用第/>
Figure SMS_80
个属性划分待挖掘大数据后的信息熵;/>
Figure SMS_82
表示第/>
Figure SMS_83
个属性归一化后的依赖度;/>
Figure SMS_76
表示属性的总数量。
在一实施例中,所述与其余属性之间的距离是文本中字符间的距离。
本发明的有益效果是:
本发明提供的一种基于大数据的计算机数据挖掘方法,该方法基于收集的待挖掘大数据,通过对产品所描述的文本信息提取有关目标产品的属性对待挖掘大数据进行分析,获取每个属性对应的一个关于信息熵增益的值的权值,其中,通过计算每个属性的综合影响程度及依赖度,使得该权值的设计包含了产品属性之间的相互影响作用,并对不同属性之间的影响程度和依赖度进行量化,再通过所有属性的加权信息熵的增益值获得有关所有产品属性的决策树,利用决策树对待挖掘大数据进行提纯。使得在对产品营销的大数据挖掘中数据提纯的效果更加具体精确。
本发明主要通过中文对目标产品所描述的文本信息提取有关目标产品的属性,如,目标产品的型号、材质、体积、规格、颜色等属性,可见属性主要是描述目标产品的相关的形容词和名词。通过提取的属性对有关目标产品的文本信息大数据进行挖掘,挖掘出也目标产品所描述的文本信息最相关的文本信息,再通过挖掘出的文本信息定位获取潜在的营销客户。
本发明通过产品的属性以及收集到的对待挖掘大数据,利用加权信息熵增益值对待挖掘大数据进行提纯,在通过提纯后数据匹配来实现产品营销数据挖掘的精准化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于大数据的计算机数据挖掘方法的实施例总体步骤的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对的情景是:在对产品营销的过程中利用基于信息熵的数据挖掘技术进行文本信息大数据的挖掘时,因为不同重要程度的数据特征的信息熵增益权值的相等从而使得数据提纯和特征匹配的不准确,使得在进行产品营销时目标客户的选择不精准造成成本的增加。因此,本发明通过产品的属性以及收集到的对待挖掘大数据,利用加权信息熵增益值对待挖掘大数据进行提纯,再通过提纯后数据匹配来实现产品营销数据挖掘的精准化。
本发明主要通过中文对目标产品所描述的文本信息提取有关目标产品的属性,如,目标产品的型号、材质、体积、规格、颜色等属性,可见属性主要是描述目标产品的相关的形容词和名词。再通过提取的属性对有关目标产品的文本信息大数据进行挖掘,挖掘出也目标产品所描述的文本信息最相关的文本信息,再通过挖掘出的文本信息定位获取潜在的营销客户。
本发明提供的一种基于大数据的计算机数据挖掘方法,参见图1所示,该方法包括:
S1、获取描述产品的文本信息;
根据文本信息提取产品的多个属性;
通过计算机获取描述该产品的待挖掘文本信息,形成待挖掘大数据;
在本实施例中,选取所要挖掘的产品信息,就要先确定描述该产品的文本信息,以及提取该产品的多个属性,具体产品属性提取的过程如下:
从描述产品的文本信息中提取属性,文本信息中的属性为对产品进行描述的文本,以形容词和名词为主,所以对产品的文本信息中的形容词和名词进行提取,提取方式为利用人工进行标注,标注方式为对形容词和名词标记为“1”,其余文本信息标记为“0”。而后对所有的标记为“1”的文本信息进行提取即可,提取出的文本信息即为产品的属性。
在本实施例中,待挖掘的大数据的收集,其收集来源为已经投放含有本产品文本描述信息广告的所有网站或app的待挖掘文本信息。
S2、对待挖掘大数据进行筛选;
对形成待挖掘大数据的过程中还按照以下步骤进行筛选:
根据待挖掘大数据中的待挖掘文本信息和产品的文本信息获取每个待挖掘文本信息与文本信息的亲近度;将与文本信息的亲近度小于等于零的待挖掘文本信息进行清洗获取清洗后的待挖掘大数据;
根据产品的多个属性对清洗后的待挖掘大数据中的待挖掘文本信息进行筛选,获取与多个属性相同的待挖掘文本信息,形成筛选后的待挖掘大数据。
需要说明的是,计算亲近度对待挖掘大数据进行初步清洗,利用产品的属性对初步清洗的待挖掘大数据进行二次清洗。大数据的清洗是为在诸多的文本大数据信息中获得模糊的与本产品相关的数据。
在本实施例中,亲近度以第
Figure SMS_84
条待挖掘文本信息为例,其亲近度/>
Figure SMS_85
的计算方式如下所示:
Figure SMS_86
式中,
Figure SMS_88
表示第/>
Figure SMS_92
条待挖掘文本信息的总长度;/>
Figure SMS_94
表示第/>
Figure SMS_89
条待挖掘文本信息与产品的文本信息中相同的文本的个数;/>
Figure SMS_91
表示第/>
Figure SMS_93
条待挖掘文本信息中与产品的文本信息中同音字的个数;/>
Figure SMS_95
表示第/>
Figure SMS_87
条待挖掘文本信息与产品的文本信息中同音字的但非本产品相关的专属名词的文本数据个数;/>
Figure SMS_90
表示产品的文本信息的长度。
通过计算亲近度,主要是利用待挖掘文本信息中与商品描述产品的文本信息相同的文本信息的个数以及同音字的个数作为产品的亲近度的计算,其优点在于对于大数据的筛选挖掘中对于数据处理计算量的精简,所获得数据并非绝对与产品的文本信息有关的数据,为大数据分析的模糊集数据。
需要说明的是,从大数据中进行有关于描述产品的文本信息的挖掘首先应对所获得的数据中相同的文本数据进行匹配,而考虑到输入法以及输入习惯产生的同音字情况,故结合同音字进行匹配,而相应的同音字设有权值
Figure SMS_96
,当同音字大幅度出现时权重大于相同文本,反之则反。而后以相同以及同音文本在描述产品的文本信息中的占比作为整体权值,使得相同以及同音文本在描述产品的文本信息中的占比进行放大缩小,占比越大,亲近度越高,占比越小,亲近度越小。
利用上述计算方式可获得所有待挖掘文本信息的亲近度,而后利用亲近度进行待挖掘大数据的清洗,待挖掘大数据的清洗为对所有亲近度小于等于零的待挖掘文本信息进行抛弃,认为其为无用信息。
至此,完成待挖掘大数据的初次清洗。
在本实施例中,根据产品的多个属性对清洗后的待挖掘大数据中的待挖掘文本信息进行筛选时,主要是利用产品的属性对初步清洗的待挖掘大数据进行二次清洗;具体为初次清洗的待挖掘大数据中具有与属性相同的文本信息所在区域进行保留,其余筛选,仅获得含有产品属性的待挖掘大数据的信息数据。至此,完成待挖掘大数据的二次清洗。
S3、获取每个属性的综合影响程度;
根据待挖掘大数据中每个属性出现的次数,及与其余属性之间的距离获取每个属性的综合影响程度;
所述每个属性的综合影响程度是按照以下步骤获取:
根据待挖掘大数据中第
Figure SMS_97
个属性出现的次数,及第/>
Figure SMS_98
个属性第/>
Figure SMS_99
次出现时距离首次出现的第/>
Figure SMS_100
个属性的距离获取第/>
Figure SMS_101
个属性的正影响程度;
根据待挖掘大数据中第
Figure SMS_102
个属性出现的次数,和第/>
Figure SMS_103
个属性第/>
Figure SMS_104
次出现时距离首次出现的第/>
Figure SMS_105
个属性的距离,及第/>
Figure SMS_106
个属性出现的次数,获取第/>
Figure SMS_107
个属性的负影响程度;
根据第
Figure SMS_108
个属性的正影响程度和负影响程度获取待挖掘大数据中第/>
Figure SMS_109
个属性的综合影响程度。
在本实施例中,对上述中经二次清洗后的待挖掘大数据分别对每个属性的权值进行计算,所述权值计算具体为以第
Figure SMS_112
个属性/>
Figure SMS_116
为例,计算剩余属性对于/>
Figure SMS_118
的依赖程度和影响程度,依赖程度为其余属性出现时/>
Figure SMS_111
出现的概率,而影响程度为/>
Figure SMS_114
与其他属性同时出现时,其他属性对于/>
Figure SMS_117
的影响程度的量化。首先进行对于第/>
Figure SMS_119
个属性/>
Figure SMS_110
的综合影响程度/>
Figure SMS_113
的计算,所述的综合影响程度分为正影响和负影响;其中,第/>
Figure SMS_115
个属性的正影响程度的计算公式如下:
Figure SMS_120
式中,
Figure SMS_123
表示第/>
Figure SMS_122
个属性的正影响程度;/>
Figure SMS_130
表示第/>
Figure SMS_125
个属性对于第/>
Figure SMS_135
个属性的正影响程度;/>
Figure SMS_126
表示属性的总数量;/>
Figure SMS_136
表示第/>
Figure SMS_128
个属性至第/>
Figure SMS_134
-1个属性对第/>
Figure SMS_121
个属性的正影响程度的加和;/>
Figure SMS_133
表示第/>
Figure SMS_124
个属性至最后1个属性对第
Figure SMS_132
个属性的正影响程度的加和。/>
Figure SMS_129
表示所有属性中除过第/>
Figure SMS_131
个属性的其它所有属性对第/>
Figure SMS_127
个属性的正影响程度的平均值。
其中,第
Figure SMS_137
个属性对于第/>
Figure SMS_138
个属性的正影响程度计算公式如下:
Figure SMS_139
式中,
Figure SMS_141
表示第/>
Figure SMS_143
个属性第/>
Figure SMS_146
次出现时距离首次出现的第/>
Figure SMS_142
个属性的距离;/>
Figure SMS_144
为第
Figure SMS_145
个属性总体出现次数;/>
Figure SMS_147
表示第/>
Figure SMS_140
个属性出现的次数。
Figure SMS_148
表示第/>
Figure SMS_149
个属性的第/>
Figure SMS_150
次出现时相对于第/>
Figure SMS_151
个属性首次出现的平均距离;
Figure SMS_152
表示第/>
Figure SMS_153
个属性在第/>
Figure SMS_154
个属性中的密度,通过确定范围内属性/>
Figure SMS_155
与其余属性的距离的均值作为基础以及其余属性对于属性/>
Figure SMS_156
出现的密度,作为权值,即其余属性与属性/>
Figure SMS_157
的平均距离越小,且其余属性的密度越大,说明该属性对于属性/>
Figure SMS_158
的正影响程度越高。
获取正影响程度过程中,需要说明的是,在一定的范围内,包含两种或者两种以上的属性同时出现,并包含属性
Figure SMS_160
,且属性/>
Figure SMS_163
出现的次数大于其余属性出现的次数,则说明其余属性对于属性/>
Figure SMS_166
具有一定的描述作用,即正向的影响作用。而计算正影响的方式为通过确定范围内属性/>
Figure SMS_159
与其余属性的距离的均值作为基础以及其余属性对于属性/>
Figure SMS_162
出现的密度,作为权值,即其余属性与属性/>
Figure SMS_165
的平均距离越小,且其余属性的密度越大,说明该属性对于属性/>
Figure SMS_168
的正影响程度越高,而后通过对其余所有属性对于属性/>
Figure SMS_161
的影响程度的平均值计算,获得属性/>
Figure SMS_164
的整体的受影响程度,而影响是相对的,即为属性/>
Figure SMS_167
对其余属性的正影响程度。
上述计算正影响程度过程中,是以属性
Figure SMS_169
为例,因为所有属性都是来源于描述产品的文本信息,而属性使用来描述产品的文本信息的特征文本,所以其余所有属性对于属性/>
Figure SMS_170
一定有潜在的影响作用,本实施例利用属性之间的距离以及密度进行正向影响的计算,计算出每个属性对于属性/>
Figure SMS_171
的正向影响程度,而后通过求取平均值的方式,确定出属性
Figure SMS_172
在其余属性中的平均影响程度,相对而言,即为属性/>
Figure SMS_173
对于其他属性的影响程度。较现有的数据影响程度的计算,在简单不用设置过多复杂的逻辑的基础上,更加准确的来突出属性/>
Figure SMS_174
的重要性以及挖掘的必要性。需要说明的是,与其余属性之间的距离是文本中字符间的距离。
具体的,第
Figure SMS_175
个属性的负影响程度的计算公式如下:
Figure SMS_176
式中,
Figure SMS_182
表示第/>
Figure SMS_179
个属性的负影响程度;/>
Figure SMS_190
表示第/>
Figure SMS_178
个属性对于第/>
Figure SMS_192
个属性的负影响程度;/>
Figure SMS_180
表示属性的总数量;/>
Figure SMS_191
表示第/>
Figure SMS_181
个属性至第/>
Figure SMS_187
-1个属性对第/>
Figure SMS_177
个属性的负影响程度的加和;/>
Figure SMS_186
表示第/>
Figure SMS_185
个属性至最后1个属性对第/>
Figure SMS_189
个属性的负影响程度的加和。/>
Figure SMS_183
表示所有属性中除过第/>
Figure SMS_188
个属性的其它所有属性对第/>
Figure SMS_184
个属性的负影响程度的平均值。
其中,第
Figure SMS_193
个属性对于第/>
Figure SMS_194
个属性的负影响程度的计算公式如下:
Figure SMS_195
式中,
Figure SMS_198
表示第/>
Figure SMS_197
个属性第/>
Figure SMS_209
次出现时距离首次出现的第/>
Figure SMS_201
个属性的距离;/>
Figure SMS_207
为第/>
Figure SMS_200
个属性第/>
Figure SMS_206
次出现时距离首次出现的第/>
Figure SMS_202
个属性的距离;/>
Figure SMS_210
为第/>
Figure SMS_196
个属性总体出现次数;/>
Figure SMS_205
表示第/>
Figure SMS_199
个属性出现的次数;/>
Figure SMS_211
为第/>
Figure SMS_203
个属性出现的次数;/>
Figure SMS_208
表示非第/>
Figure SMS_204
个属性和非第/>
Figure SMS_212
个属性的其余属性的总数。
Figure SMS_213
表示第/>
Figure SMS_214
个属性的第/>
Figure SMS_215
次出现时相对于第/>
Figure SMS_216
个属性首次出现的平均距离;
Figure SMS_217
表示第/>
Figure SMS_218
个属性在第/>
Figure SMS_219
个属性中的密度中的平均密度,即除了第/>
Figure SMS_220
个属性与第/>
Figure SMS_221
个属性之外的属性的平均密度,主要是从侧面取计算负影响。
获取负影响程度过程中,需要说明的是,在一定的范围内,包含两种或者两种以上的属性同时出现,并包含
Figure SMS_222
,但在提取出的产品的所有属性中,在待挖掘大数据中某些属性没有出现,或者随着某个属性出现的次数增多,属性/>
Figure SMS_223
出现的次数密度变小,则说明某些没有出现的属性对于属性/>
Figure SMS_224
有着一定的抑制的作用,即负向影响作用。所以通过范围内属性
Figure SMS_225
出现的次数和其他出现属性对于属性/>
Figure SMS_226
的变化率作为基础,以其余出现的属性出现的相对应属性/>
Figure SMS_227
的频率作为权值来反应属性/>
Figure SMS_228
对于未出现的属性的负影响。
上述计算负影响程度过程中,以属性
Figure SMS_229
为例,因为所有属性都是来源于描述产品的文本信息,而属性使用来描述产品的文本信息的特征文本,但是属性/>
Figure SMS_230
较其余属性有着一定的影响和冲突,即属性/>
Figure SMS_231
出现时,一定范围内某个或者某几个属性不会出现,或者属性
Figure SMS_232
出现次数变多,其余属性出现次数变少。所以通过该特征来对属性/>
Figure SMS_233
相对于其余属性的量化,负影响程度越大,则说明属性/>
Figure SMS_234
相对于其余属性来说越不受欢迎。
利用上述计算方式可获得所有属性的正影响程度和负影响程度,而后将所有的正影响程度进行归一化,负影响程度归一化,用来计算综合影响程度。
在本实施例中,每个属性的综合影响程度计算公式如下:
Figure SMS_235
式中:
Figure SMS_237
表示第/>
Figure SMS_239
个属性的综合影响程度;/>
Figure SMS_242
表示第/>
Figure SMS_238
个属性/>
Figure SMS_240
的负影响程度/>
Figure SMS_243
归一化后的负影响程度,/>
Figure SMS_244
表示第/>
Figure SMS_236
个属性/>
Figure SMS_241
的负影响程度/>
Figure SMS_245
归一化后的正影响程度。
S4、获取每个属性的依赖度;
根据待挖掘大数据中任一属性的综合影响程度,及出现该属性的置信度,获取待挖掘大数据中任一属性的依赖度,依次获取每个属性的依赖度;
对每个属性的依赖度进行归一化获取归一化后的依赖度;
所述每个属性的依赖度是按照以下步骤获取:
根据待挖掘大数据中第
Figure SMS_246
个属性的综合影响程度,及在待挖掘大数据中出现第/>
Figure SMS_247
个属性时出现第/>
Figure SMS_248
个属性的置信度获取待挖掘大数据中第/>
Figure SMS_249
个属性的依赖度。
在本实施例中,利用上述方法对所有属性进行计算,可获得所有
Figure SMS_250
个属性的综合影响度,而后在整体文本大数据中属性出现的频率的基础上,利用每个属性的综合影响度,计算每个属性的依赖度;第/>
Figure SMS_251
个属性的依赖度计算公式如下:
Figure SMS_252
式中,
Figure SMS_256
表示第/>
Figure SMS_254
个属性的依赖度;/>
Figure SMS_266
表示待挖掘大数据中出现第/>
Figure SMS_257
个属性时出现第/>
Figure SMS_268
个属性的置信度;/>
Figure SMS_258
表示属性的总数量;/>
Figure SMS_267
表示出现第/>
Figure SMS_261
个属性至第/>
Figure SMS_265
-1个属性时出现第/>
Figure SMS_253
个属性的置信度的加和;/>
Figure SMS_262
表示出现第/>
Figure SMS_255
个属性至最后1个属性时出现第/>
Figure SMS_263
个属性的置信度的加和。/>
Figure SMS_260
表示出现除过第/>
Figure SMS_264
个属性的其它所有属性时出现第/>
Figure SMS_259
个属性的置信度的平均值。
需要说明的是,
Figure SMS_269
为置信度计算,即在所有待挖掘大数据中出现第/>
Figure SMS_270
个属性时出现第/>
Figure SMS_271
个属性的概率;置信度的可采用现有技术进行计算,在此不做赘述。
上述计算每个属性依赖度的过程中,属性
Figure SMS_273
的依赖度为精准的计算除属性/>
Figure SMS_276
外,在其余属性出现的基础上的条件下,属性/>
Figure SMS_279
出现的加权概率值,而后对所有的加权概率值求取平均数;来作为属性/>
Figure SMS_274
的依赖度/>
Figure SMS_277
,/>
Figure SMS_278
越大,说明属性/>
Figure SMS_280
越依赖于其余数据,即说明属性/>
Figure SMS_272
与其余属性的关联性越高,说明属性/>
Figure SMS_275
的挖掘价值更高。
在二次清洗后的待挖掘大数据中,利用属性
Figure SMS_281
的依赖度/>
Figure SMS_282
对属性进行描述,不仅包含其余属性对于属性/>
Figure SMS_283
的影响,且能直观地保留属性/>
Figure SMS_284
与其余属性的联系,以此来达到一种属性/>
Figure SMS_285
在整体待挖掘大数据中所有的属性中的重要程度的量化。
依照上述方式对所有的属性的依赖度进行计算,而后将计算获得的所有依赖度进行归一化获取归一化后的依赖度,将归一化后的依赖度作为每个属性对应信息熵增益值的加权值。
S5、获取每个属性的加权信息熵增益值;
根据待挖掘大数据和每个属性与其对应归一化后的依赖度,获取每个属性的加权信息熵增益值;
所述每个属性的加权信息熵增益值计算公式如下:
Figure SMS_286
式中,
Figure SMS_288
表示第/>
Figure SMS_292
个属性的加权信息熵增益值;/>
Figure SMS_294
表示待挖掘大数据的信息熵;/>
Figure SMS_289
表示利用第/>
Figure SMS_291
个属性划分待挖掘大数据后的信息熵;/>
Figure SMS_295
表示第/>
Figure SMS_297
个属性归一化后的依赖度;/>
Figure SMS_287
表示属性的总数量。需要说明的是,通过待挖掘大数据的信息熵减去利用第/>
Figure SMS_290
个属性划分待挖掘大数据后的信息熵获取第/>
Figure SMS_293
个属性的加权信息熵增益值,由于在整体文本大数据中属性出现的频率的基础上,利用每个属性的综合影响度,计算每个属性的依赖度,将每个属性的依赖度作为每个属性的加权信息熵增益值的权值,也就是利用上述方式对所有属性的信息熵的加权值进行计算,可获得所有属性对应的加权信息熵增益值
Figure SMS_296
至此,获得了所有属性的加权信息熵增益值。
S6、根据每个属性的加权信息熵增益值构建产品属性的决策树,根据决策树对待挖掘大数据进行提纯。
上述中获得了所有属性的加权信息熵的增益值,而后利用现有技术进行基于加权信息熵增益值的决策树的生成即可获得有关所有产品属性的决策树,而后利用决策树对待挖掘大数据进行提纯。通过提纯后的数据匹配来实现产品营销数据挖掘的精准化。其中,决策树的生成可采用贪心算法获取。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于大数据的计算机数据挖掘方法,其特征在于,包括以下步骤:
获取描述产品的文本信息;根据文本信息提取产品的多个属性;
通过计算机获取描述该产品的待挖掘文本信息,形成待挖掘大数据;
根据待挖掘大数据中每个属性出现的次数,及与其余属性之间的距离获取每个属性的综合影响程度;
根据待挖掘大数据中任一属性的综合影响程度,及出现该属性的置信度,获取待挖掘大数据中任一属性的依赖度,依次获取每个属性的依赖度;
对每个属性的依赖度进行归一化获取归一化后的依赖度;
根据待挖掘大数据和每个属性与其对应归一化后的依赖度,获取每个属性的加权信息熵增益值;
根据每个属性的加权信息熵增益值构建产品属性的决策树,根据决策树对待挖掘大数据进行提纯。
2.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述每个属性的综合影响程度是按照以下步骤获取:
根据待挖掘大数据中第
Figure QLYQS_1
个属性出现的次数,及第/>
Figure QLYQS_2
个属性第/>
Figure QLYQS_3
次出现时距离首次出现的第/>
Figure QLYQS_4
个属性的距离获取第/>
Figure QLYQS_5
个属性的正影响程度;
根据待挖掘大数据中第
Figure QLYQS_6
个属性出现的次数,和第/>
Figure QLYQS_7
个属性第/>
Figure QLYQS_8
次出现时距离首次出现的第/>
Figure QLYQS_9
个属性的距离,及第/>
Figure QLYQS_10
个属性出现的次数,获取第/>
Figure QLYQS_11
个属性的负影响程度;
根据第
Figure QLYQS_12
个属性的正影响程度和负影响程度获取待挖掘大数据中第/>
Figure QLYQS_13
个属性的综合影响程度。
3.根据权利要求2所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述第
Figure QLYQS_14
个属性的正影响程度的计算公式如下:
Figure QLYQS_15
式中,
Figure QLYQS_16
表示第/>
Figure QLYQS_17
个属性的正影响程度;/>
Figure QLYQS_18
表示第/>
Figure QLYQS_19
个属性对于第/>
Figure QLYQS_20
个属性的正影响程度;/>
Figure QLYQS_21
表示属性的总数量;
其中,第
Figure QLYQS_22
个属性对于第/>
Figure QLYQS_23
个属性的正影响程度计算公式如下:
Figure QLYQS_24
式中,
Figure QLYQS_26
表示第/>
Figure QLYQS_29
个属性第/>
Figure QLYQS_31
次出现时距离首次出现的第/>
Figure QLYQS_27
个属性的距离;/>
Figure QLYQS_28
为第/>
Figure QLYQS_30
个属性总体出现次数;/>
Figure QLYQS_32
表示第/>
Figure QLYQS_25
个属性出现的次数。
4.根据权利要求2所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述第
Figure QLYQS_33
个属性的负影响程度的计算公式如下:/>
Figure QLYQS_34
式中,
Figure QLYQS_35
表示第/>
Figure QLYQS_36
个属性的负影响程度;/>
Figure QLYQS_37
表示第/>
Figure QLYQS_38
个属性对于第/>
Figure QLYQS_39
个属性的负影响程度;/>
Figure QLYQS_40
表示属性的总数量;
其中,第
Figure QLYQS_41
个属性对于第/>
Figure QLYQS_42
个属性的负影响程度的计算公式如下:
Figure QLYQS_43
式中,
Figure QLYQS_46
表示第/>
Figure QLYQS_48
个属性第/>
Figure QLYQS_50
次出现时距离首次出现的第/>
Figure QLYQS_45
个属性的距离;/>
Figure QLYQS_47
为第/>
Figure QLYQS_49
个属性第/>
Figure QLYQS_51
次出现时距离首次出现的第/>
Figure QLYQS_44
个属性的距离;
Figure QLYQS_53
为第/>
Figure QLYQS_56
个属性总体出现次数;/>
Figure QLYQS_58
表示第/>
Figure QLYQS_54
个属性出现的次数;/>
Figure QLYQS_57
为第/>
Figure QLYQS_59
个属性出现的次数;/>
Figure QLYQS_60
表示非第/>
Figure QLYQS_52
个属性和非第/>
Figure QLYQS_55
个属性的其余属性的总数。
5.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述每个属性的依赖度是按照以下步骤获取:
根据待挖掘大数据中第
Figure QLYQS_61
个属性的综合影响程度,及在待挖掘大数据中出现第/>
Figure QLYQS_62
个属性时出现第/>
Figure QLYQS_63
个属性的置信度获取待挖掘大数据中第/>
Figure QLYQS_64
个属性的依赖度。
6.根据权利要求5所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述第
Figure QLYQS_65
个属性的依赖度计算公式如下:
Figure QLYQS_66
式中,
Figure QLYQS_68
表示第/>
Figure QLYQS_70
个属性的依赖度;/>
Figure QLYQS_72
表示待挖掘大数据中出现第/>
Figure QLYQS_69
个属性时出现第/>
Figure QLYQS_71
个属性的置信度;/>
Figure QLYQS_73
表示属性的总数量;/>
Figure QLYQS_74
表示第/>
Figure QLYQS_67
个属性的综合影响程度。
7.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述形成待挖掘大数据的过程中还按照以下步骤进行筛选:
根据待挖掘大数据中的待挖掘文本信息和产品的文本信息获取每个待挖掘文本信息与文本信息的亲近度;将与文本信息的亲近度小于等于零的待挖掘文本信息进行清洗获取清洗后的待挖掘大数据;
根据产品的多个属性对清洗后的待挖掘大数据中的待挖掘文本信息进行筛选,获取与多个属性相同的待挖掘文本信息,形成筛选后的待挖掘大数据。
8.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述每个属性的加权信息熵增益值计算公式如下:
Figure QLYQS_75
式中,
Figure QLYQS_77
表示第/>
Figure QLYQS_80
个属性的加权信息熵增益值;/>
Figure QLYQS_82
表示待挖掘大数据的信息熵;
Figure QLYQS_78
表示利用第/>
Figure QLYQS_79
个属性划分待挖掘大数据后的信息熵;/>
Figure QLYQS_81
表示第/>
Figure QLYQS_83
个属性归一化后的依赖度;/>
Figure QLYQS_76
表示属性的总数量。
9.根据权利要求1所述的一种基于大数据的计算机数据挖掘方法,其特征在于,所述与其余属性之间的距离是文本中字符间的距离。
CN202310113188.XA 2023-02-15 2023-02-15 基于大数据的计算机数据挖掘方法 Active CN115859944B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310113188.XA CN115859944B (zh) 2023-02-15 2023-02-15 基于大数据的计算机数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310113188.XA CN115859944B (zh) 2023-02-15 2023-02-15 基于大数据的计算机数据挖掘方法

Publications (2)

Publication Number Publication Date
CN115859944A true CN115859944A (zh) 2023-03-28
CN115859944B CN115859944B (zh) 2023-10-17

Family

ID=85658081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310113188.XA Active CN115859944B (zh) 2023-02-15 2023-02-15 基于大数据的计算机数据挖掘方法

Country Status (1)

Country Link
CN (1) CN115859944B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN109947760A (zh) * 2017-07-26 2019-06-28 华为技术有限公司 一种挖掘kpi根因的方法及装置
CN111062620A (zh) * 2019-12-19 2020-04-24 烟台海颐软件股份有限公司 基于混合计费数据的电力计费公平性智能分析系统及方法
CN113033617A (zh) * 2021-03-02 2021-06-25 国网河北省电力有限公司邢台供电分公司 一种基于大数据台区线损数据深度挖掘分析方法
CN113990477A (zh) * 2021-10-20 2022-01-28 上海轻迅信息科技有限公司 一种基于云平台的大数据智能健康监护系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947760A (zh) * 2017-07-26 2019-06-28 华为技术有限公司 一种挖掘kpi根因的方法及装置
CN108170769A (zh) * 2017-12-26 2018-06-15 上海大学 一种基于决策树算法的装配制造质量数据处理方法
CN109754000A (zh) * 2018-12-21 2019-05-14 昆明理工大学 一种基于依赖度的半监督多标签分类方法
CN111062620A (zh) * 2019-12-19 2020-04-24 烟台海颐软件股份有限公司 基于混合计费数据的电力计费公平性智能分析系统及方法
CN113033617A (zh) * 2021-03-02 2021-06-25 国网河北省电力有限公司邢台供电分公司 一种基于大数据台区线损数据深度挖掘分析方法
CN113990477A (zh) * 2021-10-20 2022-01-28 上海轻迅信息科技有限公司 一种基于云平台的大数据智能健康监护系统

Also Published As

Publication number Publication date
CN115859944B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
Yu et al. Prediction of bus travel time using random forests based on near neighbors
CN110781317B (zh) 事件图谱的构建方法、装置及电子设备
CN107862087B (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
US8949204B2 (en) Efficient development of a rule-based system using crowd-sourcing
US20100111372A1 (en) Determining user similarities based on location histories
CN107145516B (zh) 一种文本聚类方法及系统
Santana et al. On the combination of domain-specific heuristics for author name disambiguation: the nearest cluster method
US11562262B2 (en) Model variable candidate generation device and method
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
CN102298605A (zh) 基于有向图非等概率随机搜索的图像自动标注方法及装置
Chen et al. Correcting knowledge base assertions
CN111612499B (zh) 信息的推送方法及装置、存储介质、终端
CN115796310A (zh) 信息推荐及模型训练方法、装置、设备和存储介质
CN110795573B (zh) 一种网页内容的地理位置预测方法及装置
CN108959262B (zh) 一种命名实体识别方法及装置
CN113392920B (zh) 生成作弊预测模型的方法、装置、设备、介质及程序产品
CN112800286B (zh) 用户关系链的构建方法、装置及电子设备
CN110992194A (zh) 一种基于含属性的多进程采样图表示学习模型的用户参考指数算法
Ikram et al. Twitter Sentiment Analysis using Machine Learning
US10769534B2 (en) Evaluation target of interest extraction apparatus and program
CN115859944A (zh) 基于大数据的计算机数据挖掘方法
Oliveira et al. A concept-based integer linear programming approach for single-document summarization
CN114418012A (zh) 对象关联关系确定方法、装置、设备及计算机存储介质
CN114202418A (zh) 信息处理方法、装置、设备及介质
CN108985811A (zh) 用于精准营销的方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant