CN110110013B

CN110110013B - 一种基于时空属性的实体竞争关系数据挖掘方法

Info

Publication number: CN110110013B
Application number: CN201910388351.7A
Authority: CN
Inventors: 乔少杰; 李艾鲜; 温敏; 韩楠; 魏军林; 丁超; 程维杰; 叶青; 彭京; 周凯; 徐小玲
Original assignee: Sichuan Jinkecheng Geographic Information Technology Co ltd; Chengdu University of Information Technology
Current assignee: Sichuan Jinkecheng Geographic Information Technology Co ltd; Chengdu University of Information Technology
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2020-03-24
Anticipated expiration: 2039-05-10
Also published as: CN110110013A

Abstract

本发明公开了一种基于时空属性的实体竞争关系数据挖掘方法，将实体竞争关系探测与前沿的计算机技术相结合，克服了传统的竞争关系数据挖掘方法不考虑时空属性影响的缺点，科学的融合实体用户评论、实体用户评论时间和实体空间位置三大因素，科学精确的量化了实体间的竞争关系。本发明最终挖掘得到的实体竞争关系数据取值范围为[0,1]，有效解决了传统的竞争关系挖掘方法和竞争对手识别方法结果对于非技术人员无法理解，最终还需要人工处理和筛选的问题。

Description

一种基于时空属性的实体竞争关系数据挖掘方法

技术领域

本发明属于数据挖掘技术领域，具体涉及一种基于时空属性的实体竞争关系数据挖掘方法的设计。

背景技术

目前在针对实体企业竞争关系的数据挖掘领域中，有些研究以用户评论为数据源，利用信息抽取技术从本企业产品评论中抽取用户较为关注的产品特征，基于情感分析技术设计特征情感权重算法对本企业产品特征进行优劣势分析挖掘出与本企业产品优势相似及劣势互补的候选竞争产品，并选择优势相似且劣势互补的产品为主要竞争对手，其他优势相似的产品为次要竞争对手；或者是通过分析网络链接提取竞争关系。上述竞争关系的数据挖掘方法是基于文本挖掘提取竞争关系数据，因为数据源受人的主观思想影响，所以挖掘结果带有主观性，客观程度不能得到保证。

还有一些研究开始以电子商务客观事实数据为分析数据源，结合以往的竞争关系挖掘方法进行分析挖掘，提升挖掘方法的客观性。传统的针对电子商务平台的数据挖掘工作一般是收集电商平台数据，然后从中挖掘可供使用的用户推荐、用户习惯等信息。利用产品信息(例如价格、功能以及销量等)挖掘竞争关系。该挖掘方法只考虑了商家(实体)信息对竞争关系的影响，而没有考虑到用户对竞争关系的影响。然而在实际生活中，无论实体是企业还是商店，用户(消费者)对竞争关系的影响是不容忽视的。因此单纯的根据实体信息挖掘实体竞争关系得到结果是存在较大偏差、不准确的。

此外，在专利网络中运用主题模型挖掘企业竞争关系是一种新兴的方法。但专利文件有其特殊性，这对实体类型有严格的要求(必须为拥有专利的企业)，因此在实用性上存在局限性，方法的可移植性不强，不能适用于除企业外的其他实体。

上述这些方法和模型并没有把网络数据包括进来，随着社交网络的蓬勃发展，像微博、Twitter等社交网站为竞争关系挖掘带来了新的数据来源。这些新的数据源对竞争关系分析方法和竞争关系挖掘技术提出了新的要求。因此，利用社交网络数据来挖掘实体竞争关系数据是一个新兴的研究点。通过分析用户评论，挖掘数据时间、空间上存在的特征，分析实体间的竞争关系，可以更好的为企业发展和决策提供支撑。

现有的竞争关系数据挖掘研究，注重于实体专利数据和实体网络用户评论数据的挖掘，而忽视了数据的时间特征和空间特征。通过融合数据的时空属性，可以进一步改进现有的竞争关系数据挖掘方法，从而提升挖掘模型的实用性、客观性和准确性。

发明内容

本发明的目的是为了解决现有的竞争关系数据挖掘方法并未考虑时空属性的影响，无法准确识别和科学量化竞争关系，并且挖掘输出结果需要人工整理、识别才能被非技术人员看懂的问题，提出了一种基于时空属性的实体竞争关系数据挖掘方法。

本发明的技术方案为：一种基于时空属性的实体竞争关系数据挖掘方法，包括以下步骤：

S1、通过网络爬虫程序爬取实体的用户评论数据、实体的用户评论时间数据以及实体的经纬度数据。

S2、对实体的用户评论数据进行预处理。

S3、采用LDA对预处理后实体的用户评论数据进行主题提取，得到用户评论主题。

S4、根据用户评论主题构建主题-特征匹配规则，并根据主题-特征匹配规则计算得到实体的主题-特征匹配值。

S5、根据实体的经纬度数据计算得到实体距离量化值。

S6、根据实体的用户评论时间数据计算得到实体时间属性影响力量化值。

S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值。

S8、根据实体相似度量化值计算得到实体竞争关系量化值。

S9、对实体竞争关系量化值进行归一化处理，得到实体竞争关系数据。

进一步地，步骤S2中对实体的用户评论数据进行预处理包括小写转换、去除标点、去除停用词、词条化、拼写校正、词形还原以及词干提取。

进一步地，步骤S3包括以下分步骤：

S31、针对预处理后实体的用户评论数据，将每个实体对应的所有评论作为一篇文档。

S32、从文档的Dirichlet分布α中取样生成文档i的主题分布θ_i。

S33、从主题分布θ_i中取样生成文档i第j个词的主题z_i,j。

S34、从文档的Dirichlet分布β中取样生成主题z_i,j的词语多项式分布Φ_zi,j。

S35、从词语多项式分布Φ_zi,j中采样生成主题z_i,j的词语w_i,j。

S36、重复步骤S32～S35，直至生成K个主题及其对应的词语。

进一步地，步骤S36中主题数量K的确定方法为：

计算每个主题分布的困惑度perplexity，计算公式为：

其中N表示在不排重的情况下统计得到的主题分布中所有词语的数量，p(w)表示主题分布中出现词语w的概率，计算公式为：

p(w)＝∑_zp(z|d)*p(w|z) (2)

其中p(z|d)表示从文档d中抽到主题z的概率，p(w|z)表示从主题z中抽到词语w的概率。

根据每个主题分布的不同区间范围和步长对困惑度perplexity进行迭代，绘制主题数量-困惑度曲线，并在主题数量-困惑度曲线的局部最小值处取得主题数量K的最佳取值。

进一步地，步骤S4包括以下分步骤：

S41、根据K个主题及其对应的词语，建立K条主题-特征匹配规则，每条主题-特征匹配规则为该主题与该主题下概率值最大的词语相匹配。

S42、将每个实体的用户评论对应文档依次输入K条主题-特征匹配规则，根据匹配结果计算得到每个实体的主题-特征匹配值，计算公式为：

其中C(entity_i)表示第i个实体entity_i的主题-特征匹配值，i＝1,2,...,m，m为实体总数，score_ij表示第i个实体中第j个词语的匹配值，计算公式为：

n_i表示第i个实体的用户评论数据中词语的数量，

表示第i个实体的用户评论数据输入第t条主题-特征匹配规则后得到的匹配值，K为主题-特征匹配规则总数。

进一步地，步骤S5包括以下分步骤：

S51、根据实体的经纬度数据计算实体两两之间的实际距离Dis_ij，其中Dis_ij表示第i个实体entity_i和第j个实体entity_j之间的实际距离，i＝1,2,...,m；j＝1,2,...,m，m为实体总数。

S52、设置空间阈值d，将实际距离小于空间阈值d的两个实体entity_i和entity_j定义为相邻实体neighbor(entity_i,entity_j)。

S53、以相邻实体neighbor(entity_i,entity_j)作为聚类初始值，采用KNN算法对实际距离Dis_ij进行聚类，得到簇C＝{C₁,C₂,C₃,...,C_n}。

S54、根据簇C计算得到地理位置信息影响因子α＝{α₁,α₂,α₃,...,α_n}，计算公式为：

其中n为簇的个数，C_i表示第i个簇内点的数量。

S55、根据地理位置信息影响因子α和实际距离Dis_ij计算得到实体距离量化值F(Dis_ij)：

F(Dis_ij)＝α·Dis_ij (6)。

进一步地，步骤S6包括以下分步骤：

S61、以周为单位对实体的用户评论时间数据进行划分，在每周内将实体的用户评论时间数据分为工作日week₁和假期week₂，得到集合G₁＝{week₁,week₂}，并根据集合G₁计算得到短期时间属性因子β_n：

其中week_n(user_h)表示第i个实体entity_i中第h个用户user_h评论时间在集合G₁中的类别。

S62、以月为单位将实体的用户评论时间数据划分为12类，得到集合G₂＝{month₁,month₂,...,month₁₂}，并根据集合G₂计算得到中长期时间属性因子γ_j：

其中month_j(user_h)表示第i个实体entity_i中第h个用户user_h评论时间在集合G₂中的类别。

S63、以季度为单位将实体的用户评论时间数据划分为4类，得到集合G₃＝{quarter₁,quarter₂,quarter₃,quarter₄}，并根据集合G₃计算得到长期时间属性因子θ_k：

其中quarter_k(user_h)表示第i个实体entity_i中第h个用户user_h评论时间在集合G₃中的类别。

S64、根据短期时间属性因子β_n、中长期时间属性因子γ_j和长期时间属性因子θ_k计算得到实体时间属性影响力量化值：

H(entity_i)＝β_n+γ_j+θ_k (10)

其中H(entity_i)表示第i个实体entity_i的实体时间属性影响力量化值。

进一步地，步骤S7中实体相似度量化值的计算公式为：

P(entity_i)＝C(entity_i)+F(Dis_ij)+H(entity_i) (11)

其中P(entity_i)表示第i个实体entity_i的实体相似度量化值，C(entity_i)表示第i个实体entity_i的主题-特征匹配值，F(Dis_ij)表示第i个实体entity_i和第j个实体entity_j之间的实体距离量化值，H(entity_i)表示第i个实体entity_i的实体时间属性影响力量化值，i＝1,2,...,m；j＝1,2,...,m，m为实体总数。

进一步地，步骤S8中实体竞争关系量化值的计算公式为：

其中

表示第i个实体entity_i和第j个实体entity_j之间的实体竞争关系量化值，P(entity_i)表示第i个实体entity_i的实体相似度量化值，P(entity_j)表示第j个实体entity_j的实体相似度量化值，i＝1,2,...,m；j＝1,2,...,m，m为实体总数。

进一步地，步骤S9中实体竞争关系数据的计算公式为：

其中x_ij表示第i个实体entity_i和第j个实体entity_j之间的实体竞争关系数据，

表示第i个实体entity_i和第j个实体entity_j之间的实体竞争关系量化值，

和

分别表示所有实体竞争关系量化值中的最大值和最小值。

本发明的有益效果是：

(1)本发明将实体竞争关系探测与前沿的计算机技术相结合，克服了传统的竞争关系数据挖掘方法不考虑时空属性影响的缺点，科学的融合实体用户评论、实体用户评论时间和实体空间位置三大因素，科学精确的量化了实体间的竞争关系。

(2)本发明输出的实体i与实体j竞争关系量化结果，该结果取值范围为[0,1]，有效解决了传统的竞争关系挖掘方法和竞争对手识别方法结果对于非技术人员无法理解，最终还需要人工处理和筛选的问题。

(3)本发明可以输出一个端到端的结果，只需要使用者按数据格式要求准备数据即可，极大的方便了使用者的使用，有良好的实用性，适应当前的市场需求。

附图说明

图1所示为本发明实施例提供的一种基于时空属性的实体竞争关系数据挖掘方法流程图。

图2所示为本发明实施例提供的LDA模型示意图。

图3所示为本发明实施例提供的主题数量-困惑度曲线示意图。

图4所示为本发明实施例提供的距离聚类示意图。

图5所示为本发明实施例提供的实体时间属性影响力量化值挖掘模型示意图。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解，附图中示出和描述的实施方式仅仅是示例性的，意在阐释本发明的原理和精神，而并非限制本发明的范围。

本发明实施例提供了一种基于时空属性的实体竞争关系数据挖掘方法，如图1所示，包括以下步骤S1～S9：

S2、对实体的用户评论数据进行预处理。

本发明实施例中，对实体的用户评论数据进行预处理包括小写转换、去除标点、去除停用词、词条化、拼写校正、词形还原以及词干提取。

其中，小写转换和去除标点有利于后续的其它数据预处理操作。

去除停用词指去除文本中对情感分析和语义信息挖掘无意义的词汇，例如英文文本中的a、an、I、me等，中文文本中的我、他、是等。因此，需要根据文本特性，制作一张停用词列表，把用户评论数据文本中对应表内的词汇去除。

词条化是将文本切割成单词、句子和有意义的短语的过程。

词形还原是将一个词从屈折形式转换为其原型，例如英文文本中的“cars”，通过词形还原为“car”。

词干提取指通过删除或置换后缀的方法，将句子中的每个词转化为它的原型(仅针对英文文本)。

S3、采用LDA(Latent Dirichlet Allocation，文档主题生成模型)对预处理后实体的用户评论数据进行主题提取，得到用户评论主题，LDA模型如图2所示。

步骤S3包括以下分步骤S31～S36：

S32、从文档的Dirichlet分布α中取样生成文档i的主题分布θ_i。

S33、从主题分布θ_i中取样生成文档i第j个词的主题z_i,j。

本发明实施例中，Dirichlet分布α以及Dirichlet分布β的分布参数均需要根据实际文档进行设置。

S36、重复步骤S32～S35，直至生成K个主题及其对应的词语。

本发明实施例中，选择困惑度(Perplexity)来确定K的取值，具体方法为：

计算每个主题分布的困惑度perplexity，计算公式为：

p(w)＝∑_zp(z|d)*p(w|z) (2)

根据每个主题分布的不同区间范围和步长对困惑度perplexity进行迭代，绘制主题数量-困惑度曲线，并在主题数量-困惑度曲线的局部最小值处取得主题数量K的最佳取值，如图3所示，本发明实施例中，主题数量-困惑度曲线在主题数量，即x＝60时稳定收敛，因此取得最优的主题数量值为60。

步骤S4包括以下分步骤S41～S42：

n_i表示第i个实体的用户评论数据中词语的数量，

S5、根据实体的经纬度数据计算得到实体距离量化值。

步骤S5包括以下分步骤S51～S55：

S51、根据实体的经纬度数据计算实体两两之间的实际距离Dis_ij，其中Dis_ij表示第i个实体entity_i和第j个实体entity_j之间的实际距离，可通过百度地图提供的API计算得到，i＝1,2,...,m；j＝1,2,...,m，m为实体总数。

如图4所示，其中黑色的点表示的是任意两个实体之间的距离，选择其中具有neighbor属性的点作为聚类初始点进行聚类，得到图4中的3个簇C＝{C₁,C₂,C₃}。

其中n为簇的个数，本发明实施例中n＝3，C_i表示第i个簇内点的数量。

在实际应用过程中，单纯从距离衡量竞争关系大小的角度出发是不准确的，因为在互联网上，相距较远的实体也可能存在竞争关系，以美团为例，美团上理发店A和理发店B相距五公里，但其主营业务一样，即存在竞争关系。因此，单纯的考虑距离来评价竞争关系是不合理的，本发明实施例引入地理位置信息影响因子α，其作用是调整簇与簇之间的距离，让不同簇的差异性更大。

F(Dis_ij)＝α·Dis_ij (6)

如图5所示，步骤S6包括以下分步骤S61～S64：

H(entity_i)＝β_n+γ_j+θ_k (10)

S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值，计算公式为：

步骤S7中实体相似度量化值的计算公式为：

P(entity_i)＝C(entity_i)+F(Dis_ij)+H(entity_i) (11)

S8、根据实体相似度量化值计算得到实体竞争关系量化值，计算公式为：

步骤S8中实体竞争关系量化值的计算公式为：

其中

本发明实施例中，采用Min-Max Normalization方法对实体竞争关系量化值进行归一化处理，计算公式为：

和

分别表示所有实体竞争关系量化值中的最大值和最小值。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合，这些变形和组合仍然在本发明的保护范围内。

Claims

1.一种基于时空属性的实体竞争关系数据挖掘方法，其特征在于，包括以下步骤：

S1、通过网络爬虫程序爬取实体的用户评论数据、实体的用户评论时间数据以及实体的经纬度数据；

S2、对实体的用户评论数据进行预处理；

S3、采用LDA对预处理后实体的用户评论数据进行主题提取，得到用户评论主题；

S4、根据用户评论主题构建主题-特征匹配规则，并根据主题-特征匹配规则计算得到实体的主题-特征匹配值；

S5、根据实体的经纬度数据计算得到实体距离量化值；

S6、根据实体的用户评论时间数据计算得到实体时间属性影响力量化值；

S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值；

S8、根据实体相似度量化值计算得到实体竞争关系量化值；

S9、对实体竞争关系量化值进行归一化处理，得到实体竞争关系数据；

所述步骤S5包括以下分步骤：

S51、根据实体的经纬度数据计算实体两两之间的实际距离Dis_ij，其中Dis_ij表示第i个实体entity_i和第j个实体entity_j之间的实际距离，i＝1,2,...,m；j＝1,2,...,m，m为实体总数；

S52、设置空间阈值d，将实际距离小于空间阈值d的两个实体entity_i和entity_j定义为相邻实体neighbor(entity_i,entity_j)；

S53、以相邻实体neighbor(entity_i,entity_j)作为聚类初始值，采用KNN算法对实际距离Dis_ij进行聚类，得到簇C＝{C₁,C₂,C₃,...,C_n}；

其中n为簇的个数，C_l表示第l个簇内点的数量；

F(Dis_ij)＝α·Dis_ij (6)

所述步骤S6包括以下分步骤：

其中week_n(user_h)表示第i个实体entity_i中第h个用户user_h评论时间在集合G₁中的类别；

其中month_j(user_h)表示第i个实体entity_i中第h个用户user_h评论时间在集合G₂中的类别；

其中quarter_k(user_h)表示第i个实体entity_i中第h个用户user_h评论时间在集合G₃中的类别；

H(entity_i)＝β_n+γ_j+θ_k (10)

其中H(entity_i)表示第i个实体entity_i的实体时间属性影响力量化值；

所述步骤S7中实体相似度量化值的计算公式为：

P(entity_i)＝C(entity_i)+F(Dis_ij)+H(entity_i) (11)

其中P(entity_i)表示第i个实体entity_i的实体相似度量化值，C(entity_i)表示第i个实体entity_i的主题-特征匹配值，F(Dis_ij)表示第i个实体entity_i和第j个实体entity_j之间的实体距离量化值，H(entity_i)表示第i个实体entity_i的实体时间属性影响力量化值，i＝1,2,...,m；j＝1,2,...,m，m为实体总数；

所述步骤S8中实体竞争关系量化值的计算公式为：