CN110110013B - 一种基于时空属性的实体竞争关系数据挖掘方法 - Google Patents

一种基于时空属性的实体竞争关系数据挖掘方法 Download PDF

Info

Publication number
CN110110013B
CN110110013B CN201910388351.7A CN201910388351A CN110110013B CN 110110013 B CN110110013 B CN 110110013B CN 201910388351 A CN201910388351 A CN 201910388351A CN 110110013 B CN110110013 B CN 110110013B
Authority
CN
China
Prior art keywords
entity
value
ith
data
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910388351.7A
Other languages
English (en)
Other versions
CN110110013A (zh
Inventor
乔少杰
李艾鲜
温敏
韩楠
魏军林
丁超
程维杰
叶青
彭京
周凯
徐小玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Jinkecheng Geographic Information Technology Co ltd
Chengdu University of Information Technology
Original Assignee
Sichuan Jinkecheng Geographic Information Technology Co ltd
Chengdu University of Information Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Jinkecheng Geographic Information Technology Co ltd, Chengdu University of Information Technology filed Critical Sichuan Jinkecheng Geographic Information Technology Co ltd
Priority to CN201910388351.7A priority Critical patent/CN110110013B/zh
Publication of CN110110013A publication Critical patent/CN110110013A/zh
Application granted granted Critical
Publication of CN110110013B publication Critical patent/CN110110013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Abstract

本发明公开了一种基于时空属性的实体竞争关系数据挖掘方法,将实体竞争关系探测与前沿的计算机技术相结合,克服了传统的竞争关系数据挖掘方法不考虑时空属性影响的缺点,科学的融合实体用户评论、实体用户评论时间和实体空间位置三大因素,科学精确的量化了实体间的竞争关系。本发明最终挖掘得到的实体竞争关系数据取值范围为[0,1],有效解决了传统的竞争关系挖掘方法和竞争对手识别方法结果对于非技术人员无法理解,最终还需要人工处理和筛选的问题。

Description

一种基于时空属性的实体竞争关系数据挖掘方法
技术领域
本发明属于数据挖掘技术领域,具体涉及一种基于时空属性的实体竞争关系数据挖掘方法的设计。
背景技术
目前在针对实体企业竞争关系的数据挖掘领域中,有些研究以用户评论为数据源,利用信息抽取技术从本企业产品评论中抽取用户较为关注的产品特征,基于情感分析技术设计特征情感权重算法对本企业产品特征进行优劣势分析挖掘出与本企业产品优势相似及劣势互补的候选竞争产品,并选择优势相似且劣势互补的产品为主要竞争对手,其他优势相似的产品为次要竞争对手;或者是通过分析网络链接提取竞争关系。上述竞争关系的数据挖掘方法是基于文本挖掘提取竞争关系数据,因为数据源受人的主观思想影响,所以挖掘结果带有主观性,客观程度不能得到保证。
还有一些研究开始以电子商务客观事实数据为分析数据源,结合以往的竞争关系挖掘方法进行分析挖掘,提升挖掘方法的客观性。传统的针对电子商务平台的数据挖掘工作一般是收集电商平台数据,然后从中挖掘可供使用的用户推荐、用户习惯等信息。利用产品信息(例如价格、功能以及销量等)挖掘竞争关系。该挖掘方法只考虑了商家(实体)信息对竞争关系的影响,而没有考虑到用户对竞争关系的影响。然而在实际生活中,无论实体是企业还是商店,用户(消费者)对竞争关系的影响是不容忽视的。因此单纯的根据实体信息挖掘实体竞争关系得到结果是存在较大偏差、不准确的。
此外,在专利网络中运用主题模型挖掘企业竞争关系是一种新兴的方法。但专利文件有其特殊性,这对实体类型有严格的要求(必须为拥有专利的企业),因此在实用性上存在局限性,方法的可移植性不强,不能适用于除企业外的其他实体。
上述这些方法和模型并没有把网络数据包括进来,随着社交网络的蓬勃发展,像微博、Twitter等社交网站为竞争关系挖掘带来了新的数据来源。这些新的数据源对竞争关系分析方法和竞争关系挖掘技术提出了新的要求。因此,利用社交网络数据来挖掘实体竞争关系数据是一个新兴的研究点。通过分析用户评论,挖掘数据时间、空间上存在的特征,分析实体间的竞争关系,可以更好的为企业发展和决策提供支撑。
现有的竞争关系数据挖掘研究,注重于实体专利数据和实体网络用户评论数据的挖掘,而忽视了数据的时间特征和空间特征。通过融合数据的时空属性,可以进一步改进现有的竞争关系数据挖掘方法,从而提升挖掘模型的实用性、客观性和准确性。
发明内容
本发明的目的是为了解决现有的竞争关系数据挖掘方法并未考虑时空属性的影响,无法准确识别和科学量化竞争关系,并且挖掘输出结果需要人工整理、识别才能被非技术人员看懂的问题,提出了一种基于时空属性的实体竞争关系数据挖掘方法。
本发明的技术方案为:一种基于时空属性的实体竞争关系数据挖掘方法,包括以下步骤:
S1、通过网络爬虫程序爬取实体的用户评论数据、实体的用户评论时间数据以及实体的经纬度数据。
S2、对实体的用户评论数据进行预处理。
S3、采用LDA对预处理后实体的用户评论数据进行主题提取,得到用户评论主题。
S4、根据用户评论主题构建主题-特征匹配规则,并根据主题-特征匹配规则计算得到实体的主题-特征匹配值。
S5、根据实体的经纬度数据计算得到实体距离量化值。
S6、根据实体的用户评论时间数据计算得到实体时间属性影响力量化值。
S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值。
S8、根据实体相似度量化值计算得到实体竞争关系量化值。
S9、对实体竞争关系量化值进行归一化处理,得到实体竞争关系数据。
进一步地,步骤S2中对实体的用户评论数据进行预处理包括小写转换、去除标点、去除停用词、词条化、拼写校正、词形还原以及词干提取。
进一步地,步骤S3包括以下分步骤:
S31、针对预处理后实体的用户评论数据,将每个实体对应的所有评论作为一篇文档。
S32、从文档的Dirichlet分布α中取样生成文档i的主题分布θi
S33、从主题分布θi中取样生成文档i第j个词的主题zi,j
S34、从文档的Dirichlet分布β中取样生成主题zi,j的词语多项式分布Φzi,j
S35、从词语多项式分布Φzi,j中采样生成主题zi,j的词语wi,j
S36、重复步骤S32~S35,直至生成K个主题及其对应的词语。
进一步地,步骤S36中主题数量K的确定方法为:
计算每个主题分布的困惑度perplexity,计算公式为:
Figure BDA0002055591940000031
其中N表示在不排重的情况下统计得到的主题分布中所有词语的数量,p(w)表示主题分布中出现词语w的概率,计算公式为:
p(w)=∑zp(z|d)*p(w|z) (2)
其中p(z|d)表示从文档d中抽到主题z的概率,p(w|z)表示从主题z中抽到词语w的概率。
根据每个主题分布的不同区间范围和步长对困惑度perplexity进行迭代,绘制主题数量-困惑度曲线,并在主题数量-困惑度曲线的局部最小值处取得主题数量K的最佳取值。
进一步地,步骤S4包括以下分步骤:
S41、根据K个主题及其对应的词语,建立K条主题-特征匹配规则,每条主题-特征匹配规则为该主题与该主题下概率值最大的词语相匹配。
S42、将每个实体的用户评论对应文档依次输入K条主题-特征匹配规则,根据匹配结果计算得到每个实体的主题-特征匹配值,计算公式为:
Figure BDA0002055591940000032
其中C(entityi)表示第i个实体entityi的主题-特征匹配值,i=1,2,...,m,m为实体总数,scoreij表示第i个实体中第j个词语的匹配值,计算公式为:
Figure BDA0002055591940000033
ni表示第i个实体的用户评论数据中词语的数量,
Figure BDA0002055591940000034
表示第i个实体的用户评论数据输入第t条主题-特征匹配规则后得到的匹配值,K为主题-特征匹配规则总数。
进一步地,步骤S5包括以下分步骤:
S51、根据实体的经纬度数据计算实体两两之间的实际距离Disij,其中Disij表示第i个实体entityi和第j个实体entityj之间的实际距离,i=1,2,...,m;j=1,2,...,m,m为实体总数。
S52、设置空间阈值d,将实际距离小于空间阈值d的两个实体entityi和entityj定义为相邻实体neighbor(entityi,entityj)。
S53、以相邻实体neighbor(entityi,entityj)作为聚类初始值,采用KNN算法对实际距离Disij进行聚类,得到簇C={C1,C2,C3,...,Cn}。
S54、根据簇C计算得到地理位置信息影响因子α={α123,...,αn},计算公式为:
Figure BDA0002055591940000041
其中n为簇的个数,Ci表示第i个簇内点的数量。
S55、根据地理位置信息影响因子α和实际距离Disij计算得到实体距离量化值F(Disij):
F(Disij)=α·Disij (6)。
进一步地,步骤S6包括以下分步骤:
S61、以周为单位对实体的用户评论时间数据进行划分,在每周内将实体的用户评论时间数据分为工作日week1和假期week2,得到集合G1={week1,week2},并根据集合G1计算得到短期时间属性因子βn
Figure BDA0002055591940000042
其中weekn(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G1中的类别。
S62、以月为单位将实体的用户评论时间数据划分为12类,得到集合G2={month1,month2,...,month12},并根据集合G2计算得到中长期时间属性因子γj
Figure BDA0002055591940000043
其中monthj(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G2中的类别。
S63、以季度为单位将实体的用户评论时间数据划分为4类,得到集合G3={quarter1,quarter2,quarter3,quarter4},并根据集合G3计算得到长期时间属性因子θk
Figure BDA0002055591940000044
其中quarterk(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G3中的类别。
S64、根据短期时间属性因子βn、中长期时间属性因子γj和长期时间属性因子θk计算得到实体时间属性影响力量化值:
H(entityi)=βnjk (10)
其中H(entityi)表示第i个实体entityi的实体时间属性影响力量化值。
进一步地,步骤S7中实体相似度量化值的计算公式为:
P(entityi)=C(entityi)+F(Disij)+H(entityi) (11)
其中P(entityi)表示第i个实体entityi的实体相似度量化值,C(entityi)表示第i个实体entityi的主题-特征匹配值,F(Disij)表示第i个实体entityi和第j个实体entityj之间的实体距离量化值,H(entityi)表示第i个实体entityi的实体时间属性影响力量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数。
进一步地,步骤S8中实体竞争关系量化值的计算公式为:
Figure BDA0002055591940000051
其中
Figure BDA0002055591940000052
表示第i个实体entityi和第j个实体entityj之间的实体竞争关系量化值,P(entityi)表示第i个实体entityi的实体相似度量化值,P(entityj)表示第j个实体entityj的实体相似度量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数。
进一步地,步骤S9中实体竞争关系数据的计算公式为:
Figure BDA0002055591940000053
其中xij表示第i个实体entityi和第j个实体entityj之间的实体竞争关系数据,
Figure BDA0002055591940000054
表示第i个实体entityi和第j个实体entityj之间的实体竞争关系量化值,
Figure BDA0002055591940000055
Figure BDA0002055591940000056
分别表示所有实体竞争关系量化值中的最大值和最小值。
本发明的有益效果是:
(1)本发明将实体竞争关系探测与前沿的计算机技术相结合,克服了传统的竞争关系数据挖掘方法不考虑时空属性影响的缺点,科学的融合实体用户评论、实体用户评论时间和实体空间位置三大因素,科学精确的量化了实体间的竞争关系。
(2)本发明输出的实体i与实体j竞争关系量化结果,该结果取值范围为[0,1],有效解决了传统的竞争关系挖掘方法和竞争对手识别方法结果对于非技术人员无法理解,最终还需要人工处理和筛选的问题。
(3)本发明可以输出一个端到端的结果,只需要使用者按数据格式要求准备数据即可,极大的方便了使用者的使用,有良好的实用性,适应当前的市场需求。
附图说明
图1所示为本发明实施例提供的一种基于时空属性的实体竞争关系数据挖掘方法流程图。
图2所示为本发明实施例提供的LDA模型示意图。
图3所示为本发明实施例提供的主题数量-困惑度曲线示意图。
图4所示为本发明实施例提供的距离聚类示意图。
图5所示为本发明实施例提供的实体时间属性影响力量化值挖掘模型示意图。
具体实施方式
现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。
本发明实施例提供了一种基于时空属性的实体竞争关系数据挖掘方法,如图1所示,包括以下步骤S1~S9:
S1、通过网络爬虫程序爬取实体的用户评论数据、实体的用户评论时间数据以及实体的经纬度数据。
S2、对实体的用户评论数据进行预处理。
本发明实施例中,对实体的用户评论数据进行预处理包括小写转换、去除标点、去除停用词、词条化、拼写校正、词形还原以及词干提取。
其中,小写转换和去除标点有利于后续的其它数据预处理操作。
去除停用词指去除文本中对情感分析和语义信息挖掘无意义的词汇,例如英文文本中的a、an、I、me等,中文文本中的我、他、是等。因此,需要根据文本特性,制作一张停用词列表,把用户评论数据文本中对应表内的词汇去除。
词条化是将文本切割成单词、句子和有意义的短语的过程。
词形还原是将一个词从屈折形式转换为其原型,例如英文文本中的“cars”,通过词形还原为“car”。
词干提取指通过删除或置换后缀的方法,将句子中的每个词转化为它的原型(仅针对英文文本)。
S3、采用LDA(Latent Dirichlet Allocation,文档主题生成模型)对预处理后实体的用户评论数据进行主题提取,得到用户评论主题,LDA模型如图2所示。
步骤S3包括以下分步骤S31~S36:
S31、针对预处理后实体的用户评论数据,将每个实体对应的所有评论作为一篇文档。
S32、从文档的Dirichlet分布α中取样生成文档i的主题分布θi
S33、从主题分布θi中取样生成文档i第j个词的主题zi,j
S34、从文档的Dirichlet分布β中取样生成主题zi,j的词语多项式分布Φzi,j
本发明实施例中,Dirichlet分布α以及Dirichlet分布β的分布参数均需要根据实际文档进行设置。
S35、从词语多项式分布Φzi,j中采样生成主题zi,j的词语wi,j
S36、重复步骤S32~S35,直至生成K个主题及其对应的词语。
本发明实施例中,选择困惑度(Perplexity)来确定K的取值,具体方法为:
计算每个主题分布的困惑度perplexity,计算公式为:
Figure BDA0002055591940000071
其中N表示在不排重的情况下统计得到的主题分布中所有词语的数量,p(w)表示主题分布中出现词语w的概率,计算公式为:
p(w)=∑zp(z|d)*p(w|z) (2)
其中p(z|d)表示从文档d中抽到主题z的概率,p(w|z)表示从主题z中抽到词语w的概率。
根据每个主题分布的不同区间范围和步长对困惑度perplexity进行迭代,绘制主题数量-困惑度曲线,并在主题数量-困惑度曲线的局部最小值处取得主题数量K的最佳取值,如图3所示,本发明实施例中,主题数量-困惑度曲线在主题数量,即x=60时稳定收敛,因此取得最优的主题数量值为60。
S4、根据用户评论主题构建主题-特征匹配规则,并根据主题-特征匹配规则计算得到实体的主题-特征匹配值。
步骤S4包括以下分步骤S41~S42:
S41、根据K个主题及其对应的词语,建立K条主题-特征匹配规则,每条主题-特征匹配规则为该主题与该主题下概率值最大的词语相匹配。
S42、将每个实体的用户评论对应文档依次输入K条主题-特征匹配规则,根据匹配结果计算得到每个实体的主题-特征匹配值,计算公式为:
Figure BDA0002055591940000081
其中C(entityi)表示第i个实体entityi的主题-特征匹配值,i=1,2,...,m,m为实体总数,scoreij表示第i个实体中第j个词语的匹配值,计算公式为:
Figure BDA0002055591940000082
ni表示第i个实体的用户评论数据中词语的数量,
Figure BDA0002055591940000083
表示第i个实体的用户评论数据输入第t条主题-特征匹配规则后得到的匹配值,K为主题-特征匹配规则总数。
S5、根据实体的经纬度数据计算得到实体距离量化值。
步骤S5包括以下分步骤S51~S55:
S51、根据实体的经纬度数据计算实体两两之间的实际距离Disij,其中Disij表示第i个实体entityi和第j个实体entityj之间的实际距离,可通过百度地图提供的API计算得到,i=1,2,...,m;j=1,2,...,m,m为实体总数。
S52、设置空间阈值d,将实际距离小于空间阈值d的两个实体entityi和entityj定义为相邻实体neighbor(entityi,entityj)。
S53、以相邻实体neighbor(entityi,entityj)作为聚类初始值,采用KNN算法对实际距离Disij进行聚类,得到簇C={C1,C2,C3,...,Cn}。
如图4所示,其中黑色的点表示的是任意两个实体之间的距离,选择其中具有neighbor属性的点作为聚类初始点进行聚类,得到图4中的3个簇C={C1,C2,C3}。
S54、根据簇C计算得到地理位置信息影响因子α={α123,...,αn},计算公式为:
Figure BDA0002055591940000084
其中n为簇的个数,本发明实施例中n=3,Ci表示第i个簇内点的数量。
在实际应用过程中,单纯从距离衡量竞争关系大小的角度出发是不准确的,因为在互联网上,相距较远的实体也可能存在竞争关系,以美团为例,美团上理发店A和理发店B相距五公里,但其主营业务一样,即存在竞争关系。因此,单纯的考虑距离来评价竞争关系是不合理的,本发明实施例引入地理位置信息影响因子α,其作用是调整簇与簇之间的距离,让不同簇的差异性更大。
S55、根据地理位置信息影响因子α和实际距离Disij计算得到实体距离量化值F(Disij):
F(Disij)=α·Disij (6)
S6、根据实体的用户评论时间数据计算得到实体时间属性影响力量化值。
如图5所示,步骤S6包括以下分步骤S61~S64:
S61、以周为单位对实体的用户评论时间数据进行划分,在每周内将实体的用户评论时间数据分为工作日week1和假期week2,得到集合G1={week1,week2},并根据集合G1计算得到短期时间属性因子βn
Figure BDA0002055591940000091
其中weekn(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G1中的类别。
S62、以月为单位将实体的用户评论时间数据划分为12类,得到集合G2={month1,month2,...,month12},并根据集合G2计算得到中长期时间属性因子γj
Figure BDA0002055591940000092
其中monthj(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G2中的类别。
S63、以季度为单位将实体的用户评论时间数据划分为4类,得到集合G3={quarter1,quarter2,quarter3,quarter4},并根据集合G3计算得到长期时间属性因子θk
Figure BDA0002055591940000093
其中quarterk(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G3中的类别。
S64、根据短期时间属性因子βn、中长期时间属性因子γj和长期时间属性因子θk计算得到实体时间属性影响力量化值:
H(entityi)=βnjk (10)
其中H(entityi)表示第i个实体entityi的实体时间属性影响力量化值。
S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值,计算公式为:
步骤S7中实体相似度量化值的计算公式为:
P(entityi)=C(entityi)+F(Disij)+H(entityi) (11)
其中P(entityi)表示第i个实体entityi的实体相似度量化值,C(entityi)表示第i个实体entityi的主题-特征匹配值,F(Disij)表示第i个实体entityi和第j个实体entityj之间的实体距离量化值,H(entityi)表示第i个实体entityi的实体时间属性影响力量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数。
S8、根据实体相似度量化值计算得到实体竞争关系量化值,计算公式为:
步骤S8中实体竞争关系量化值的计算公式为:
Figure BDA0002055591940000101
其中
Figure BDA0002055591940000102
表示第i个实体entityi和第j个实体entityj之间的实体竞争关系量化值,P(entityi)表示第i个实体entityi的实体相似度量化值,P(entityj)表示第j个实体entityj的实体相似度量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数。
S9、对实体竞争关系量化值进行归一化处理,得到实体竞争关系数据。
本发明实施例中,采用Min-Max Normalization方法对实体竞争关系量化值进行归一化处理,计算公式为:
Figure BDA0002055591940000103
其中xij表示第i个实体entityi和第j个实体entityj之间的实体竞争关系数据,
Figure BDA0002055591940000104
表示第i个实体entityi和第j个实体entityj之间的实体竞争关系量化值,
Figure BDA0002055591940000105
Figure BDA0002055591940000106
分别表示所有实体竞争关系量化值中的最大值和最小值。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (6)

1.一种基于时空属性的实体竞争关系数据挖掘方法,其特征在于,包括以下步骤:
S1、通过网络爬虫程序爬取实体的用户评论数据、实体的用户评论时间数据以及实体的经纬度数据;
S2、对实体的用户评论数据进行预处理;
S3、采用LDA对预处理后实体的用户评论数据进行主题提取,得到用户评论主题;
S4、根据用户评论主题构建主题-特征匹配规则,并根据主题-特征匹配规则计算得到实体的主题-特征匹配值;
S5、根据实体的经纬度数据计算得到实体距离量化值;
S6、根据实体的用户评论时间数据计算得到实体时间属性影响力量化值;
S7、根据实体的主题-特征匹配值、实体距离量化值以及实体时间属性影响力量化值计算得到实体相似度量化值;
S8、根据实体相似度量化值计算得到实体竞争关系量化值;
S9、对实体竞争关系量化值进行归一化处理,得到实体竞争关系数据;
所述步骤S5包括以下分步骤:
S51、根据实体的经纬度数据计算实体两两之间的实际距离Disij,其中Disij表示第i个实体entityi和第j个实体entityj之间的实际距离,i=1,2,...,m;j=1,2,...,m,m为实体总数;
S52、设置空间阈值d,将实际距离小于空间阈值d的两个实体entityi和entityj定义为相邻实体neighbor(entityi,entityj);
S53、以相邻实体neighbor(entityi,entityj)作为聚类初始值,采用KNN算法对实际距离Disij进行聚类,得到簇C={C1,C2,C3,...,Cn};
S54、根据簇C计算得到地理位置信息影响因子α={α123,...,αn},计算公式为:
Figure FDA0002366682920000011
其中n为簇的个数,Cl表示第l个簇内点的数量;
S55、根据地理位置信息影响因子α和实际距离Disij计算得到实体距离量化值F(Disij):
F(Disij)=α·Disij (6)
所述步骤S6包括以下分步骤:
S61、以周为单位对实体的用户评论时间数据进行划分,在每周内将实体的用户评论时间数据分为工作日week1和假期week2,得到集合G1={week1,week2},并根据集合G1计算得到短期时间属性因子βn
Figure FDA0002366682920000021
其中weekn(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G1中的类别;
S62、以月为单位将实体的用户评论时间数据划分为12类,得到集合G2={month1,month2,...,month12},并根据集合G2计算得到中长期时间属性因子γj
Figure FDA0002366682920000022
其中monthj(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G2中的类别;
S63、以季度为单位将实体的用户评论时间数据划分为4类,得到集合G3={quarter1,quarter2,quarter3,quarter4},并根据集合G3计算得到长期时间属性因子θk
Figure FDA0002366682920000023
其中quarterk(userh)表示第i个实体entityi中第h个用户userh评论时间在集合G3中的类别;
S64、根据短期时间属性因子βn、中长期时间属性因子γj和长期时间属性因子θk计算得到实体时间属性影响力量化值:
H(entityi)=βnjk (10)
其中H(entityi)表示第i个实体entityi的实体时间属性影响力量化值;
所述步骤S7中实体相似度量化值的计算公式为:
P(entityi)=C(entityi)+F(Disij)+H(entityi) (11)
其中P(entityi)表示第i个实体entityi的实体相似度量化值,C(entityi)表示第i个实体entityi的主题-特征匹配值,F(Disij)表示第i个实体entityi和第j个实体entityj之间的实体距离量化值,H(entityi)表示第i个实体entityi的实体时间属性影响力量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数;
所述步骤S8中实体竞争关系量化值的计算公式为:
Figure FDA0002366682920000031
其中
Figure FDA0002366682920000032
表示第i个实体entityi和第j个实体entityj之间的实体竞争关系量化值,P(entityi)表示第i个实体entityi的实体相似度量化值,P(entityj)表示第j个实体entityj的实体相似度量化值,i=1,2,...,m;j=1,2,...,m,m为实体总数。
2.根据权利要求1所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S2中对实体的用户评论数据进行预处理包括小写转换、去除标点、去除停用词、词条化、拼写校正、词形还原以及词干提取。
3.根据权利要求1所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S3包括以下分步骤:
S31、针对预处理后实体的用户评论数据,将每个实体对应的所有评论作为一篇文档;
S32、从文档的Dirichlet分布α中取样生成文档i的主题分布θi
S33、从主题分布θi中取样生成文档i第j个词的主题zi,j
S34、从文档的Dirichlet分布β中取样生成主题zi,j的词语多项式分布Φzi,j
S35、从词语多项式分布Φzi,j中采样生成主题zi,j的词语wi,j
S36、重复步骤S32~S35,直至生成K个主题及其对应的词语。
4.根据权利要求3所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S36中主题数量K的确定方法为:
计算每个主题分布的困惑度perplexity,计算公式为:
Figure FDA0002366682920000033
其中N表示在不排重的情况下统计得到的主题分布中所有词语的数量,p(w)表示主题分布中出现词语w的概率,计算公式为:
p(w)=∑zp(z|d)*p(w|z) (2)
其中p(z|d)表示从文档d中抽到主题z的概率,p(w|z)表示从主题z中抽到词语w的概率;
根据每个主题分布的不同区间范围和步长对困惑度perplexity进行迭代,绘制主题数量-困惑度曲线,并在主题数量-困惑度曲线的局部最小值处取得主题数量K的最佳取值。
5.根据权利要求4所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S4包括以下分步骤:
S41、根据K个主题及其对应的词语,建立K条主题-特征匹配规则,每条主题-特征匹配规则为该主题与该主题下概率值最大的词语相匹配;
S42、将每个实体的用户评论对应文档依次输入K条主题-特征匹配规则,根据匹配结果计算得到每个实体的主题-特征匹配值,计算公式为:
Figure FDA0002366682920000041
其中C(entityi)表示第i个实体entityi的主题-特征匹配值,i=1,2,...,m,m为实体总数,scoreik表示第i个实体中第k个词语的匹配值,计算公式为:
Figure FDA0002366682920000042
ni表示第i个实体的用户评论数据中词语的数量,
Figure FDA0002366682920000043
表示第i个实体的用户评论数据输入第t条主题-特征匹配规则后得到的匹配值,K为主题-特征匹配规则总数。
6.根据权利要求1所述的实体竞争关系数据挖掘方法,其特征在于,所述步骤S9中实体竞争关系数据的计算公式为:
Figure FDA0002366682920000044
其中xij表示第i个实体entityi和第j个实体entityj之间的实体竞争关系数据,
Figure FDA0002366682920000045
表示第i个实体entityi和第j个实体entityj之间的实体竞争关系量化值,
Figure FDA0002366682920000046
Figure FDA0002366682920000047
分别表示所有实体竞争关系量化值中的最大值和最小值。
CN201910388351.7A 2019-05-10 2019-05-10 一种基于时空属性的实体竞争关系数据挖掘方法 Active CN110110013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910388351.7A CN110110013B (zh) 2019-05-10 2019-05-10 一种基于时空属性的实体竞争关系数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910388351.7A CN110110013B (zh) 2019-05-10 2019-05-10 一种基于时空属性的实体竞争关系数据挖掘方法

Publications (2)

Publication Number Publication Date
CN110110013A CN110110013A (zh) 2019-08-09
CN110110013B true CN110110013B (zh) 2020-03-24

Family

ID=67489272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910388351.7A Active CN110110013B (zh) 2019-05-10 2019-05-10 一种基于时空属性的实体竞争关系数据挖掘方法

Country Status (1)

Country Link
CN (1) CN110110013B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522888B (zh) 2020-04-22 2023-06-20 北京百度网讯科技有限公司 挖掘兴趣点之间的竞争关系的方法和装置
CN112905740B (zh) * 2021-02-04 2022-08-30 合肥工业大学 一种竞品层次的主题偏好挖掘方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN107590246A (zh) * 2017-09-15 2018-01-16 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107958009A (zh) * 2016-10-18 2018-04-24 百度在线网络技术(北京)有限公司 企业信息获取方法、装置以及设备
CN108242017A (zh) * 2018-02-07 2018-07-03 杭州蜜迩科技有限公司 一种基于位置的点评互动系统和方法
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108765042A (zh) * 2018-03-22 2018-11-06 浙江大学城市学院 一种基于用户与商铺网络-物理空间交互行为的商铺推荐算法
CN108829744A (zh) * 2018-05-24 2018-11-16 湖北文理学院 一种基于情境要素和用户偏好的旅行方式推荐方法
CN109241273A (zh) * 2018-08-23 2019-01-18 云南大学 一种新媒体环境下少数民族主题数据的抽取方法
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9367536B2 (en) * 2013-05-03 2016-06-14 Facebook, Inc. Using inverse operators for queries on online social networks
US20170091838A1 (en) * 2015-09-30 2017-03-30 International Business Machines Corporation Product recommendation using sentiment and semantic analysis
CN107862617A (zh) * 2017-10-20 2018-03-30 江苏大学 一种基于用户综合相似度的微博社区划分方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法
CN107958009A (zh) * 2016-10-18 2018-04-24 百度在线网络技术(北京)有限公司 企业信息获取方法、装置以及设备
CN107633044A (zh) * 2017-09-14 2018-01-26 国家计算机网络与信息安全管理中心 一种基于热点事件的舆情知识图谱构建方法
CN107590246A (zh) * 2017-09-15 2018-01-16 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN108242017A (zh) * 2018-02-07 2018-07-03 杭州蜜迩科技有限公司 一种基于位置的点评互动系统和方法
CN108765042A (zh) * 2018-03-22 2018-11-06 浙江大学城市学院 一种基于用户与商铺网络-物理空间交互行为的商铺推荐算法
CN108460499A (zh) * 2018-04-02 2018-08-28 福州大学 一种融合用户时间信息的微博客用户影响力排名方法
CN108829744A (zh) * 2018-05-24 2018-11-16 湖北文理学院 一种基于情境要素和用户偏好的旅行方式推荐方法
CN109241273A (zh) * 2018-08-23 2019-01-18 云南大学 一种新媒体环境下少数民族主题数据的抽取方法
CN109670039A (zh) * 2018-11-20 2019-04-23 华南师范大学 基于三部图和聚类分析的半监督电商评论情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于社交媒体的企业竞争情报管理研究;胡安琪;《中国优秀硕士学位论文全文数据库经济与管理科学辑》;20170215(第 02 期);J152-2533 *

Also Published As

Publication number Publication date
CN110110013A (zh) 2019-08-09

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107862087B (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
CN110825882A (zh) 一种基于知识图谱的信息系统管理方法
US20160140106A1 (en) Phrase-based data classification system
CN113704451B (zh) 一种电力用户诉求筛选方法、系统、电子设备和存储介质
CN109299865B (zh) 基于语义分析的心理测评系统及方法、信息数据处理终端
Shirsat et al. Document level sentiment analysis from news articles
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN110110013B (zh) 一种基于时空属性的实体竞争关系数据挖掘方法
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN114255096A (zh) 数据需求匹配方法和装置、电子设备、存储介质
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN114692628A (zh) 样本生成方法、模型训练方法、文本抽取方法和装置
CN105718444A (zh) 基于新闻语料的金融概念对应股票关联方法及其装置
CN103646017A (zh) 用于命名的缩略词生成系统及其工作方法
CN114445043B (zh) 基于开放生态化云erp异质图用户需求精准发现方法及系统
CN103019924A (zh) 输入法智能性评测系统和方法
CN110347824B (zh) 一种基于词汇相似性的lda主题模型最优主题数确定方法
CN109298796B (zh) 一种词联想方法及装置
CN117852553B (zh) 基于聊天记录提取元器件交易场景信息的语言处理系统
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质
Shaleha et al. Sentiment Analysis with Supervised Topic Modelling on Twitter Data Related to Indonesian Election 2024
Agarwal et al. Sentiment Analysis Dashboard for Socia Media comments using BERT
CN113641788B (zh) 一种基于无监督的长短影评细粒度观点挖掘方法
CN117195004B (zh) 一种融合行业分类和wvLDA主题模型的政策匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant