CN112905741B

CN112905741B - 一种考虑时空特征的供水用户关注点挖掘方法

Info

Publication number: CN112905741B
Application number: CN202110183557.3A
Authority: CN
Inventors: 穆利; 朱波; 姜元春; 吴铭; 李�浩; 王亚琦; 钱洋; 孔子涵; 孙见山
Original assignee: Hefei Water Group Co ltd; Hefei University of Technology
Current assignee: Hefei Water Group Co ltd; Hefei University of Technology
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-04-12
Anticipated expiration: 2041-02-08
Also published as: CN112905741A

Abstract

本发明公开了一种考虑时空特征的供水用户关注点挖掘方法，其步骤包括：1.基于时间维度数据，构建T个带时间标签的用水文本数据；2.基于空间维度数据，构建K个带空间标签的用水文本数据；3.基于时间和空间维度数据，构建T×K个带时‑空标签的用水文本数据；4.对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理，得到预处理后的用水文本数据；5.利用TF‑IDF在微观局部上挖掘出用户用水的关注点；6.利用主题模型在宏观整体上挖掘出用户用水的关注点。本发明能通过对用户反馈的用水文本数据进行挖掘，从而能快速且精确的得到用户对用水的关注点，并结合TF‑IDF和主题模型技术，在微观局部与宏观整体上实现结果的对比。

Description

一种考虑时空特征的供水用户关注点挖掘方法

技术领域

本发明涉及数据挖掘技术领域，特别是涉及一种考虑时空特征的供水用户关注点挖掘方法。

背景技术

随着自来水用户的不断增多，出现了各种各样的用水问题，用户对企业的反馈内容得到爆炸性的增长，反馈文本不仅数量巨大，而且是非结构化的，面对如此多和复杂的反馈文本，如何从中挖掘出供水用户的关注点成为一大难题。

近年来，文本分析技术已经得到了快速的发展，已经有不同的方法用来处理多而复杂的文本数据。其中TF-IDF和主题模型已经是较为成熟的技术。

发明内容

本发明为克服现有技术存在的不足之处，提供一种考虑时空特征的供水用户关注点挖掘方法，以期能通过对用户反馈的用水文本数据进行挖掘，从而能快速且精确的得到用户对用水的关注点，并结合TF-IDF和主题模型技术，在微观局部与宏观整体上实现结果的对比。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种考虑时空特征的供水用户关注点挖掘方法的特点是按如下步骤进行：

步骤1、基于时间维度数据，构建T个时间标签；

步骤1.1、获取客服热线数据，所述客服热线数据包括：时间维度数据、空间维度数据以及用户反馈的用水文本数据；

步骤1.2、获取所述客服热线数据中最大的时间跨度；

步骤1.3、将最大的时间跨度均分为T个时间段，从而形成T个时间标签，并将用户反馈的用水文本数据划分为T个带时间标签的用水文本数据；

步骤2、基于空间维度数据，构建K′个空间标签；

步骤2.1、抽取客服热线数据中用户的所在地址，并将用户的所在地址转换成经纬度信息；

步骤2.2、使用聚类算法对所述经纬度信息进行聚类，从而获得K′个空间标签，并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据；

步骤3、构建时间-空间标签，并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据；

步骤4、对所述用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理，得到预处理后的文本数据；

步骤5、采用TF-IDF方法对预处理后的用水文本数据提取能表征内容的关键词，并选取前N个关键词作为微观上用户对用水的关注点，从而得到T个带时间标签的用水文本数据中所提取出的微观上用户对用水的关注点、K′个带空间标签的用水文本数据中所提取出的微观上用户对用水的关注点、以及T×K′个带时-空标签的用水文本数据中所提取出的微观上用户对用水的关注点；

步骤6、采用主题模型的方法对预处理后的用水文本数据进行主题分析；

步骤6.1、将所有预处理后的用水文本数据整合，并构建语料库；

假设所述语料库中有M条用水文本数据，则所述语料库中所有的词记为

其中，

表示第m条用水文本数据集合，并有，

表示第m条用水数据集合中第i个词，N_m表示第m条用水文本数据中的单词数量，m＝1,2,…,M；

步骤6.2、计算语料库中用水文本数据的主题生成概率；

步骤6.2.1、利用式(1)得到第m条用水文本数据中的主题生成概率

式(1)中，

表示第m条用水文本数据中主题分布情况，且

表示第m条用水文本数据中第k个主题产生的词个数；α表示超参数，θ_m表示第m条用水文本数据的主题分布，且θ_m＝{θ_m1,θ_m2,...,θ_mk,...θ_mK}，θ_mk表示第m条用水文本数据在第k个主题上的权重，

表示第m条用水文本数据

对应的主题，且

表示第m条用水文本数据中第i个词对应的主题编号，Δ为运算符，且对于任意K维的向量x，有：

x_k表示K维向量的第k个分量，Γ(·)为伽马函数，且θ_m服从参数为α的狄利克雷分布，

服从参数为θ_m的多项式分布；

步骤6.2.2、利用式(2)得到所述语料库中所有主题的主题生成概率

式(2)中，

表示所述语料库中所有词对应的主题，且

步骤6.3、计算语料库中用水文本数据的词生成概率；

步骤6.3.1、利用式(3)得到第k个主题的词生成概率

式(3)中，

表示由第k个主题产生的词，

表示词

对应的主题，β是超参数，

表示语料库中主题k的词分布，且

表示第v个词在主题k下所有词中所占权重，V表示语料库中所有不重复词的总数；

服从参数为β的狄利克雷分布，

服从参数为

的多项式分布；

表示第k个主题下词的分布情况，且

表示第k个主题产生第v个词的个数；

步骤6.3.2、利用式(4)得到所述语料库中所有词的词生成概率

步骤6.4、利用式(5)计算语料库中用水文本数据的联合生成概率

步骤6.5、利用式(6)计算语料库中每个词更新后的主题

式(6)中，

表示排除第i个词后，第m条文本数据中第k个主题对应的单词数目，z_i表示第i个词对应的主题，

表示排除第i个词后，其余单词对应的主题，∝表示正比于，

表示排除第i个词后，第k个主题生成的第v个词的数目；

步骤6.6、利用式(7)计算第k个主题的第v个词的权重

步骤6.7、利用式(8)计算第m条用水文本数据中第k个主题的权重θ_mk：

步骤6.8、根据第k个主题的第v个词的权重

从第k个主题选取前N个词作为第k个主题的关键词，并作为宏观上用户对用水关注点。

与已有技术相比，本发明有益效果体现在：

1、本发明构建了时间的标签，将用户的用水反馈文本划分为不同时间下的子文档集合；在不同的时间下，用户对用水的关注点可能也不一样，即在考虑了时间的因素下，挖掘出用户对用水的关注点会更加精确。

2、本发明构建了空间的标签，将用户的用水反馈文本划分为不同空间下的子文档集合；在不同的空间下，用户对用水的关注点可能也不一样，即在考虑了空间的因素下，挖掘出用户对用水的关注点会更加精确。

3、本发明在使用TF-IDF挖掘用户对用水的关注点时，由于TF-IDF本身不能识别语义信息，因此本发明构建了自己的停用词表以及语义对齐操作，使得挖掘出用户对用水的关注点会更加精确。

4、本发明在挖掘用户对用水的关注点时，也使用了主题模型的方式，适合大规模的文档集合的处理，更加符合实际上的需求，并且其结果具有良好的可解释性。

附图说明

图1是建立不同标签的用户反馈文本内容流程图；

图2是处理客服数据的用户反馈文本内容流程图；

图3是计算TF-IDF流程图；

图4是主题模型的拓扑结构图；

图5是主题模型有向图概率图表示的示意图；

图6是建立反馈文本主题模型的模型生成过程图。

具体实施方式

本实施例中，一种考虑时空特征的供水用户关注点挖掘方法是按如下步骤进行：

步骤1、基于时间维度数据，构建T个时间标签；

步骤1.1、获取客服热线数据，客服热线数据包括：时间维度数据、空间维度数据以及用户反馈的用水文本数据；

步骤1.2、获取客服热线数据中最大的时间跨度；假设客服数据的最大时间跨度为2020年1月至2020年11月，则时间跨度为11个月。并以月为时间段进行划分。

步骤2、基于空间维度数据，构建K′个空间标签；

步骤2.1、抽取客服热线数据中用户的所在地址，并将用户的所在地址转换成经纬度信息；本实施例中是通过调用高德地图API，将用户的所在地址转换成经纬度信息，包括以下步骤：

b1.依据客服中的用户地址数据，判断用户地址的类型；

b2.根据不同类型的地址，采取不同的方式对地址数据进行处理；

b3.将处理后的地址数据通过调用高德地图，得到经纬度信息；

在本实施例中，地址类型分为两种，一种是地址中带有“楼”字符，称为“楼”型地址。由于“楼”型地址后会带上“表”，“室”，“井”等字符。这种类型的地址是无法直接得到经纬度和所在地区，需要对它进行处理。注意到，这种类型的地址只需要“楼”之前的信息，因此只要在“楼”处截断即可。在这里调用了python中的strip().split(“楼”)[0]来实现上面的功能，不过这样做的话，会导致“楼”字都被去掉，因此要在结果后加上“楼”这个字符。另一种是地址中不含“楼”的字符串，这样的地址是可以直接得到经纬度和所在地区。

在本发明中，通过高德地图得到经纬度信息需要使用到网络爬虫技术和正则表达式的匹配技术。通过高德地图实现地址的转换要按以下步骤进行：

A.得到要转换的地址在高德地图上的URL；

B.对此URL发出请求；

C.对返回值进行text操作，使其变成字符串类型；

D.使用json.load对数据进行字典格式转换；

E.提取得到的数据；

在本实施例中，对地址进行批量转换成经纬度以及其所属的地区，需按以下步骤进行：

Step1:需要获取该地址在高德地图上的URL，观察高德地图的URL规律得知，只需要在URL的keywords里传入该地址即可。此时，需要使用python中的.format(“地址”)方法，至此，得到了该地址的URL。

Step2:对此URL发出请求，得到页面信息，对其进行text操作，使其变成字符串类型的数据。此时，需要使用python中的request.get(url).text的方法，至此得到了页面的信息，并将其变成了字符串类型的数据。

Step3:在Step2中得到的数据是以json形式返回的，所以要对text信息进行json的解析，将其变成子典类型，才可以进行索引和信息提取。此时，需要使用python中的json.loads()方法。

Step4:提取Step3中得到的数据，该数据在一个名为item的字典里，其中item[“location”]就是需要的经纬度信息。

正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符以及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑，从而实现字符串处理的便捷性和高效性。如表1所示为一个实施例的地址转换中用到的正则表达式及其功能：

表1正则表达式及其功能表

使用正则表达式，可以从逻辑匹配的结果中获取我们目标的数据形式，在地址转换中主要用到了正则表达式的以下操作功能：

1)匹配：“re.findall()”将搜索整个字符串，获得所有匹配的结果，返回的结果是列表的形式

2)替换：“re.sub(pattern,repl,string,count＝0,flags＝0)”repl替换掉string中被pattern匹配的字符，count表示最大替换次数，flags表示正则表达式的常量。

步骤2.2、使用聚类算法对经纬度信息进行聚类，从而获得K′个空间标签，并将用户反馈的用水文本数据划分为K′个带空间标签的用水文本数据；

本实施例中，基于所获得的经纬度信息，使用Pythonscikit-learn包中的DBSCAN聚类方法，获取K′个空间标签。

步骤3、构建时间-空间标签，并将用户反馈的用水文本数据划分为T×K′个带时-空标签的用水文本数据；如图1所示；

步骤4、对用户反馈的用水文本数据进行去停用词、语义对齐以及分词处理，得到预处理后的用水文本数据；

本实施例中，对用户反馈的用水文本数据进行处理，如图2所示，包括以下步骤：

Step1:挑选一个标签下的用水文本数据；

Step2:构建停用词表；

Step3:进行语义对齐处理；

Step4:进行分词处理；

Step5:最终得到经过处理后的用水文本数据；

本实施例中，对用水文本数据进行去停用词处理。停用词表中的内容主要有中文、数字、特殊字符、标点符号等。在现有停用词表的基础上，根据实际的用水文本数据，采用词频统计及排序的方法，获取排序后上5％的词汇作为高频词，获取排序下5％的词汇作为低频词，对现有的停用词表进行修改，得到最终需要的停用词表。停用词表中的部分内容如表2所示：

表2部分停用词表

类型	部分内容
		中文	户号，用户，一下，一次，事宜，不如，之一，再
数字	0，1，2，3，4，5，6，7，8，9
		特殊字符	/，//，[,],＝，>,<,
标点符号	，。“”？！

在挖掘微观局部上的用户对用水关注点时，使用了TF-IDF的方法，但是TF-IDF有一个缺点，即TF-IDF在提取关键词的时候，是不能识别语义信息的。“停水”、“没水”虽然不相同，但是其表达的含义是相同的，如果直接进行关键词的提取，就会对结果造成比较大的影响。

本实施例中，对用水文本数据进行语义对齐处理，以此来保证结果的准确性和可靠性。部分语义对齐如表3所示。

表3：部分语义对齐表

本实施例中，使用正则表达式来进行用水文本数据的语义对齐操作。“停水”与“没水”的语义对齐操作可以使用python中的re.sub(“没水”，“停水”，要处理的文本)方法。

本实施例中，对用水文本数据进行分词处理。使用结巴分词的方法，目前结巴分词支持三种分词模式：

1)精确模式：试图将句子最精确地切开，适合文本分析。

2)全模式：把句子中所有的可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。

3)搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

在本实施例中，对用水文本数据进行分词处理时，使用的是精确模式，与此同时调用Step2中构建的停用词表，去除停用词，提高分词的精确性。最终得到了处理之后的用水文本数据。

TF-IDF是一种用于信息检索与文本挖掘的常用加权技术，用以评估一个词对于一个文件集或一个语料库中的其中一份文件的重要程度。词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

在本实施例中，为了挖掘出微观局部上用户对用水的关注点，对用水文本数据进行提取关键词的操作，使用TF-IDF方法，需要以下几个步骤，如图3所示：

Step1:选取某个标签下的用水文本数据，将其均匀的分成D个文档，构成语料库；

Step2:利用式(1)计算词i在文档j中出现的频率tf_ij：

式(1)中,n_ij表示词i在文档j中出现的次数，分母∑_in_ij表示文档j中所有词汇出现的次数之和。词频(TF)表示词条(关键字)在文档中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文档。

Step3:利用式(2)计算词i的逆向文件频率idf_i：

式(2)中，|D|表示语料库中的文档总数，|{j:t_i∈d_j}|表示包含词语t_i的文档数量(即n_ij≠0时的文档数目)。如果该词不在语料库中，就会导致分母为0，因此一般情况下使用1+|{j:t_i∈d_j}|。

逆向文件频率(IDF)：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到。如果包含词条t的文档越少,IDF越大，则说明词条具有很好的类别区分能力。

Step4:利用式(3)计算词i在语料库中出现的权重tf-idf_i：

tf-idf_i＝tf_ij×idf_i (3)

Step5:选取前N个词作为该用水文本数据的关键词，即用户对用水的关注点。

在本实施例中，对获取到的用水文本数据进行提取关键词的操作，利用TF-IDF的方法，在微观局部上提取表征用户对用水关注点的相关数据。如表4所示为TF-IDF方法提取的用水文本数据的部分关键词：

表4：TF-IDF方法获取的部分关键词表

对预处理后的用水文本数据进行主题分析的操作，可采用主题建模方法，图4是一个主题建模模型拓扑结构图，其中C1为文档层、C2为主题层、C3为单词层。使用主题建模的方法，需要以下步骤：

Step1.将所有的处理后的用水文本数据作为一个语料库；

Step2.对于语料库中的每一条用水文本，从其主题分布中抽样生成一个主题；

Step3.从Step2中被抽到的这个主题所对应的单词分布中随机抽取一个单词；

如图5所示的概率图模型，M表示语料库中的用水文本数目，则语料库中所有的词记为

其中，

表示第m条用水文本数据集合，并有，

表示第m条用水文本数据集合中第i个词，N_m表示第m条用水文本数据中的单词数量，m＝1,2,…,M；K表示主题模型中的主题数；V表示整个语料库中不重复单词的数目；θ_m是一个M*K的矩阵，表示语料库中第m条用水文本数据的主题分布；

是一个K*V的矩阵，表示语料库中主题为k的单词的分布；α是每条用水文本数据的主题分布的参数，θ_m服从参数为α的狄利克雷分布；β是每个主题的词分布参数，其中

服从参数为β的狄利克雷分布。

步骤6.2、计算语料库中用水文本数据的主题生成概率；

如图6所示的是建立用水文本数据主题模型生成过程图，由此得知，该模型的生成过程有个物理过程。第一个物理过程α→θ_m→z_m,n，这个过程表示生成第m条用水文本数据中第n个词的主题z_m,n。对于语料库中的第m条用水文本数据，利用狄利克雷分布生成第m条用水文本中的主题分布θ_m，然后在主题分布中生成用水文本数据中第个n词的主题z_m,n。

由第一个物理过程可以知道，

表示生成第m条用水文本数据中所有词的主题，由于α→θ_m是一个狄利克雷分布，

是一个多项式分布，所以整体形成了一个狄利克雷多项式共轭结构。由此计算出第m条用水文本数据中的主题生成概率。

式(1)中，

表示第m条用水文本数据中主题分布情况，且

表示第m条用水文本数据

对应的主题，且

服从参数为θ_m的多项式分布；

因为语料库中M条用水文本数据的主题生成过程是相互独立的，所以可以得到M个相互独立的狄利克雷多项式共轭结构，由此计算出语料库中所有主题的主题生成概率。

步骤6.2.2、利用式(2)得到语料库中所有主题的主题生成概率

式(2)中，

表示语料库中所有词对应的主题，且

本实施例中，如图6所示的是建立用水文本数据主题模型生成过程图，由此得知，该模型的生成过程有个物理过程。第二个物理过程

这个过程表示了用户生成第m条用水文本中第n个词w_m,n。对于第m条用水文本数据中第n个词w_m,n的主题z_m,n，利用狄利克雷分布生成其词分布

然后在词分布中抽样生成w_m,n。

由第二个物理过程可以知道，

表示生成语料库中第k个主题下的所有词，由于

是一个狄利克雷分布，

是一个多项式分布，所以整体形成了一个狄利克雷多项式共轭结构。由此计算出语料库中第k个主题的词生成概率。